{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:KNM3LVVKWQHJORDLHE6OAYW3HK","short_pith_number":"pith:KNM3LVVK","schema_version":"1.0","canonical_sha256":"5359b5d6aab40e97446b393ce062db3a8468287ea5136c9518d3a59f9074676a","source":{"kind":"arxiv","id":"2509.22186","version":2},"attestation_state":"computed","paper":{"title":"MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"MinerU2.5 decouples global layout analysis on downsampled images from local content recognition on native-resolution crops to parse high-resolution documents with state-of-the-art accuracy and lower compute.","cross_cats":["cs.CL"],"primary_cat":"cs.CV","authors_text":"Bin Wang, Bowen Zhou, Boyu Niu, Bo Zhang, Chao Xu, Conghui He, Dahua Lin, Dechen Lin, Dongsheng Ma, Fangdong Wang, Fan Wu, Guang Liang, Guangyu Wang, Guanlin Shen, Hejun Dong, Huaiyu Gu, Jiang Wu, Jiaqi Wang, Jingzhou Chen, Junbo Niu, Junyuan Zhang, Kai Chen, Keming Wang, Lei Bai, Lijun Wu, Lindong Lu, Linfeng Zhang, Linke Ouyang, Liqun Wei, Lu Chen, Pei Chu, Qianqian Wu, Qintong Zhang, Ruiliang Xu, Rui Zhang, Shasha Wang, Siyi Qian, Tao Chu, Tianyao He, Weijia Li, Wei Li, Wentao Zhang, Wenzheng Zhang, Xiaomeng Zhao, Xiaoyi Dong, Xuanhe Zhou, Yuanhong Zheng, Yuan Qu, Yuanyuan Cao, Yuefeng Sun, Yuhang Zang, Yu Qiao, Zheng Liu, Zhenjiang Jin, Zhenxiang Li, Zhifei Ren, Zhiyuan Zhao, Zhongying Tu, Zhuangcheng Gu, Zirui Tang, Ziyang Miao","submitted_at":"2025-09-26T10:45:48Z","abstract_excerpt":"We introduce MinerU2.5, a 1.2B-parameter document parsing vision-language model that achieves state-of-the-art recognition accuracy while maintaining exceptional computational efficiency. Our approach employs a coarse-to-fine, two-stage parsing strategy that decouples global layout analysis from local content recognition. In the first stage, the model performs efficient layout analysis on downsampled images to identify structural elements, circumventing the computational overhead of processing high-resolution inputs. In the second stage, guided by the global layout, it performs targeted conten"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2509.22186","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2025-09-26T10:45:48Z","cross_cats_sorted":["cs.CL"],"title_canon_sha256":"7d736e0e6070fa6972699d4a8ae231053d3f37d2417a757fb6c5179f14a3182b","abstract_canon_sha256":"4ea496a2203326b5f6d84a4833a29eb95409b80ebfdd83fa7ecb7a0f53627b70"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:13.964475Z","signature_b64":"NFNUbASLGVvCZXY4X8/u/uxt1FBniujYOxsUrRzA3WayRn6Iy9SQvXAX816krQcNQp6QH/Bcs224CwlA3m9+DA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"5359b5d6aab40e97446b393ce062db3a8468287ea5136c9518d3a59f9074676a","last_reissued_at":"2026-05-17T23:38:13.963948Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:13.963948Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"MinerU2.5 decouples global layout analysis on downsampled images from local content recognition on native-resolution crops to parse high-resolution documents with state-of-the-art accuracy and lower compute.","cross_cats":["cs.CL"],"primary_cat":"cs.CV","authors_text":"Bin Wang, Bowen Zhou, Boyu Niu, Bo Zhang, Chao Xu, Conghui He, Dahua Lin, Dechen Lin, Dongsheng Ma, Fangdong Wang, Fan Wu, Guang Liang, Guangyu Wang, Guanlin Shen, Hejun Dong, Huaiyu Gu, Jiang Wu, Jiaqi Wang, Jingzhou Chen, Junbo Niu, Junyuan Zhang, Kai Chen, Keming Wang, Lei Bai, Lijun Wu, Lindong Lu, Linfeng Zhang, Linke Ouyang, Liqun Wei, Lu Chen, Pei Chu, Qianqian Wu, Qintong Zhang, Ruiliang Xu, Rui Zhang, Shasha Wang, Siyi Qian, Tao Chu, Tianyao He, Weijia Li, Wei Li, Wentao Zhang, Wenzheng Zhang, Xiaomeng Zhao, Xiaoyi Dong, Xuanhe Zhou, Yuanhong Zheng, Yuan Qu, Yuanyuan Cao, Yuefeng Sun, Yuhang Zang, Yu Qiao, Zheng Liu, Zhenjiang Jin, Zhenxiang Li, Zhifei Ren, Zhiyuan Zhao, Zhongying Tu, Zhuangcheng Gu, Zirui Tang, Ziyang Miao","submitted_at":"2025-09-26T10:45:48Z","abstract_excerpt":"We introduce MinerU2.5, a 1.2B-parameter document parsing vision-language model that achieves state-of-the-art recognition accuracy while maintaining exceptional computational efficiency. Our approach employs a coarse-to-fine, two-stage parsing strategy that decouples global layout analysis from local content recognition. In the first stage, the model performs efficient layout analysis on downsampled images to identify structural elements, circumventing the computational overhead of processing high-resolution inputs. In the second stage, guided by the global layout, it performs targeted conten"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"MinerU2.5 demonstrates strong document parsing ability, achieving state-of-the-art performance on multiple benchmarks, surpassing both general-purpose and domain-specific models across various recognition tasks, while maintaining significantly lower computational overhead.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That coarse layout analysis performed on downsampled images provides sufficiently accurate guidance for extracting and recognizing native-resolution crops without introducing errors in dense text, complex formulas, or table structures.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"MinerU2.5 uses a two-stage decoupled vision-language architecture to achieve state-of-the-art document parsing accuracy with lower computational overhead than existing general and domain-specific models.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"MinerU2.5 decouples global layout analysis on downsampled images from local content recognition on native-resolution crops to parse high-resolution documents with state-of-the-art accuracy and lower compute.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"547612727f1c08aa60644d38ff097f0e71b8f711553a944b32fb41efcf0d768b"},"source":{"id":"2509.22186","kind":"arxiv","version":2},"verdict":{"id":"ac65dee8-3b0d-4c15-b1e3-8ae183c0e188","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-17T13:20:11.638576Z","strongest_claim":"MinerU2.5 demonstrates strong document parsing ability, achieving state-of-the-art performance on multiple benchmarks, surpassing both general-purpose and domain-specific models across various recognition tasks, while maintaining significantly lower computational overhead.","one_line_summary":"MinerU2.5 uses a two-stage decoupled vision-language architecture to achieve state-of-the-art document parsing accuracy with lower computational overhead than existing general and domain-specific models.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That coarse layout analysis performed on downsampled images provides sufficiently accurate guidance for extracting and recognizing native-resolution crops without introducing errors in dense text, complex formulas, or table structures.","pith_extraction_headline":"MinerU2.5 decouples global layout analysis on downsampled images from local content recognition on native-resolution crops to parse high-resolution documents with state-of-the-art accuracy and lower compute."},"references":{"count":63,"sample":[{"doi":"","year":2023,"title":"GPT-4 Technical Report","work_id":"b928e041-6991-4c08-8c81-0359e4097c7b","ref_index":1,"cited_arxiv_id":"2303.08774","is_internal_anchor":true},{"doi":"","year":2022,"title":"Wukong-reader: Multi-modal pre-training for fine-grained visual document understanding.arXiv preprint arXiv:2212.09621, 2022","work_id":"5ab3d15a-640e-4244-810e-cc619f52dad4","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Qwen2.5-VL Technical Report","work_id":"69dffacb-bfe8-442d-be86-48624c60426f","ref_index":3,"cited_arxiv_id":"2502.13923","is_internal_anchor":true},{"doi":"","year":2023,"title":"Nougat: Neural Optical Understanding for Academic Documents","work_id":"26c3b627-7e97-40d7-bab3-020936b8196b","ref_index":4,"cited_arxiv_id":"2308.13418","is_internal_anchor":true},{"doi":"","year":2025,"title":"chatdoc com. Ocrflux.https://github.com/chatdoc-com/OCRFlux, 2025. Accessed:2025-09-25","work_id":"c9d28b27-542c-4250-990f-746ad3563e7c","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":63,"snapshot_sha256":"a041b7580e37103bbc78e81817e5f7e9a6df11758cb78ef7e14efa4eaa020016","internal_anchors":17},"formal_canon":{"evidence_count":2,"snapshot_sha256":"16208874e119a71a327125a432000c5f3a49fae71d98265506d02ce75c3ee3cc"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2509.22186","created_at":"2026-05-17T23:38:13.964033+00:00"},{"alias_kind":"arxiv_version","alias_value":"2509.22186v2","created_at":"2026-05-17T23:38:13.964033+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2509.22186","created_at":"2026-05-17T23:38:13.964033+00:00"},{"alias_kind":"pith_short_12","alias_value":"KNM3LVVKWQHJ","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"KNM3LVVKWQHJORDL","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"KNM3LVVK","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":26,"internal_anchor_count":26,"sample":[{"citing_arxiv_id":"2606.03054","citing_title":"ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2606.03264","citing_title":"PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22100","citing_title":"MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2606.29905","citing_title":"StrucTab: A Structured Optimization Framework for Table Parsing","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.27978","citing_title":"ABot-OCR Technical Report","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22100","citing_title":"MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21481","citing_title":"AiraXiv: An AI-Driven Open-Access Platform for Human and AI Scientists","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17356","citing_title":"UniPPTBench: A Unified Benchmark for Presentation Generation Across Diverse Input Settings","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2511.14998","citing_title":"FinCriticalED: A Visual Benchmark for Financial Fact-Level OCR","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2601.13606","citing_title":"ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21957","citing_title":"PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2603.09677","citing_title":"Logics-Parsing-Omni Technical Report","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2603.13224","citing_title":"Visual-ERM: Reward Modeling for Visual Equivalence","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2603.24326","citing_title":"Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12882","citing_title":"CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2604.00161","citing_title":"Q-Mask: Query-driven Causal Masks for Text Anchoring in OCR-Oriented Vision-Language Models","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02692","citing_title":"Parser-Oriented Structural Refinement for a Stable Layout Interface in Document Parsing","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02880","citing_title":"InstructTable: Improving Table Structure Recognition Through Instructions","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02794","citing_title":"CharTool: Tool-Integrated Visual Reasoning for Chart Understanding","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09927","citing_title":"Information Extraction of Nested Complex Structure of Quantum Cascade Lasers via Large Language Models","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01345","citing_title":"The Perceptual Bandwidth Bottleneck in Vision-Language Models: Active Visual Reasoning via Sequential Experimental Design","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01345","citing_title":"The Perceptual Bandwidth Bottleneck in Vision-Language Models: Active Visual Reasoning via Sequential Experimental Design","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2604.10167","citing_title":"Visual Late Chunking: An Empirical Study of Contextual Chunking for Efficient Visual Document Retrieval","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07492","citing_title":"How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2604.04771","citing_title":"MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale","ref_index":25,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/KNM3LVVKWQHJORDLHE6OAYW3HK","json":"https://pith.science/pith/KNM3LVVKWQHJORDLHE6OAYW3HK.json","graph_json":"https://pith.science/api/pith-number/KNM3LVVKWQHJORDLHE6OAYW3HK/graph.json","events_json":"https://pith.science/api/pith-number/KNM3LVVKWQHJORDLHE6OAYW3HK/events.json","paper":"https://pith.science/paper/KNM3LVVK"},"agent_actions":{"view_html":"https://pith.science/pith/KNM3LVVKWQHJORDLHE6OAYW3HK","download_json":"https://pith.science/pith/KNM3LVVKWQHJORDLHE6OAYW3HK.json","view_paper":"https://pith.science/paper/KNM3LVVK","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2509.22186&json=true","fetch_graph":"https://pith.science/api/pith-number/KNM3LVVKWQHJORDLHE6OAYW3HK/graph.json","fetch_events":"https://pith.science/api/pith-number/KNM3LVVKWQHJORDLHE6OAYW3HK/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/KNM3LVVKWQHJORDLHE6OAYW3HK/action/timestamp_anchor","attest_storage":"https://pith.science/pith/KNM3LVVKWQHJORDLHE6OAYW3HK/action/storage_attestation","attest_author":"https://pith.science/pith/KNM3LVVKWQHJORDLHE6OAYW3HK/action/author_attestation","sign_citation":"https://pith.science/pith/KNM3LVVKWQHJORDLHE6OAYW3HK/action/citation_signature","submit_replication":"https://pith.science/pith/KNM3LVVKWQHJORDLHE6OAYW3HK/action/replication_record"}},"created_at":"2026-05-17T23:38:13.964033+00:00","updated_at":"2026-05-17T23:38:13.964033+00:00"}