{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:CMDBZD66D25STJEVFILEYMFOWV","short_pith_number":"pith:CMDBZD66","schema_version":"1.0","canonical_sha256":"13061c8fde1ebb29a4952a164c30aeb575585f6faadc075ce8f64822a9da0bc3","source":{"kind":"arxiv","id":"2409.18839","version":1},"attestation_state":"computed","paper":{"title":"MinerU: An Open-Source Solution for Precise Document Content Extraction","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"MinerU combines PDF-Extract-Kit models with custom rules to deliver high-precision document content extraction in open source.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Bin Wang, Botian Shi, Bo Zhang, Chao Xu, Conghui He, Dahua Lin, Fan Wu, Fukai Shang, Kaiwen Liu, Linke Ouyang, Liqun Wei, Rui Xu, Wei Li, Xiaomeng Zhao, Yuan Qu, Yu Qiao, Zhihao Sui, Zhiyuan Zhao","submitted_at":"2024-09-27T15:35:15Z","abstract_excerpt":"Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing an"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2409.18839","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2024-09-27T15:35:15Z","cross_cats_sorted":[],"title_canon_sha256":"818fa4332e6a9e69b932219b941c25e6d0005107a01f923c193435bdef7819b0","abstract_canon_sha256":"e86d00729bac6e949a7c8694a6ca9a66683ccb6e67b205c75372e165b03567f5"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:49.166923Z","signature_b64":"pcDGjN2SYbyKWTL4I7xa/Mtoblu57TlVapLDSCilcuFGcjxfCmiwjEK7KhNhgXq+2TiYYvcCV9KjfU6Mij1fCQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"13061c8fde1ebb29a4952a164c30aeb575585f6faadc075ce8f64822a9da0bc3","last_reissued_at":"2026-05-17T23:38:49.166438Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:49.166438Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"MinerU: An Open-Source Solution for Precise Document Content Extraction","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"MinerU combines PDF-Extract-Kit models with custom rules to deliver high-precision document content extraction in open source.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Bin Wang, Botian Shi, Bo Zhang, Chao Xu, Conghui He, Dahua Lin, Fan Wu, Fukai Shang, Kaiwen Liu, Linke Ouyang, Liqun Wei, Rui Xu, Wei Li, Xiaomeng Zhao, Yuan Qu, Yu Qiao, Zhihao Sui, Zhiyuan Zhao","submitted_at":"2024-09-27T15:35:15Z","abstract_excerpt":"Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing an"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the PDF-Extract-Kit models plus the authors' preprocessing and postprocessing rules generalize beyond the tested document collection and that the reported performance metrics reflect real-world usage without hidden data selection.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"MinerU delivers an open-source pipeline for high-precision document content extraction by integrating specialized models with tuned preprocessing and postprocessing rules.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"MinerU combines PDF-Extract-Kit models with custom rules to deliver high-precision document content extraction in open source.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"77b2a58cbf05d5a29e2ed675aa27c59f7dfff80decb606046344161710d5bcbc"},"source":{"id":"2409.18839","kind":"arxiv","version":1},"verdict":{"id":"356fc045-d559-45ef-add9-5100058d9222","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T03:55:23.006745Z","strongest_claim":"Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction.","one_line_summary":"MinerU delivers an open-source pipeline for high-precision document content extraction by integrating specialized models with tuned preprocessing and postprocessing rules.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the PDF-Extract-Kit models plus the authors' preprocessing and postprocessing rules generalize beyond the tested document collection and that the reported performance metrics reflect real-world usage without hidden data selection.","pith_extraction_headline":"MinerU combines PDF-Extract-Kit models with custom rules to deliver high-precision document content extraction in open source."},"references":{"count":42,"sample":[{"doi":"","year":2023,"title":"GPT-4 Technical Report","work_id":"b928e041-6991-4c08-8c81-0359e4097c7b","ref_index":1,"cited_arxiv_id":"2303.08774","is_internal_anchor":true},{"doi":"","year":2023,"title":"Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection","work_id":"7316de4a-d07d-41de-88ee-509f9b52e462","ref_index":2,"cited_arxiv_id":"2310.11511","is_internal_anchor":true},{"doi":"","year":null,"title":"pix2tex - latex ocr","work_id":"79002e27-8b88-4e41-b5d5-1ec5efe44db8","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Nougat: Neural Optical Understanding for Academic Documents","work_id":"26c3b627-7e97-40d7-bab3-020936b8196b","ref_index":4,"cited_arxiv_id":"2308.13418","is_internal_anchor":true},{"doi":"","year":2005,"title":"Language Models are Few-Shot Learners","work_id":"214732c0-2edd-44a0-af9e-28184a2b8279","ref_index":5,"cited_arxiv_id":"2005.14165","is_internal_anchor":true}],"resolved_work":42,"snapshot_sha256":"5349b9a575508fcc5fcd470fa29a759ff7d0431cf6ff5204818d70daa2e8b5a8","internal_anchors":14},"formal_canon":{"evidence_count":2,"snapshot_sha256":"55ef9b60fae9115cb9d971c05748234a3dc8f3977f005150b1919c86f08a371f"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2409.18839","created_at":"2026-05-17T23:38:49.166515+00:00"},{"alias_kind":"arxiv_version","alias_value":"2409.18839v1","created_at":"2026-05-17T23:38:49.166515+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2409.18839","created_at":"2026-05-17T23:38:49.166515+00:00"},{"alias_kind":"pith_short_12","alias_value":"CMDBZD66D25S","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"CMDBZD66D25STJEV","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"CMDBZD66","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":29,"internal_anchor_count":29,"sample":[{"citing_arxiv_id":"2605.12623","citing_title":"DocAtlas: Multilingual Document Understanding Across 80+ Languages","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22080","citing_title":"JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22100","citing_title":"MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17447","citing_title":"FastOCR: Dynamic Visual Fixation via KV Cache Pruning for Efficient Document Parsing","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2509.22186","citing_title":"MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2512.20626","citing_title":"MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2601.09298","citing_title":"Multi-Modal LLM based Image Captioning in ICT: Bridging the Gap Between General and Industry Domain","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2601.15170","citing_title":"Multi-Dimensional Knowledge Profiling with Large-Scale Literature Database and Hierarchical Retrieval","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2602.04850","citing_title":"El Agente Quntur: A research collaborator agent for quantum chemistry","ref_index":85,"is_internal_anchor":true},{"citing_arxiv_id":"2602.11731","citing_title":"Thinking with Drafting: Optical Decompression via Logical Reconstruction","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2603.24326","citing_title":"Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing","ref_index":51,"is_internal_anchor":true},{"citing_arxiv_id":"2507.05595","citing_title":"PaddleOCR 3.0 Technical Report","ref_index":58,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12623","citing_title":"DocAtlas: Multilingual Document Understanding Across 80+ Languages","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2604.04948","citing_title":"From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12812","citing_title":"DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10341","citing_title":"PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents","ref_index":192,"is_internal_anchor":true},{"citing_arxiv_id":"2510.18234","citing_title":"DeepSeek-OCR: Contexts Optical Compression","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10168","citing_title":"ASTRA-QA: A Benchmark for Abstract Question Answering over Documents","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01495","citing_title":"FT-RAG: A Fine-grained Retrieval-Augmented Generation Framework for Complex Table Reasoning","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00400","citing_title":"FollowTable: A Benchmark for Instruction-Following Table Retrieval","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21508","citing_title":"BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12054","citing_title":"REGREACT: Self-Correcting Multi-Agent Pipelines for Structured Regulatory Information Extraction","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12812","citing_title":"DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08703","citing_title":"QoS-QoE Translation with Large Language Model","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08538","citing_title":"ParseBench: A Document Parsing Benchmark for AI Agents","ref_index":31,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/CMDBZD66D25STJEVFILEYMFOWV","json":"https://pith.science/pith/CMDBZD66D25STJEVFILEYMFOWV.json","graph_json":"https://pith.science/api/pith-number/CMDBZD66D25STJEVFILEYMFOWV/graph.json","events_json":"https://pith.science/api/pith-number/CMDBZD66D25STJEVFILEYMFOWV/events.json","paper":"https://pith.science/paper/CMDBZD66"},"agent_actions":{"view_html":"https://pith.science/pith/CMDBZD66D25STJEVFILEYMFOWV","download_json":"https://pith.science/pith/CMDBZD66D25STJEVFILEYMFOWV.json","view_paper":"https://pith.science/paper/CMDBZD66","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2409.18839&json=true","fetch_graph":"https://pith.science/api/pith-number/CMDBZD66D25STJEVFILEYMFOWV/graph.json","fetch_events":"https://pith.science/api/pith-number/CMDBZD66D25STJEVFILEYMFOWV/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/CMDBZD66D25STJEVFILEYMFOWV/action/timestamp_anchor","attest_storage":"https://pith.science/pith/CMDBZD66D25STJEVFILEYMFOWV/action/storage_attestation","attest_author":"https://pith.science/pith/CMDBZD66D25STJEVFILEYMFOWV/action/author_attestation","sign_citation":"https://pith.science/pith/CMDBZD66D25STJEVFILEYMFOWV/action/citation_signature","submit_replication":"https://pith.science/pith/CMDBZD66D25STJEVFILEYMFOWV/action/replication_record"}},"created_at":"2026-05-17T23:38:49.166515+00:00","updated_at":"2026-05-17T23:38:49.166515+00:00"}