{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:3LCHIT7FYHXM6DUASVPUCHA3XO","short_pith_number":"pith:3LCHIT7F","schema_version":"1.0","canonical_sha256":"dac4744fe5c1eecf0e80955f411c1bbb9075f922086dba3861300c2853576ee0","source":{"kind":"arxiv","id":"2507.05595","version":1},"attestation_state":"computed","paper":{"title":"PaddleOCR 3.0 Technical Report","license":"http://creativecommons.org/licenses/by/4.0/","headline":"PaddleOCR 3.0 shows models under 100 million parameters match billion-parameter vision-language models on OCR and document tasks.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Changda Zhou, Cheng Cui, Dianhai Yu, Hongen Liu, Jiaxuan Liu, Jing Zhang, Jun Zhang, Kui Huang, Manhui Lin, Tingquan Gao, Ting Sun, Wenyu Lv, Xueqing Wang, Yanjun Ma, Yichao Zhang, Yi Liu, Yubo Zhang, Yue Zhang, Zelun Zhang","submitted_at":"2025-07-08T02:14:10Z","abstract_excerpt":"This technical report introduces PaddleOCR 3.0, an Apache-licensed open-source toolkit for OCR and document parsing. To address the growing demand for document understanding in the era of large language models, PaddleOCR 3.0 presents three major solutions: (1) PP-OCRv5 for multilingual text recognition, (2) PP-StructureV3 for hierarchical document parsing, and (3) PP-ChatOCRv4 for key information extraction. Compared to mainstream vision-language models (VLMs), these models with fewer than 100 million parameters achieve competitive accuracy and efficiency, rivaling billion-parameter VLMs. In a"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2507.05595","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2025-07-08T02:14:10Z","cross_cats_sorted":[],"title_canon_sha256":"82285a5b2ad48f34d92c2129da2d5f2f609456792d462a63c6650508507b1e8e","abstract_canon_sha256":"3f3e53475258f1b87f64798338c41e36fa6fcf35184ce7b6b8681d3116db5f47"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:39:19.864266Z","signature_b64":"8rC0n8pt64EZ4KoaL9A8Bid1dl/KUG15E8XndPDRNtIHuy3MobM5jhfOENsFyVd1bljudbpXGsBW0nGjCX4FBQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"dac4744fe5c1eecf0e80955f411c1bbb9075f922086dba3861300c2853576ee0","last_reissued_at":"2026-05-17T23:39:19.863640Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:39:19.863640Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"PaddleOCR 3.0 Technical Report","license":"http://creativecommons.org/licenses/by/4.0/","headline":"PaddleOCR 3.0 shows models under 100 million parameters match billion-parameter vision-language models on OCR and document tasks.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Changda Zhou, Cheng Cui, Dianhai Yu, Hongen Liu, Jiaxuan Liu, Jing Zhang, Jun Zhang, Kui Huang, Manhui Lin, Tingquan Gao, Ting Sun, Wenyu Lv, Xueqing Wang, Yanjun Ma, Yichao Zhang, Yi Liu, Yubo Zhang, Yue Zhang, Zelun Zhang","submitted_at":"2025-07-08T02:14:10Z","abstract_excerpt":"This technical report introduces PaddleOCR 3.0, an Apache-licensed open-source toolkit for OCR and document parsing. To address the growing demand for document understanding in the era of large language models, PaddleOCR 3.0 presents three major solutions: (1) PP-OCRv5 for multilingual text recognition, (2) PP-StructureV3 for hierarchical document parsing, and (3) PP-ChatOCRv4 for key information extraction. Compared to mainstream vision-language models (VLMs), these models with fewer than 100 million parameters achieve competitive accuracy and efficiency, rivaling billion-parameter VLMs. In a"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Compared to mainstream vision-language models (VLMs), these models with fewer than 100 million parameters achieve competitive accuracy and efficiency, rivaling billion-parameter VLMs.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The benchmarks used to claim competitiveness are representative of real-world use and do not contain undisclosed advantages in data selection or evaluation protocol.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"PaddleOCR 3.0 releases compact open-source models for OCR, document structure parsing, and information extraction that rival billion-parameter VLMs.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"PaddleOCR 3.0 shows models under 100 million parameters match billion-parameter vision-language models on OCR and document tasks.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"5b7bb728d226f207f09de66fbe1e3e5ed12ebd36b3da08755f5b5e1c7c217569"},"source":{"id":"2507.05595","kind":"arxiv","version":1},"verdict":{"id":"24f8aeb1-2dce-4bc2-993f-6d6dcdee9a3f","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-14T23:20:15.585633Z","strongest_claim":"Compared to mainstream vision-language models (VLMs), these models with fewer than 100 million parameters achieve competitive accuracy and efficiency, rivaling billion-parameter VLMs.","one_line_summary":"PaddleOCR 3.0 releases compact open-source models for OCR, document structure parsing, and information extraction that rival billion-parameter VLMs.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The benchmarks used to claim competitiveness are representative of real-world use and do not contain undisclosed advantages in data selection or evaluation protocol.","pith_extraction_headline":"PaddleOCR 3.0 shows models under 100 million parameters match billion-parameter vision-language models on OCR and document tasks."},"references":{"count":73,"sample":[{"doi":"","year":2025,"title":"R. AI. Rolmocr: A faster, lighter open source ocr model, 2025","work_id":"f184e001-9327-4f9d-a66b-b2d302b6e3f3","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Ernie 4.5 technical report, 2025","work_id":"8c68a0de-e7a8-4c44-acb9-a8b0156da515","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"L. Blecher, G. Cucurull, T. Scialom, and R. Stojnic. Nougat: Neural optical understanding for academic documents, 2023","work_id":"9acde2c6-2d5d-4706-8e69-874a806f4d42","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"breezedeus. Pix2text. https://github.com/breezedeus/Pix2Text, 2022. Accessed: 2025-06-23","work_id":"48b3d827-09f0-4252-896e-5ce92c16b5c1","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"10.1109/34.506792","year":1996,"title":"R. Casey and E. Lecolinet. A survey of methods and strategies in character segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 18 0 (7): 0 690--706, 1996. doi:10.1109/34.5067","work_id":"006b9910-bab8-4a4b-abc9-cd6e4623d194","ref_index":6,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":73,"snapshot_sha256":"9021d854fd446c78bcde8a0bd206c6bf1dc2c2c35af99748be2956ab534624a8","internal_anchors":9},"formal_canon":{"evidence_count":1,"snapshot_sha256":"13c3883d9c10bcc093169782c3a59b98b59c67df633d38156ca0c44e32b29619"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2507.05595","created_at":"2026-05-17T23:39:19.863726+00:00"},{"alias_kind":"arxiv_version","alias_value":"2507.05595v1","created_at":"2026-05-17T23:39:19.863726+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2507.05595","created_at":"2026-05-17T23:39:19.863726+00:00"},{"alias_kind":"pith_short_12","alias_value":"3LCHIT7FYHXM","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"3LCHIT7FYHXM6DUA","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"3LCHIT7F","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":36,"internal_anchor_count":36,"sample":[{"citing_arxiv_id":"2605.23598","citing_title":"When Youth Enter the Algorithmic Wild: Discovering and Understanding Potentially Harmful Teen Videos on Douyin and Kwai","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00392","citing_title":"RTPrune: Reading-Twice Inspired Token Pruning for Efficient DeepSeek-OCR Inference","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12623","citing_title":"DocAtlas: Multilingual Document Understanding Across 80+ Languages","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22100","citing_title":"MPDocBench-Parse: Benchmarking Practical Multi-page Document Parsing","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18678","citing_title":"Lance: Unified Multimodal Modeling by Multi-Task Synergy","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18678","citing_title":"Lance: Unified Multimodal Modeling by Multi-Task Synergy","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2511.14998","citing_title":"FinCriticalED: A Visual Benchmark for Financial Fact-Level OCR","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2509.22186","citing_title":"MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21957","citing_title":"PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2512.07584","citing_title":"LongCat-Image Technical Report","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2602.23061","citing_title":"MoDora: Tree-Based Semi-Structured Document Analysis System","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2603.00918","citing_title":"Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2603.07119","citing_title":"TIQA: Human-Aligned Perceptual Text Quality Assessment in Generated Images","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2603.23885","citing_title":"Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2603.24326","citing_title":"Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12623","citing_title":"DocAtlas: Multilingual Document Understanding Across 80+ Languages","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13565","citing_title":"Qwen-Image-VAE-2.0 Technical Report","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13027","citing_title":"PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution","ref_index":58,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02692","citing_title":"Parser-Oriented Structural Refinement for a Stable Layout Interface in Document Parsing","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12500","citing_title":"SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2604.28185","citing_title":"Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26462","citing_title":"A Multistage Extraction Pipeline for Long Scanned Financial Documents: An Empirical Study in Industrial KYC Workflows","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2510.18234","citing_title":"DeepSeek-OCR: Contexts Optical Compression","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00392","citing_title":"RTPrune: Reading-Twice Inspired Token Pruning for Efficient DeepSeek-OCR Inference","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23380","citing_title":"V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think","ref_index":2,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":1,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/3LCHIT7FYHXM6DUASVPUCHA3XO","json":"https://pith.science/pith/3LCHIT7FYHXM6DUASVPUCHA3XO.json","graph_json":"https://pith.science/api/pith-number/3LCHIT7FYHXM6DUASVPUCHA3XO/graph.json","events_json":"https://pith.science/api/pith-number/3LCHIT7FYHXM6DUASVPUCHA3XO/events.json","paper":"https://pith.science/paper/3LCHIT7F"},"agent_actions":{"view_html":"https://pith.science/pith/3LCHIT7FYHXM6DUASVPUCHA3XO","download_json":"https://pith.science/pith/3LCHIT7FYHXM6DUASVPUCHA3XO.json","view_paper":"https://pith.science/paper/3LCHIT7F","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2507.05595&json=true","fetch_graph":"https://pith.science/api/pith-number/3LCHIT7FYHXM6DUASVPUCHA3XO/graph.json","fetch_events":"https://pith.science/api/pith-number/3LCHIT7FYHXM6DUASVPUCHA3XO/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/3LCHIT7FYHXM6DUASVPUCHA3XO/action/timestamp_anchor","attest_storage":"https://pith.science/pith/3LCHIT7FYHXM6DUASVPUCHA3XO/action/storage_attestation","attest_author":"https://pith.science/pith/3LCHIT7FYHXM6DUASVPUCHA3XO/action/author_attestation","sign_citation":"https://pith.science/pith/3LCHIT7FYHXM6DUASVPUCHA3XO/action/citation_signature","submit_replication":"https://pith.science/pith/3LCHIT7FYHXM6DUASVPUCHA3XO/action/replication_record"}},"created_at":"2026-05-17T23:39:19.863726+00:00","updated_at":"2026-05-17T23:39:19.863726+00:00"}