{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:PST5I4D4GWZ3WMI4DFF7Q2JBJL","short_pith_number":"pith:PST5I4D4","schema_version":"1.0","canonical_sha256":"7ca7d4707c35b3bb311c194bf869214ac510d55e742a7aa7acc0b9a76bf5c05d","source":{"kind":"arxiv","id":"2512.07584","version":1},"attestation_state":"computed","paper":{"title":"LongCat-Image Technical Report","license":"http://creativecommons.org/licenses/by/4.0/","headline":"LongCat-Image achieves state-of-the-art Chinese text rendering in images using a compact 6B-parameter diffusion model.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Haoxian Tan, Jiale Huang, Jie Hu, Junqiang Wu, Jun-Yan He, Lishuai Gao, Meituan LongCat Team: Hanghang Ma, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan","submitted_at":"2025-12-08T14:26:40Z","abstract_excerpt":"We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering cap"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2512.07584","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2025-12-08T14:26:40Z","cross_cats_sorted":[],"title_canon_sha256":"6850a6385b82853bb522cf7464bd9f5be137f809e1f5a12dccdbef1f499b1388","abstract_canon_sha256":"9f227b0bccbebc8744b99cf4eb999281b276d24bbd380e88435359ab9f120f37"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:48.572051Z","signature_b64":"XnkW3yujR+TtnhjQeS0NDpHgGMTIF5g9armddPj6BmbDPWUZc3Lt7feWb7BUbliiHuviA3A7ti2BletZBUo+Aw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7ca7d4707c35b3bb311c194bf869214ac510d55e742a7aa7acc0b9a76bf5c05d","last_reissued_at":"2026-05-17T23:38:48.571583Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:48.571583Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"LongCat-Image Technical Report","license":"http://creativecommons.org/licenses/by/4.0/","headline":"LongCat-Image achieves state-of-the-art Chinese text rendering in images using a compact 6B-parameter diffusion model.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Haoxian Tan, Jiale Huang, Jie Hu, Junqiang Wu, Jun-Yan He, Lishuai Gao, Meituan LongCat Team: Hanghang Ma, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan","submitted_at":"2025-12-08T14:26:40Z","abstract_excerpt":"We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering cap"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"With a core diffusion model of only 6B parameters, LongCat-Image sets a new industry standard for Chinese character rendering, outperforming both major open-source and commercial solutions in coverage and accuracy while delivering superior text-rendering capabilities and remarkable photorealism.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The assumption that the curated data and reward models used in RL produce generalizable gains rather than benchmark-specific improvements, with no external independent verification of the SOTA claims provided in the abstract.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"LongCat-Image delivers a compact 6B-parameter bilingual image generation model that sets new standards for Chinese character rendering accuracy and photorealism while remaining efficient and fully open-source.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"LongCat-Image achieves state-of-the-art Chinese text rendering in images using a compact 6B-parameter diffusion model.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"e07d4e6ed66bfbeefbef9f8f1a3ada462b3b69383e72baab46eb26da46066bfe"},"source":{"id":"2512.07584","kind":"arxiv","version":1},"verdict":{"id":"593a971c-0aaa-424d-8150-f92b28b95f85","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T08:00:43.637852Z","strongest_claim":"With a core diffusion model of only 6B parameters, LongCat-Image sets a new industry standard for Chinese character rendering, outperforming both major open-source and commercial solutions in coverage and accuracy while delivering superior text-rendering capabilities and remarkable photorealism.","one_line_summary":"LongCat-Image delivers a compact 6B-parameter bilingual image generation model that sets new standards for Chinese character rendering accuracy and photorealism while remaining efficient and fully open-source.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The assumption that the curated data and reward models used in RL produce generalizable gains rather than benchmark-specific improvements, with no external independent verification of the SOTA claims provided in the abstract.","pith_extraction_headline":"LongCat-Image achieves state-of-the-art Chinese text rendering in images using a compact 6B-parameter diffusion model."},"references":{"count":32,"sample":[{"doi":"","year":null,"title":"Qwen-Image Technical Report","work_id":"d06d7ecc-7579-4f89-a60b-4278a0f3c562","ref_index":1,"cited_arxiv_id":"2508.02324","is_internal_anchor":true},{"doi":"","year":null,"title":"Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model","work_id":"e285b9d3-0bf4-4f98-ba3a-e545425ab960","ref_index":2,"cited_arxiv_id":"2503.07703","is_internal_anchor":true},{"doi":"","year":null,"title":"Seedream 3.0 Technical Report","work_id":"013e56d0-7f47-4d0e-bbca-e9540fc0e0cc","ref_index":3,"cited_arxiv_id":"2504.11346","is_internal_anchor":true},{"doi":"","year":null,"title":"Seedream 4.0: Toward Next-generation Multimodal Image Generation","work_id":"15c839a0-48a3-4218-82b6-cac5b7f66e13","ref_index":4,"cited_arxiv_id":"2509.20427","is_internal_anchor":true},{"doi":"","year":null,"title":"Image editing with diffusion models: A survey.arXiv preprint arXiv:2504.13226, 2025a","work_id":"95cf95fb-4e54-4a77-8927-383d24d11972","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":32,"snapshot_sha256":"0a374f782ccdbb62f71140678d6bfb5bd836567d5d38290b959961ac33c15122","internal_anchors":28},"formal_canon":{"evidence_count":2,"snapshot_sha256":"74be8608be5a052ec66b6e86d6e8c6c721ad3d089d65cb2e13a22772031cfc5d"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2512.07584","created_at":"2026-05-17T23:38:48.571662+00:00"},{"alias_kind":"arxiv_version","alias_value":"2512.07584v1","created_at":"2026-05-17T23:38:48.571662+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2512.07584","created_at":"2026-05-17T23:38:48.571662+00:00"},{"alias_kind":"pith_short_12","alias_value":"PST5I4D4GWZ3","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"PST5I4D4GWZ3WMI4","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"PST5I4D4","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":32,"internal_anchor_count":32,"sample":[{"citing_arxiv_id":"2603.28767","citing_title":"Gen-Searcher: Reinforcing Agentic Search for Image Generation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21605","citing_title":"GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21573","citing_title":"Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21605","citing_title":"GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21484","citing_title":"ETS: Energy-Guided Test-Time Scaling for Training-Free RL Alignment","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04128","citing_title":"JoyAI-Image: Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation","ref_index":73,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21090","citing_title":"TextSculptor: Training and Benchmarking Scene Text Editing","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24763","citing_title":"Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19660","citing_title":"OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16842","citing_title":"Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14876","citing_title":"Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15523","citing_title":"Self-Prompting Diffusion Transformer for Open-Vocabulary Scene Text Editing via In-Context Learning","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21484","citing_title":"ETS: Energy-Guided Test-Time Scaling for Training-Free RL Alignment","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12088","citing_title":"UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2603.28767","citing_title":"Gen-Searcher: Reinforcing Agentic Search for Image Generation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13062","citing_title":"Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13122","citing_title":"Early Semantic Grounding in Image Editing Models for Zero-Shot Referring Image Segmentation","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11818","citing_title":"RevealLayer: Disentangling Hidden and Visible Layers via Occlusion-Aware Image Decomposition","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12088","citing_title":"UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11832","citing_title":"Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation","ref_index":73,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12500","citing_title":"SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture","ref_index":124,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10730","citing_title":"Qwen-Image-2.0 Technical Report","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25477","citing_title":"DDA-Thinker: Decoupled Dual-Atomic Reinforcement Learning for Reasoning-Driven Image Editing","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24763","citing_title":"Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06376","citing_title":"Continuous-Time Distribution Matching for Few-Step Diffusion Distillation","ref_index":53,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/PST5I4D4GWZ3WMI4DFF7Q2JBJL","json":"https://pith.science/pith/PST5I4D4GWZ3WMI4DFF7Q2JBJL.json","graph_json":"https://pith.science/api/pith-number/PST5I4D4GWZ3WMI4DFF7Q2JBJL/graph.json","events_json":"https://pith.science/api/pith-number/PST5I4D4GWZ3WMI4DFF7Q2JBJL/events.json","paper":"https://pith.science/paper/PST5I4D4"},"agent_actions":{"view_html":"https://pith.science/pith/PST5I4D4GWZ3WMI4DFF7Q2JBJL","download_json":"https://pith.science/pith/PST5I4D4GWZ3WMI4DFF7Q2JBJL.json","view_paper":"https://pith.science/paper/PST5I4D4","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2512.07584&json=true","fetch_graph":"https://pith.science/api/pith-number/PST5I4D4GWZ3WMI4DFF7Q2JBJL/graph.json","fetch_events":"https://pith.science/api/pith-number/PST5I4D4GWZ3WMI4DFF7Q2JBJL/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/PST5I4D4GWZ3WMI4DFF7Q2JBJL/action/timestamp_anchor","attest_storage":"https://pith.science/pith/PST5I4D4GWZ3WMI4DFF7Q2JBJL/action/storage_attestation","attest_author":"https://pith.science/pith/PST5I4D4GWZ3WMI4DFF7Q2JBJL/action/author_attestation","sign_citation":"https://pith.science/pith/PST5I4D4GWZ3WMI4DFF7Q2JBJL/action/citation_signature","submit_replication":"https://pith.science/pith/PST5I4D4GWZ3WMI4DFF7Q2JBJL/action/replication_record"}},"created_at":"2026-05-17T23:38:48.571662+00:00","updated_at":"2026-05-17T23:38:48.571662+00:00"}