{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:F6CG7G7VJIIKWHYDTZ65PRB3XL","short_pith_number":"pith:F6CG7G7V","schema_version":"1.0","canonical_sha256":"2f846f9bf54a10ab1f039e7dd7c43bbaec369b68b0bba7602f64770a639a18cc","source":{"kind":"arxiv","id":"2510.26583","version":1},"attestation_state":"computed","paper":{"title":"Emu3.5: Native Multimodal Models are World Learners","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Chengyuan Wang, Fan Zhang, Haoge Deng, Honghao Chen, Jinsheng Wang, Jirong Liu, Tiejun Huang, Ting Pan, Wenxuan Ma, Wenxuan Wang, Xianduo Li, Xinghang Li, Xinlong Wang, Xu Huang, Yang Liu, Yingli Zhao, Yueze Wang, Yufeng Cui, Yulong Ao, Zecheng Hao, Zhongyuan Wang, Zhuo Chen, Zhuoyan Luo","submitted_at":"2025-10-30T15:11:16Z","abstract_excerpt":"We introduce Emu3.5, a large-scale multimodal world model that natively predicts the next state across vision and language. Emu3.5 is pre-trained end-to-end with a unified next-token prediction objective on a corpus of vision-language interleaved data containing over 10 trillion tokens, primarily derived from sequential frames and transcripts of internet videos. The model naturally accepts interleaved vision-language inputs and generates interleaved vision-language outputs. Emu3.5 is further post-trained with large-scale reinforcement learning to enhance multimodal reasoning and generation. To"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2510.26583","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2025-10-30T15:11:16Z","cross_cats_sorted":[],"title_canon_sha256":"2a6c19b46ae216d1eae2520846e5786d44ff4374b1b103e4aa43b7fb56a7feff","abstract_canon_sha256":"9128155c6e96be8104b52c97c3a247fc943098a9934133f970f6039186ed0f18"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T01:06:55.888861Z","signature_b64":"y1xmOctSQORVBExgGRijdFQoRTiQRUrgsNSHqLDRMafGnQUuEHecQZovfbS0yn9UGosp0URlVmrZgA8LtC8XAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"2f846f9bf54a10ab1f039e7dd7c43bbaec369b68b0bba7602f64770a639a18cc","last_reissued_at":"2026-05-18T01:06:55.888176Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T01:06:55.888176Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Emu3.5: Native Multimodal Models are World Learners","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Chengyuan Wang, Fan Zhang, Haoge Deng, Honghao Chen, Jinsheng Wang, Jirong Liu, Tiejun Huang, Ting Pan, Wenxuan Ma, Wenxuan Wang, Xianduo Li, Xinghang Li, Xinlong Wang, Xu Huang, Yang Liu, Yingli Zhao, Yueze Wang, Yufeng Cui, Yulong Ao, Zecheng Hao, Zhongyuan Wang, Zhuo Chen, Zhuoyan Luo","submitted_at":"2025-10-30T15:11:16Z","abstract_excerpt":"We introduce Emu3.5, a large-scale multimodal world model that natively predicts the next state across vision and language. Emu3.5 is pre-trained end-to-end with a unified next-token prediction objective on a corpus of vision-language interleaved data containing over 10 trillion tokens, primarily derived from sequential frames and transcripts of internet videos. The model naturally accepts interleaved vision-language inputs and generates interleaved vision-language outputs. Emu3.5 is further post-trained with large-scale reinforcement learning to enhance multimodal reasoning and generation. To"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2510.26583","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2510.26583","created_at":"2026-05-18T01:06:55.888271+00:00"},{"alias_kind":"arxiv_version","alias_value":"2510.26583v1","created_at":"2026-05-18T01:06:55.888271+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2510.26583","created_at":"2026-05-18T01:06:55.888271+00:00"},{"alias_kind":"pith_short_12","alias_value":"F6CG7G7VJIIK","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"F6CG7G7VJIIKWHYD","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"F6CG7G7V","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":20,"internal_anchor_count":20,"sample":[{"citing_arxiv_id":"2511.04570","citing_title":"Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2602.12370","citing_title":"LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14333","citing_title":"InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13062","citing_title":"Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12271","citing_title":"Beyond Text Prompts: Visual-to-Visual Generation as A Unified Paradigm","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12500","citing_title":"SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26694","citing_title":"Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18486","citing_title":"Xiaomi OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08163","citing_title":"MULTITEXTEDIT: Benchmarking Cross-Lingual Degradation in Text-in-Image Editing","ref_index":64,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17565","citing_title":"UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26694","citing_title":"Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24763","citing_title":"Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21921","citing_title":"Context Unrolling in Omni Models","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2604.10784","citing_title":"TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2604.04707","citing_title":"OpenWorldLib: A Unified Codebase and Definition of Advanced World Models","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18486","citing_title":"Xiaomi OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17565","citing_title":"UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18518","citing_title":"UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2604.20570","citing_title":"Exploring Spatial Intelligence from a Generative Perspective","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04128","citing_title":"Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation","ref_index":25,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/F6CG7G7VJIIKWHYDTZ65PRB3XL","json":"https://pith.science/pith/F6CG7G7VJIIKWHYDTZ65PRB3XL.json","graph_json":"https://pith.science/api/pith-number/F6CG7G7VJIIKWHYDTZ65PRB3XL/graph.json","events_json":"https://pith.science/api/pith-number/F6CG7G7VJIIKWHYDTZ65PRB3XL/events.json","paper":"https://pith.science/paper/F6CG7G7V"},"agent_actions":{"view_html":"https://pith.science/pith/F6CG7G7VJIIKWHYDTZ65PRB3XL","download_json":"https://pith.science/pith/F6CG7G7VJIIKWHYDTZ65PRB3XL.json","view_paper":"https://pith.science/paper/F6CG7G7V","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2510.26583&json=true","fetch_graph":"https://pith.science/api/pith-number/F6CG7G7VJIIKWHYDTZ65PRB3XL/graph.json","fetch_events":"https://pith.science/api/pith-number/F6CG7G7VJIIKWHYDTZ65PRB3XL/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/F6CG7G7VJIIKWHYDTZ65PRB3XL/action/timestamp_anchor","attest_storage":"https://pith.science/pith/F6CG7G7VJIIKWHYDTZ65PRB3XL/action/storage_attestation","attest_author":"https://pith.science/pith/F6CG7G7VJIIKWHYDTZ65PRB3XL/action/author_attestation","sign_citation":"https://pith.science/pith/F6CG7G7VJIIKWHYDTZ65PRB3XL/action/citation_signature","submit_replication":"https://pith.science/pith/F6CG7G7VJIIKWHYDTZ65PRB3XL/action/replication_record"}},"created_at":"2026-05-18T01:06:55.888271+00:00","updated_at":"2026-05-18T01:06:55.888271+00:00"}