{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:4TSHRENSGHCP54ZSMZNFJQL3TZ","short_pith_number":"pith:4TSHRENS","schema_version":"1.0","canonical_sha256":"e4e47891b231c4fef332665a54c17b9e4207f529db2e466342c9517b65942c0f","source":{"kind":"arxiv","id":"2510.13778","version":1},"attestation_state":"computed","paper":{"title":"InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Spatially guided pre-training on millions of examples teaches robots where to act before how, yielding gains up to 17 percent on standard benchmarks.","cross_cats":["cs.AI","cs.CV"],"primary_cat":"cs.RO","authors_text":"Bin Wang, Bolun Wang, Bowen Zhou, Chao Wu, Fangjing Wang, Feng Zheng, Hanqing Wang, Hao Li, Jiangmiao Pang, Jiaya Jia, Jia Zeng, Jingjing Zhang, Jinhui Ye, Jinyu Zhang, Junqiu Yu, Ning Gao, Shi Zhang, Shuai Yang, Tai Wang, Weiyang Jin, Xinyi Chen, Xueyuan Wei, Yangkun Zhu, Yang Tian, Yanwei Fu, Yao Mu, Yilun Chen, Yu Qiao, Ziqin Wang","submitted_at":"2025-10-15T17:30:05Z","abstract_excerpt":"We introduce InternVLA-M1, a unified framework for spatial grounding and robot control that advances instruction-following robots toward scalable, general-purpose intelligence. Its core idea is spatially guided vision-language-action training, where spatial grounding serves as the critical link between instructions and robot actions. InternVLA-M1 employs a two-stage pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning data to determine ``where to act'' by aligning instructions with visual, embodiment-agnostic positions, and (ii) spatially guided action post-training to d"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2510.13778","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2025-10-15T17:30:05Z","cross_cats_sorted":["cs.AI","cs.CV"],"title_canon_sha256":"e652664e01d46d787e429227dd91ef57352d92a97a312e6194194c8a985f6a68","abstract_canon_sha256":"808912f0fc95b2eea43f7ee456a5b9e268a1fb9393966febeedf82afb57d77f3"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:39:21.868524Z","signature_b64":"SOd//LmqSKc3MyBqx3YuEYY2A0A8uVoCXjN+tIMehzlmidYP+gFeKJvb6jRSbEJtgwqOMlC9edsKZIEr0/4vBw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"e4e47891b231c4fef332665a54c17b9e4207f529db2e466342c9517b65942c0f","last_reissued_at":"2026-05-17T23:39:21.867905Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:39:21.867905Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Spatially guided pre-training on millions of examples teaches robots where to act before how, yielding gains up to 17 percent on standard benchmarks.","cross_cats":["cs.AI","cs.CV"],"primary_cat":"cs.RO","authors_text":"Bin Wang, Bolun Wang, Bowen Zhou, Chao Wu, Fangjing Wang, Feng Zheng, Hanqing Wang, Hao Li, Jiangmiao Pang, Jiaya Jia, Jia Zeng, Jingjing Zhang, Jinhui Ye, Jinyu Zhang, Junqiu Yu, Ning Gao, Shi Zhang, Shuai Yang, Tai Wang, Weiyang Jin, Xinyi Chen, Xueyuan Wei, Yangkun Zhu, Yang Tian, Yanwei Fu, Yao Mu, Yilun Chen, Yu Qiao, Ziqin Wang","submitted_at":"2025-10-15T17:30:05Z","abstract_excerpt":"We introduce InternVLA-M1, a unified framework for spatial grounding and robot control that advances instruction-following robots toward scalable, general-purpose intelligence. Its core idea is spatially guided vision-language-action training, where spatial grounding serves as the critical link between instructions and robot actions. InternVLA-M1 employs a two-stage pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning data to determine ``where to act'' by aligning instructions with visual, embodiment-agnostic positions, and (ii) spatially guided action post-training to d"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"This spatially guided training recipe yields consistent gains: InternVLA-M1 outperforms its variant without spatial guidance by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO Franka, while demonstrating stronger spatial reasoning capability in box, point, and trace prediction.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the spatial grounding learned in the first stage on embodiment-agnostic data will transfer effectively when used as prompts in the second stage to improve embodiment-specific action generation across diverse robots and tasks.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"InternVLA-M1 uses spatially guided pre-training on 2.3M examples followed by action post-training to deliver up to 17% gains on robot manipulation benchmarks and 20.6% on unseen objects.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Spatially guided pre-training on millions of examples teaches robots where to act before how, yielding gains up to 17 percent on standard benchmarks.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"c6c4e0adb3963c45491f2d5b128367248de0b8364f3b57c2fb15acd9f901f860"},"source":{"id":"2510.13778","kind":"arxiv","version":1},"verdict":{"id":"4db01805-154e-41ba-b9c6-aa95ce00e815","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-14T20:02:54.268680Z","strongest_claim":"This spatially guided training recipe yields consistent gains: InternVLA-M1 outperforms its variant without spatial guidance by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO Franka, while demonstrating stronger spatial reasoning capability in box, point, and trace prediction.","one_line_summary":"InternVLA-M1 uses spatially guided pre-training on 2.3M examples followed by action post-training to deliver up to 17% gains on robot manipulation benchmarks and 20.6% on unseen objects.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the spatial grounding learned in the first stage on embodiment-agnostic data will transfer effectively when used as prompts in the second stage to improve embodiment-specific action generation across diverse robots and tasks.","pith_extraction_headline":"Spatially guided pre-training on millions of examples teaches robots where to act before how, yielding gains up to 17 percent on standard benchmarks."},"references":{"count":46,"sample":[{"doi":"","year":null,"title":"Qwen2.5-VL Technical Report","work_id":"69dffacb-bfe8-442d-be86-48624c60426f","ref_index":1,"cited_arxiv_id":"2502.13923","is_internal_anchor":true},{"doi":"","year":null,"title":"GR00T N1: An Open Foundation Model for Generalist Humanoid Robots","work_id":"e2db69c7-ee8a-4cb7-a761-7b8de1dfcf97","ref_index":2,"cited_arxiv_id":"2503.14734","is_internal_anchor":true},{"doi":"","year":null,"title":"$\\pi_0$: A Vision-Language-Action Flow Model for General Robot Control","work_id":"f790abdc-a796-482f-a40d-f8ee035ecfc2","ref_index":3,"cited_arxiv_id":"2410.24164","is_internal_anchor":true},{"doi":"","year":null,"title":"RT-1: Robotics Transformer for Real-World Control at Scale","work_id":"e11bda85-8531-46bc-a07f-d0ade3643ab1","ref_index":4,"cited_arxiv_id":"2212.06817","is_internal_anchor":true},{"doi":"","year":null,"title":"RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control","work_id":"ff438a8a-8003-4fae-9131-acd418b3597b","ref_index":5,"cited_arxiv_id":"2307.15818","is_internal_anchor":true}],"resolved_work":46,"snapshot_sha256":"bcd56560cf0d99544b4c8b2c54e9d28bbfb0a578bf1950ca21d05d9f989e296e","internal_anchors":28},"formal_canon":{"evidence_count":2,"snapshot_sha256":"bc4322e2a2c208b32e4093c845a00e49c2e44ceabb4d951b91dfc568284d2e99"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2510.13778","created_at":"2026-05-17T23:39:21.868011+00:00"},{"alias_kind":"arxiv_version","alias_value":"2510.13778v1","created_at":"2026-05-17T23:39:21.868011+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2510.13778","created_at":"2026-05-17T23:39:21.868011+00:00"},{"alias_kind":"pith_short_12","alias_value":"4TSHRENSGHCP","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"4TSHRENSGHCP54ZS","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"4TSHRENS","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":30,"internal_anchor_count":30,"sample":[{"citing_arxiv_id":"2605.21133","citing_title":"Humanoid Whole-Body Manipulation via Active Spatial Brain and Generalizable Action Cerebellum","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21414","citing_title":"PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10923","citing_title":"Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19678","citing_title":"RoVLA: Multi-Consistency Constraints for Robust Vision-Language-Action Models","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2511.14148","citing_title":"AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2601.18692","citing_title":"A Pragmatic VLA Foundation Model","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2602.11236","citing_title":"ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2603.15620","citing_title":"Towards Generalizable Robotic Manipulation in Dynamic Environments","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2603.24935","citing_title":"SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13632","citing_title":"Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13757","citing_title":"FrameSkip: Learning from Fewer but More Informative Frames in VLA Training","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11832","citing_title":"Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation","ref_index":80,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12167","citing_title":"From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12090","citing_title":"World Action Models: The Next Frontier in Embodied AI","ref_index":173,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12162","citing_title":"X-Imitator: Spatial-Aware Imitation Learning via Bidirectional Action-Pose Interaction","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27472","citing_title":"PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2604.14125","citing_title":"HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10923","citing_title":"Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09948","citing_title":"LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06481","citing_title":"OA-WAM: Object-Addressable World Action Model for Robust Robot Manipulation","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.22748","citing_title":"Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18000","citing_title":"Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08544","citing_title":"SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07474","citing_title":"ForgeVLA: Federated Vision-Language-Action Learning without Language Annotations","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06067","citing_title":"HiPolicy: Hierarchical Multi-Frequency Action Chunking for Policy Learning","ref_index":5,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/4TSHRENSGHCP54ZSMZNFJQL3TZ","json":"https://pith.science/pith/4TSHRENSGHCP54ZSMZNFJQL3TZ.json","graph_json":"https://pith.science/api/pith-number/4TSHRENSGHCP54ZSMZNFJQL3TZ/graph.json","events_json":"https://pith.science/api/pith-number/4TSHRENSGHCP54ZSMZNFJQL3TZ/events.json","paper":"https://pith.science/paper/4TSHRENS"},"agent_actions":{"view_html":"https://pith.science/pith/4TSHRENSGHCP54ZSMZNFJQL3TZ","download_json":"https://pith.science/pith/4TSHRENSGHCP54ZSMZNFJQL3TZ.json","view_paper":"https://pith.science/paper/4TSHRENS","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2510.13778&json=true","fetch_graph":"https://pith.science/api/pith-number/4TSHRENSGHCP54ZSMZNFJQL3TZ/graph.json","fetch_events":"https://pith.science/api/pith-number/4TSHRENSGHCP54ZSMZNFJQL3TZ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/4TSHRENSGHCP54ZSMZNFJQL3TZ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/4TSHRENSGHCP54ZSMZNFJQL3TZ/action/storage_attestation","attest_author":"https://pith.science/pith/4TSHRENSGHCP54ZSMZNFJQL3TZ/action/author_attestation","sign_citation":"https://pith.science/pith/4TSHRENSGHCP54ZSMZNFJQL3TZ/action/citation_signature","submit_replication":"https://pith.science/pith/4TSHRENSGHCP54ZSMZNFJQL3TZ/action/replication_record"}},"created_at":"2026-05-17T23:39:21.868011+00:00","updated_at":"2026-05-17T23:39:21.868011+00:00"}