{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:6SUNX6EOJCGCJJZ4RRUWJI4LDV","short_pith_number":"pith:6SUNX6EO","schema_version":"1.0","canonical_sha256":"f4a8dbf88e488c24a73c8c6964a38b1d7e349c1b3d682acc0f8f5b3f14216c8c","source":{"kind":"arxiv","id":"2601.18692","version":2},"attestation_state":"computed","paper":{"title":"A Pragmatic VLA Foundation Model","license":"http://creativecommons.org/licenses/by/4.0/","headline":"A vision-language-action model trained on 20,000 hours of real-world dual-arm data outperforms competitors in generalization across tasks and platforms.","cross_cats":["cs.CV"],"primary_cat":"cs.RO","authors_text":"Fangjing Wang, Fan Lu, He Sun, Houlong Xiong, Hui Yu, Jingmei Zhao, Kecheng Zheng, Kejia Zhang, Qian Zhu, Ran Cheng, Shi Liu, Shuailei Ma, Shuai Yang, Shuai Zhou, Wei Wu, Xing Zhu, Yiyu Ren, Yong-Lu Li, Yongtao Huang, Yong Wang, Yujun Shen, Yunnan Wang, Zechen Wang, Zhenqi Qiu, Ziyu Wang","submitted_at":"2026-01-26T17:08:04Z","abstract_excerpt":"Offering great potential in robotic manipulation, a capable Vision-Language-Action (VLA) foundation model is expected to faithfully generalize across tasks and platforms while ensuring cost efficiency (e.g., data and GPU hours required for adaptation). To this end, we develop LingBot-VLA with around 20,000 hours of real-world data from 9 popular dual-arm robot configurations. Through a systematic assessment on 3 robotic platforms, each completing 100 tasks with 130 post-training episodes per task, our model achieves clear superiority over competitors, showcasing its strong performance and broa"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2601.18692","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-01-26T17:08:04Z","cross_cats_sorted":["cs.CV"],"title_canon_sha256":"33f3c8b5d7046abd4f04f52595b3ef3ba218b6c59b94b2dcd05d3964100803ac","abstract_canon_sha256":"e5fdacb48cf1e410654bc65c3861297245bfbba7854abd9b5a5deeb7e29902f2"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:46.550838Z","signature_b64":"An2vLeZQdnAOYY8GSbKOb8PUsZ2sobKHjrzhnFVNr2QStNI2xCP16qXB3SWFqdVKSF07Y3DiYfydIQcQmChzAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"f4a8dbf88e488c24a73c8c6964a38b1d7e349c1b3d682acc0f8f5b3f14216c8c","last_reissued_at":"2026-05-17T23:38:46.550307Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:46.550307Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"A Pragmatic VLA Foundation Model","license":"http://creativecommons.org/licenses/by/4.0/","headline":"A vision-language-action model trained on 20,000 hours of real-world dual-arm data outperforms competitors in generalization across tasks and platforms.","cross_cats":["cs.CV"],"primary_cat":"cs.RO","authors_text":"Fangjing Wang, Fan Lu, He Sun, Houlong Xiong, Hui Yu, Jingmei Zhao, Kecheng Zheng, Kejia Zhang, Qian Zhu, Ran Cheng, Shi Liu, Shuailei Ma, Shuai Yang, Shuai Zhou, Wei Wu, Xing Zhu, Yiyu Ren, Yong-Lu Li, Yongtao Huang, Yong Wang, Yujun Shen, Yunnan Wang, Zechen Wang, Zhenqi Qiu, Ziyu Wang","submitted_at":"2026-01-26T17:08:04Z","abstract_excerpt":"Offering great potential in robotic manipulation, a capable Vision-Language-Action (VLA) foundation model is expected to faithfully generalize across tasks and platforms while ensuring cost efficiency (e.g., data and GPU hours required for adaptation). To this end, we develop LingBot-VLA with around 20,000 hours of real-world data from 9 popular dual-arm robot configurations. Through a systematic assessment on 3 robotic platforms, each completing 100 tasks with 130 post-training episodes per task, our model achieves clear superiority over competitors, showcasing its strong performance and broa"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"our model achieves clear superiority over competitors, showcasing its strong performance and broad generalizability","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That evaluation on three platforms with 100 tasks and 130 post-training episodes each is sufficient to establish broad generalizability across tasks and platforms","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"LingBot-VLA is a VLA foundation model trained on massive real robot data that shows superior generalization across tasks and platforms with fast training throughput.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"A vision-language-action model trained on 20,000 hours of real-world dual-arm data outperforms competitors in generalization across tasks and platforms.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"cca3efe139414ea7cc5102f9b38e6508a83e6c4e474db4d5b2d22ca43ecce2b5"},"source":{"id":"2601.18692","kind":"arxiv","version":2},"verdict":{"id":"f3d9c974-5e4e-4ae9-830e-4c582176d5a3","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T21:14:31.671667Z","strongest_claim":"our model achieves clear superiority over competitors, showcasing its strong performance and broad generalizability","one_line_summary":"LingBot-VLA is a VLA foundation model trained on massive real robot data that shows superior generalization across tasks and platforms with fast training throughput.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That evaluation on three platforms with 100 tasks and 130 post-training episodes each is sufficient to establish broad generalizability across tasks and platforms","pith_extraction_headline":"A vision-language-action model trained on 20,000 hours of real-world dual-arm data outperforms competitors in generalization across tasks and platforms."},"references":{"count":33,"sample":[{"doi":"","year":2025,"title":"RoboArena: Distributed real-world evaluation of generalist robot policies","work_id":"a02af411-4d93-4ac8-a15c-930c8f021765","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Qwen2.5-VL Technical Report","work_id":"69dffacb-bfe8-442d-be86-48624c60426f","ref_index":2,"cited_arxiv_id":"2502.13923","is_internal_anchor":true},{"doi":"","year":2024,"title":"PaliGemma: A versatile 3B VLM for transfer","work_id":"df6f48b3-5792-47c7-9614-cb856ea31ad9","ref_index":3,"cited_arxiv_id":"2407.07726","is_internal_anchor":true},{"doi":"","year":2025,"title":"GR00T N1: An Open Foundation Model for Generalist Humanoid Robots","work_id":"e2db69c7-ee8a-4cb7-a761-7b8de1dfcf97","ref_index":4,"cited_arxiv_id":"2503.14734","is_internal_anchor":true},{"doi":"","year":2025,"title":"Kevin Black, Noah Brown, James Darpinian, Karan Dhabalia, Danny Driess, Adnan Esmail, Michael Robert Equi, Chelsea Finn, Niccolo Fusai, Manuel Y . Galliker, Dibya Ghosh, Lachy Groom, Karol Hausman, br","work_id":"26cc9d6b-1484-44e3-9d38-ae7168bb2fd8","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":33,"snapshot_sha256":"aeb36ded5a7eaf9444080b133991ecd37d202c935ba17a89836f8c3a02a81b17","internal_anchors":13},"formal_canon":{"evidence_count":1,"snapshot_sha256":"02380f065aac530a84e8fcf9664b997d4135763c7bbfa427a638039e5e0fdb27"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2601.18692","created_at":"2026-05-17T23:38:46.550403+00:00"},{"alias_kind":"arxiv_version","alias_value":"2601.18692v2","created_at":"2026-05-17T23:38:46.550403+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2601.18692","created_at":"2026-05-17T23:38:46.550403+00:00"},{"alias_kind":"pith_short_12","alias_value":"6SUNX6EOJCGC","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"6SUNX6EOJCGCJJZ4","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"6SUNX6EO","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":21,"internal_anchor_count":21,"sample":[{"citing_arxiv_id":"2605.15153","citing_title":"Pelican-Unify 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21862","citing_title":"EvoScene-VLA: Evolving Scene Beliefs Inside the Action Decoder for Chunked Robot Control","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2603.19199","citing_title":"FASTER: Rethinking Real-Time Flow VLAs","ref_index":93,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08879","citing_title":"Preserving Foundational Capabilities in Flow-Matching VLAs through Conservative SFT","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2603.19199","citing_title":"FASTER: Rethinking Real-Time Flow VLAs","ref_index":93,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15153","citing_title":"Pelican-Unify 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2603.24935","citing_title":"SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13403","citing_title":"RotVLA: Rotational Latent Action for Vision-Language-Action Model","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11564","citing_title":"RIO: Flexible Real-Time Robot I/O for Cross-Embodiment Robot Learning","ref_index":48,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27472","citing_title":"PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08879","citing_title":"Preserving Foundational Capabilities in Flow-Matching VLAs through Conservative SFT","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00080","citing_title":"World Model for Robot Learning: A Comprehensive Survey","ref_index":59,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00078","citing_title":"Being-H0.7: A Latent World-Action Model from Egocentric Videos","ref_index":116,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21924","citing_title":"Long-Horizon Manipulation via Trace-Conditioned VLA Planning","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2604.09330","citing_title":"VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis","ref_index":73,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06747","citing_title":"HumanNet: Scaling Human-centric Video Learning to One Million Hours","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2604.05484","citing_title":"CoEnv: Driving Embodied Multi-Agent Collaboration via Compositional Environment","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13942","citing_title":"Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2604.16592","citing_title":"Human Cognition in Machines: A Unified Perspective of World Models","ref_index":190,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17019","citing_title":"Mini-BEHAVIOR-Gran: Revealing U-Shaped Effects of Instruction Granularity on Language-Guided Embodied Agents","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2604.20100","citing_title":"JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy","ref_index":38,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":1,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/6SUNX6EOJCGCJJZ4RRUWJI4LDV","json":"https://pith.science/pith/6SUNX6EOJCGCJJZ4RRUWJI4LDV.json","graph_json":"https://pith.science/api/pith-number/6SUNX6EOJCGCJJZ4RRUWJI4LDV/graph.json","events_json":"https://pith.science/api/pith-number/6SUNX6EOJCGCJJZ4RRUWJI4LDV/events.json","paper":"https://pith.science/paper/6SUNX6EO"},"agent_actions":{"view_html":"https://pith.science/pith/6SUNX6EOJCGCJJZ4RRUWJI4LDV","download_json":"https://pith.science/pith/6SUNX6EOJCGCJJZ4RRUWJI4LDV.json","view_paper":"https://pith.science/paper/6SUNX6EO","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2601.18692&json=true","fetch_graph":"https://pith.science/api/pith-number/6SUNX6EOJCGCJJZ4RRUWJI4LDV/graph.json","fetch_events":"https://pith.science/api/pith-number/6SUNX6EOJCGCJJZ4RRUWJI4LDV/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/6SUNX6EOJCGCJJZ4RRUWJI4LDV/action/timestamp_anchor","attest_storage":"https://pith.science/pith/6SUNX6EOJCGCJJZ4RRUWJI4LDV/action/storage_attestation","attest_author":"https://pith.science/pith/6SUNX6EOJCGCJJZ4RRUWJI4LDV/action/author_attestation","sign_citation":"https://pith.science/pith/6SUNX6EOJCGCJJZ4RRUWJI4LDV/action/citation_signature","submit_replication":"https://pith.science/pith/6SUNX6EOJCGCJJZ4RRUWJI4LDV/action/replication_record"}},"created_at":"2026-05-17T23:38:46.550403+00:00","updated_at":"2026-05-17T23:38:46.550403+00:00"}