{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:FHMXRTDTXNYDEM4HQO32OER25V","short_pith_number":"pith:FHMXRTDT","schema_version":"1.0","canonical_sha256":"29d978cc73bb7032338783b7a7123aed6e038a20251717a494b8f4a7ed7a00eb","source":{"kind":"arxiv","id":"2505.15659","version":1},"attestation_state":"computed","paper":{"title":"FLARE: Robot Learning with Implicit World Modeling","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Aligning a diffusion transformer's features with future observation latents lets robot policies anticipate long-term consequences during action generation.","cross_cats":["cs.LG"],"primary_cat":"cs.RO","authors_text":"Avnish Narayan, Fengyuan Hu, Furong Huang, Guanzhi Wang, Jan Kautz, Jiannan Xiang, Jing Wang, Joel Jang, Johan Bjorck, Kaushil Kundalia, Linxi Fan, Loic Magne, Qi Wang, Ruijie Zheng, Scott Reed, Seonghyeon Ye, Yinzhen Xu, You Liang Tan, Yu Fang, Yuke Zhu, Zongyu Lin","submitted_at":"2025-05-21T15:33:27Z","abstract_excerpt":"We introduce $\\textbf{F}$uture $\\textbf{LA}$tent $\\textbf{RE}$presentation Alignment ($\\textbf{FLARE}$), a novel framework that integrates predictive latent world modeling into robot policy learning. By aligning features from a diffusion transformer with latent embeddings of future observations, $\\textbf{FLARE}$ enables a diffusion transformer policy to anticipate latent representations of future observations, allowing it to reason about long-term consequences while generating actions. Remarkably lightweight, $\\textbf{FLARE}$ requires only minimal architectural modifications -- adding a few to"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2505.15659","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2025-05-21T15:33:27Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"f3cd028e9eb07f663460c4832adf41299156087f6f54c3a54047e302a28fe422","abstract_canon_sha256":"07a761b92ad3ee2eeafe57fca02e6460a8b6c175372e9f4a7319ade349de37e0"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:13.649699Z","signature_b64":"FrKKsCMVeqQDEMuoxL63PHHSahDN2dNGn9QLdFRh/5+Cvyw2Z+TXPq/8oJn27D+k10o1exHQsSSuu5wC8OdIDA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"29d978cc73bb7032338783b7a7123aed6e038a20251717a494b8f4a7ed7a00eb","last_reissued_at":"2026-05-17T23:38:13.649055Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:13.649055Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"FLARE: Robot Learning with Implicit World Modeling","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Aligning a diffusion transformer's features with future observation latents lets robot policies anticipate long-term consequences during action generation.","cross_cats":["cs.LG"],"primary_cat":"cs.RO","authors_text":"Avnish Narayan, Fengyuan Hu, Furong Huang, Guanzhi Wang, Jan Kautz, Jiannan Xiang, Jing Wang, Joel Jang, Johan Bjorck, Kaushil Kundalia, Linxi Fan, Loic Magne, Qi Wang, Ruijie Zheng, Scott Reed, Seonghyeon Ye, Yinzhen Xu, You Liang Tan, Yu Fang, Yuke Zhu, Zongyu Lin","submitted_at":"2025-05-21T15:33:27Z","abstract_excerpt":"We introduce $\\textbf{F}$uture $\\textbf{LA}$tent $\\textbf{RE}$presentation Alignment ($\\textbf{FLARE}$), a novel framework that integrates predictive latent world modeling into robot policy learning. By aligning features from a diffusion transformer with latent embeddings of future observations, $\\textbf{FLARE}$ enables a diffusion transformer policy to anticipate latent representations of future observations, allowing it to reason about long-term consequences while generating actions. Remarkably lightweight, $\\textbf{FLARE}$ requires only minimal architectural modifications -- adding a few to"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"By aligning features from a diffusion transformer with latent embeddings of future observations, FLARE enables a diffusion transformer policy to anticipate latent representations of future observations, allowing it to reason about long-term consequences while generating actions. Across two challenging multitask simulation imitation learning benchmarks spanning single-arm and humanoid tabletop manipulation, FLARE achieves state-of-the-art performance, outperforming prior policy learning baselines by up to 26%.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That adding a few tokens for future-latent alignment to existing VLA diffusion models is sufficient to produce reliable long-horizon reasoning without additional supervision or architectural changes that would alter the core diffusion process.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"FLARE integrates predictive latent world modeling into diffusion transformer policies for robots, delivering up to 26% gains on multitask manipulation benchmarks and enabling co-training with action-free human videos.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Aligning a diffusion transformer's features with future observation latents lets robot policies anticipate long-term consequences during action generation.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"3809adc4713f24a29aa31b7d2ba091d297667176a15b7fd3266649ecd47bdc6f"},"source":{"id":"2505.15659","kind":"arxiv","version":1},"verdict":{"id":"9a70e626-2f55-44b1-be8f-7ad2963d8f51","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-17T15:53:24.143498Z","strongest_claim":"By aligning features from a diffusion transformer with latent embeddings of future observations, FLARE enables a diffusion transformer policy to anticipate latent representations of future observations, allowing it to reason about long-term consequences while generating actions. Across two challenging multitask simulation imitation learning benchmarks spanning single-arm and humanoid tabletop manipulation, FLARE achieves state-of-the-art performance, outperforming prior policy learning baselines by up to 26%.","one_line_summary":"FLARE integrates predictive latent world modeling into diffusion transformer policies for robots, delivering up to 26% gains on multitask manipulation benchmarks and enabling co-training with action-free human videos.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That adding a few tokens for future-latent alignment to existing VLA diffusion models is sufficient to produce reliable long-horizon reasoning without additional supervision or architectural changes that would alter the core diffusion process.","pith_extraction_headline":"Aligning a diffusion transformer's features with future observation latents lets robot policies anticipate long-term consequences during action generation."},"references":{"count":69,"sample":[{"doi":"","year":2024,"title":"H. Wu, Y . Jing, C. Cheang, G. Chen, J. Xu, X. Li, M. Liu, H. Li, and T. Kong. Unleashing large- scale video generative pre-training for visual robot manipulation. In The Twelfth International Confere","work_id":"b1bbaaed-1327-4b88-a290-18f25cf53f57","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Unified Video Action Model","work_id":"fb4cc512-d1d9-40f4-8854-d35950ad20b3","ref_index":3,"cited_arxiv_id":"2503.00200","is_internal_anchor":true},{"doi":"","year":2025,"title":"C. Zhu, R. Yu, S. Feng, B. Burchfiel, P. Shah, and A. Gupta. Unified world models: Coupling video and action diffusion for pretraining on large robotic datasets. 2025","work_id":"25a4a405-d81c-46d9-a603-c8fa438b3636","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models","work_id":"14a3cf4d-f3aa-46dd-a613-bb5253154921","ref_index":5,"cited_arxiv_id":"2503.22020","is_internal_anchor":true},{"doi":"","year":2023,"title":"Y . Du, S. Yang, B. Dai, H. Dai, O. Nachum, J. B. Tenenbaum, D. Schuurmans, and P. Abbeel. Learning universal policies via text-guided video generation. In Thirty-seventh Conference on Neural Informat","work_id":"1e29be15-7131-400d-b528-00a6738abac1","ref_index":6,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":69,"snapshot_sha256":"d93689ae1844a9a04f45eb229de8919bf31c82c04b29b63fab7a78c63046e21c","internal_anchors":19},"formal_canon":{"evidence_count":2,"snapshot_sha256":"b5b4d29175b1d1bee274329b56d957cb4f38c35789a682e4784d2d16f1293cc7"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2505.15659","created_at":"2026-05-17T23:38:13.649168+00:00"},{"alias_kind":"arxiv_version","alias_value":"2505.15659v1","created_at":"2026-05-17T23:38:13.649168+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2505.15659","created_at":"2026-05-17T23:38:13.649168+00:00"},{"alias_kind":"pith_short_12","alias_value":"FHMXRTDTXNYD","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"FHMXRTDTXNYDEM4H","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"FHMXRTDT","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":18,"internal_anchor_count":18,"sample":[{"citing_arxiv_id":"2605.21862","citing_title":"EvoScene-VLA: Evolving Scene Beliefs Inside the Action Decoder for Chunked Robot Control","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17517","citing_title":"AffordVLA: Injecting Affordance Representations into Vision-Language-Action Models via Implicit Feature Alignment","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2507.04447","citing_title":"DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge","ref_index":95,"is_internal_anchor":true},{"citing_arxiv_id":"2510.10125","citing_title":"Ctrl-World: A Controllable Generative World Model for Robot Manipulation","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2512.15692","citing_title":"mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs","ref_index":62,"is_internal_anchor":true},{"citing_arxiv_id":"2603.16666","citing_title":"Fast-WAM: Do World Action Models Need Test-time Future Imagination?","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2603.29844","citing_title":"DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12090","citing_title":"World Action Models: The Next Frontier in Embodied AI","ref_index":101,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12167","citing_title":"From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation","ref_index":56,"is_internal_anchor":true},{"citing_arxiv_id":"2601.16163","citing_title":"Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10942","citing_title":"HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models","ref_index":57,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10903","citing_title":"CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.22615","citing_title":"GazeVLA: Learning Human Intention for Robotic Manipulation","ref_index":83,"is_internal_anchor":true},{"citing_arxiv_id":"2602.15922","citing_title":"World Action Models are Zero-shot Policies","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19734","citing_title":"UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07079","citing_title":"Learning Visual Feature-Based World Models via Residual Latent Action","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2506.09985","citing_title":"V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning","ref_index":58,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18564","citing_title":"MultiWorld: Scalable Multi-Agent Multi-View Video World Models","ref_index":71,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/FHMXRTDTXNYDEM4HQO32OER25V","json":"https://pith.science/pith/FHMXRTDTXNYDEM4HQO32OER25V.json","graph_json":"https://pith.science/api/pith-number/FHMXRTDTXNYDEM4HQO32OER25V/graph.json","events_json":"https://pith.science/api/pith-number/FHMXRTDTXNYDEM4HQO32OER25V/events.json","paper":"https://pith.science/paper/FHMXRTDT"},"agent_actions":{"view_html":"https://pith.science/pith/FHMXRTDTXNYDEM4HQO32OER25V","download_json":"https://pith.science/pith/FHMXRTDTXNYDEM4HQO32OER25V.json","view_paper":"https://pith.science/paper/FHMXRTDT","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2505.15659&json=true","fetch_graph":"https://pith.science/api/pith-number/FHMXRTDTXNYDEM4HQO32OER25V/graph.json","fetch_events":"https://pith.science/api/pith-number/FHMXRTDTXNYDEM4HQO32OER25V/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/FHMXRTDTXNYDEM4HQO32OER25V/action/timestamp_anchor","attest_storage":"https://pith.science/pith/FHMXRTDTXNYDEM4HQO32OER25V/action/storage_attestation","attest_author":"https://pith.science/pith/FHMXRTDTXNYDEM4HQO32OER25V/action/author_attestation","sign_citation":"https://pith.science/pith/FHMXRTDTXNYDEM4HQO32OER25V/action/citation_signature","submit_replication":"https://pith.science/pith/FHMXRTDTXNYDEM4HQO32OER25V/action/replication_record"}},"created_at":"2026-05-17T23:38:13.649168+00:00","updated_at":"2026-05-17T23:38:13.649168+00:00"}