{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:WFARVYX43DK65L5SXE356SZTPU","short_pith_number":"pith:WFARVYX4","schema_version":"1.0","canonical_sha256":"b1411ae2fcd8d5eeafb2b937df4b337d148e5fe34b9c713873d7a41e79330ddc","source":{"kind":"arxiv","id":"2505.12705","version":2},"attestation_state":"computed","paper":{"title":"DreamGen: Unlocking Generalization in Robot Learning through Video World Models","license":"http://creativecommons.org/licenses/by/4.0/","headline":"A simple pipeline adapts video world models to generate synthetic robot trajectories that let humanoid policies generalize to 22 new behaviors and unseen environments from data of a single task.","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.RO","authors_text":"Ajay Mandlekar, Avnish Narayan, Dieter Fox, Fengyuan Hu, Guanzhi Wang, Jan Kautz, Jiannan Xiang, Jing Wang, Joel Jang, Johan Bjorck, Kaiyuan Zheng, Kaushil Kundalia, Linxi Fan, Loic Magne, Luke Zettlemoyer, Ming-Yu Liu, Qi Wang, Ruijie Zheng, Scott Reed, Seonghyeon Ye, Spencer Huang, Xiaohui Zeng, Yen-Chen Lin, Yinzhen Xu, You Liang Tan, Yu Fang, Yuke Zhu, Zongyu Lin","submitted_at":"2025-05-19T04:55:39Z","abstract_excerpt":"We introduce DreamGen, a simple yet highly effective 4-stage pipeline for training robot policies that generalize across behaviors and environments through neural trajectories - synthetic robot data generated from video world models. DreamGen leverages state-of-the-art image-to-video generative models, adapting them to the target robot embodiment to produce photorealistic synthetic videos of familiar or novel tasks in diverse environments. Since these models generate only videos, we recover pseudo-action sequences using either a latent action model or an inverse-dynamics model (IDM). Despite i"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":false},"canonical_record":{"source":{"id":"2505.12705","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2025-05-19T04:55:39Z","cross_cats_sorted":["cs.AI","cs.LG"],"title_canon_sha256":"5fe7036366dfadbec2fee4d738e16acb05606dedf41aa685db9c3b9c1a71ed51","abstract_canon_sha256":"15a1b058cf62eeef9be0ed98732a07113d59ff33a5cc79dbaa3dedc0b1aa0611"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:49.710865Z","signature_b64":"2yQoGJX8g9aohRgQYMcp0hvNdxgi+w+FmeMg33249F8FLITwNAvzuMqVayxxknl1Xd4kZ9xxYlZ0p/aC78q3AQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"b1411ae2fcd8d5eeafb2b937df4b337d148e5fe34b9c713873d7a41e79330ddc","last_reissued_at":"2026-05-17T23:38:49.710381Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:49.710381Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"DreamGen: Unlocking Generalization in Robot Learning through Video World Models","license":"http://creativecommons.org/licenses/by/4.0/","headline":"A simple pipeline adapts video world models to generate synthetic robot trajectories that let humanoid policies generalize to 22 new behaviors and unseen environments from data of a single task.","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.RO","authors_text":"Ajay Mandlekar, Avnish Narayan, Dieter Fox, Fengyuan Hu, Guanzhi Wang, Jan Kautz, Jiannan Xiang, Jing Wang, Joel Jang, Johan Bjorck, Kaiyuan Zheng, Kaushil Kundalia, Linxi Fan, Loic Magne, Luke Zettlemoyer, Ming-Yu Liu, Qi Wang, Ruijie Zheng, Scott Reed, Seonghyeon Ye, Spencer Huang, Xiaohui Zeng, Yen-Chen Lin, Yinzhen Xu, You Liang Tan, Yu Fang, Yuke Zhu, Zongyu Lin","submitted_at":"2025-05-19T04:55:39Z","abstract_excerpt":"We introduce DreamGen, a simple yet highly effective 4-stage pipeline for training robot policies that generalize across behaviors and environments through neural trajectories - synthetic robot data generated from video world models. DreamGen leverages state-of-the-art image-to-video generative models, adapting them to the target robot embodiment to produce photorealistic synthetic videos of familiar or novel tasks in diverse environments. Since these models generate only videos, we recover pseudo-action sequences using either a latent action model or an inverse-dynamics model (IDM). Despite i"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Despite its simplicity, DreamGen unlocks strong behavior and environment generalization: a humanoid robot can perform 22 new behaviors in both seen and unseen environments, while requiring teleoperation data from only a single pick-and-place task in one environment.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the adapted video world models produce sufficiently realistic and embodiment-consistent synthetic videos such that pseudo-actions recovered by the latent action model or IDM yield policies that transfer effectively to the physical robot without large domain gaps.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"DreamGen trains robot policies on synthetic trajectories from adapted video world models, enabling a humanoid robot to perform 22 new behaviors in seen and unseen environments from a single pick-and-place teleoperation dataset.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"A simple pipeline adapts video world models to generate synthetic robot trajectories that let humanoid policies generalize to 22 new behaviors and unseen environments from data of a single task.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"b2e1c7201344e04cd8b4e09d6f6c3e409521ffc649c29828c5dd6210f54bacd7"},"source":{"id":"2505.12705","kind":"arxiv","version":2},"verdict":{"id":"c6b4287b-10bf-491b-93e8-2521928d87b5","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T23:47:28.279676Z","strongest_claim":"Despite its simplicity, DreamGen unlocks strong behavior and environment generalization: a humanoid robot can perform 22 new behaviors in both seen and unseen environments, while requiring teleoperation data from only a single pick-and-place task in one environment.","one_line_summary":"DreamGen trains robot policies on synthetic trajectories from adapted video world models, enabling a humanoid robot to perform 22 new behaviors in seen and unseen environments from a single pick-and-place teleoperation dataset.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the adapted video world models produce sufficiently realistic and embodiment-consistent synthetic videos such that pseudo-actions recovered by the latent action model or IDM yield policies that transfer effectively to the physical robot without large domain gaps.","pith_extraction_headline":"A simple pipeline adapts video world models to generate synthetic robot trajectories that let humanoid policies generalize to 22 new behaviors and unseen environments from data of a single task."},"references":{"count":79,"sample":[{"doi":"","year":2023,"title":"RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control","work_id":"ff438a8a-8003-4fae-9131-acd418b3597b","ref_index":1,"cited_arxiv_id":"2307.15818","is_internal_anchor":true},{"doi":"","year":2024,"title":"$\\pi_0$: A Vision-Language-Action Flow Model for General Robot Control","work_id":"f790abdc-a796-482f-a40d-f8ee035ecfc2","ref_index":2,"cited_arxiv_id":"2410.24164","is_internal_anchor":true},{"doi":"","year":2025,"title":"Gemini Robotics: Bringing AI into the Physical World","work_id":"f7c5ce10-8364-4fbe-964f-2802b81c3a98","ref_index":3,"cited_arxiv_id":"2503.20020","is_internal_anchor":true},{"doi":"","year":2025,"title":"AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems","work_id":"f797e9ec-510f-43a7-8a0c-18009ce332e5","ref_index":4,"cited_arxiv_id":"2503.06669","is_internal_anchor":true},{"doi":"","year":2025,"title":"GR00T N1: An Open Foundation Model for Generalist Humanoid Robots","work_id":"e2db69c7-ee8a-4cb7-a761-7b8de1dfcf97","ref_index":5,"cited_arxiv_id":"2503.14734","is_internal_anchor":true}],"resolved_work":79,"snapshot_sha256":"fd5cbab77ed7de748e485207da64a00b0768f55f8124d9d9c3c704187ab4f0fd","internal_anchors":24},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2505.12705","created_at":"2026-05-17T23:38:49.710455+00:00"},{"alias_kind":"arxiv_version","alias_value":"2505.12705v2","created_at":"2026-05-17T23:38:49.710455+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2505.12705","created_at":"2026-05-17T23:38:49.710455+00:00"},{"alias_kind":"pith_short_12","alias_value":"WFARVYX43DK6","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"WFARVYX43DK65L5S","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"WFARVYX4","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":31,"internal_anchor_count":31,"sample":[{"citing_arxiv_id":"2605.16530","citing_title":"SWoMo: Neuro-Symbolic World Model for Cataract Surgery Simulation","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16530","citing_title":"SWoMo: Neuro-Symbolic World Model for Cataract Surgery Simulation","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19289","citing_title":"What Makes Synthetic Data Effective in Image Segmentation","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19600","citing_title":"FlyMirage: A Fully Automated Generation Pipeline for Diverse and Scalable UAV Flight Data via Generative World Model","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15477","citing_title":"EgoExo-WM: Unlocking Exo Video for Ego World Models","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2510.26782","citing_title":"Cloning Deterministic Worlds: The Critical Role of Latent Geometry in Long-Horizon World Models","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2507.04447","citing_title":"DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2508.05635","citing_title":"Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2603.09030","citing_title":"PlayWorld: Learning Robot World Models from Autonomous Play","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2603.15759","citing_title":"Simulation Distillation: Pretraining World Models in Simulation for Rapid Real-World Adaptation","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19092","citing_title":"RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07931","citing_title":"One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10819","citing_title":"ALAM: Algebraically Consistent Latent Action Model for Vision-Language-Action Models","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2603.16666","citing_title":"Fast-WAM: Do World Action Models Need Test-time Future Imagination?","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2511.00062","citing_title":"World Simulation with Video Foundation Models for Physical AI","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2601.16163","citing_title":"Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27711","citing_title":"ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2604.28185","citing_title":"Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26509","citing_title":"3D Generation for Embodied AI and Robotic Simulation: A Survey","ref_index":65,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07931","citing_title":"One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10819","citing_title":"ALAM: Algebraically Consistent Latent Action Model for Vision-Language-Action Models","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26509","citing_title":"3D Generation for Embodied AI and Robotic Simulation: A Survey","ref_index":65,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06192","citing_title":"EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00244","citing_title":"Lucid-XR: An Extended-Reality Data Engine for Robotic Manipulation","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2604.09330","citing_title":"VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis","ref_index":29,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/WFARVYX43DK65L5SXE356SZTPU","json":"https://pith.science/pith/WFARVYX43DK65L5SXE356SZTPU.json","graph_json":"https://pith.science/api/pith-number/WFARVYX43DK65L5SXE356SZTPU/graph.json","events_json":"https://pith.science/api/pith-number/WFARVYX43DK65L5SXE356SZTPU/events.json","paper":"https://pith.science/paper/WFARVYX4"},"agent_actions":{"view_html":"https://pith.science/pith/WFARVYX43DK65L5SXE356SZTPU","download_json":"https://pith.science/pith/WFARVYX43DK65L5SXE356SZTPU.json","view_paper":"https://pith.science/paper/WFARVYX4","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2505.12705&json=true","fetch_graph":"https://pith.science/api/pith-number/WFARVYX43DK65L5SXE356SZTPU/graph.json","fetch_events":"https://pith.science/api/pith-number/WFARVYX43DK65L5SXE356SZTPU/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/WFARVYX43DK65L5SXE356SZTPU/action/timestamp_anchor","attest_storage":"https://pith.science/pith/WFARVYX43DK65L5SXE356SZTPU/action/storage_attestation","attest_author":"https://pith.science/pith/WFARVYX43DK65L5SXE356SZTPU/action/author_attestation","sign_citation":"https://pith.science/pith/WFARVYX43DK65L5SXE356SZTPU/action/citation_signature","submit_replication":"https://pith.science/pith/WFARVYX43DK65L5SXE356SZTPU/action/replication_record"}},"created_at":"2026-05-17T23:38:49.710455+00:00","updated_at":"2026-05-17T23:38:49.710455+00:00"}