{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:PJU6IWRD6PMWYZPP66ML6CSIRS","short_pith_number":"pith:PJU6IWRD","schema_version":"1.0","canonical_sha256":"7a69e45a23f3d96c65eff798bf0a488c8a2a7b9eb7b175fa9bd5fb26d25d470c","source":{"kind":"arxiv","id":"2602.06949","version":1},"attestation_state":"computed","paper":{"title":"DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos","license":"http://creativecommons.org/licenses/by/4.0/","headline":"A world model pretrained on 44k hours of human videos transfers to robots with accurate physics and control after minimal fine-tuning.","cross_cats":["cs.AI","cs.CV","cs.LG"],"primary_cat":"cs.RO","authors_text":"Ayaan Malik, Chen-Hsuan Lin, Dantong Niu, George Kurian, Jiannan Xiang, Jinwei Gu, Jitendra Malik, Joel Jang, Jun Zhang, Kaichun Mo, Kaiyuan Zheng, K.R. Zentner, Linxi \"Jim\" Fan, Loic Magne, Ming-Yu Liu, Pieter Abbeel, Pooya Jannaty, Qianli Ma, Ruijie Zheng, Seonghyeon Ye, Seungjun Nah, Shenyuan Gao, Sihyun Yu, Suneel Indupuru, Wei-Cheng Tseng, William Liang, You Liang Tan, Yuke Zhu, Yuqi Xie, Yuzhu Dong","submitted_at":"2026-02-06T18:49:43Z","abstract_excerpt":"Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of da"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2602.06949","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-02-06T18:49:43Z","cross_cats_sorted":["cs.AI","cs.CV","cs.LG"],"title_canon_sha256":"150dec8e0282a7e6db552a244369c04eb2de1c00c818ae3ac60e8cb4564082bd","abstract_canon_sha256":"83090a0b7e213a14395a56990cba1bc5989cb4fdb3ad92e464a98152840b7853"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:47.189776Z","signature_b64":"2rzHn06Js4XfbHHx+VLlxGOOwY3zyWgaiZeQu37KLz5GYw2iazAXU2S4r9vbtIL1pQvLH447zySdJ00xNILhDQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7a69e45a23f3d96c65eff798bf0a488c8a2a7b9eb7b175fa9bd5fb26d25d470c","last_reissued_at":"2026-05-17T23:38:47.189361Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:47.189361Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos","license":"http://creativecommons.org/licenses/by/4.0/","headline":"A world model pretrained on 44k hours of human videos transfers to robots with accurate physics and control after minimal fine-tuning.","cross_cats":["cs.AI","cs.CV","cs.LG"],"primary_cat":"cs.RO","authors_text":"Ayaan Malik, Chen-Hsuan Lin, Dantong Niu, George Kurian, Jiannan Xiang, Jinwei Gu, Jitendra Malik, Joel Jang, Jun Zhang, Kaichun Mo, Kaiyuan Zheng, K.R. Zentner, Linxi \"Jim\" Fan, Loic Magne, Ming-Yu Liu, Pieter Abbeel, Pooya Jannaty, Qianli Ma, Ruijie Zheng, Seonghyeon Ye, Seungjun Nah, Shenyuan Gao, Sihyun Yu, Suneel Indupuru, Wei-Cheng Tseng, William Liang, You Liang Tan, Yuke Zhu, Yuqi Xie, Yuzhu Dong","submitted_at":"2026-02-06T18:49:43Z","abstract_excerpt":"Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of da"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability on multiple challenging out-of-distribution benchmarks.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"Continuous latent actions learned from unlabeled human videos serve as effective proxy actions that transfer interaction knowledge to robot control without introducing domain gaps that degrade physics prediction.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"DreamDojo is a foundation world model pretrained on the largest human video dataset to date that uses continuous latent actions to transfer interaction knowledge and achieves controllable physics simulation after robot post-training.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"A world model pretrained on 44k hours of human videos transfers to robots with accurate physics and control after minimal fine-tuning.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"a3f8b110174c6ec88df86769ff4a233a458c004e8bf65bc5a131f5a317ea95c0"},"source":{"id":"2602.06949","kind":"arxiv","version":1},"verdict":{"id":"366f8ffd-3847-47a6-a304-e2f563a32b85","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T16:57:28.111782Z","strongest_claim":"After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability on multiple challenging out-of-distribution benchmarks.","one_line_summary":"DreamDojo is a foundation world model pretrained on the largest human video dataset to date that uses continuous latent actions to transfer interaction knowledge and achieves controllable physics simulation after robot post-training.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"Continuous latent actions learned from unlabeled human videos serve as effective proxy actions that transfer interaction knowledge to robot control without introducing domain gaps that degrade physics prediction.","pith_extraction_headline":"A world model pretrained on 44k hours of human videos transfers to robots with accurate physics and control after minimal fine-tuning."},"references":{"count":131,"sample":[{"doi":"","year":2025,"title":"World Simulation with Video Foundation Models for Physical AI","work_id":"1dc393b8-98c3-43bd-8ab0-25d7c2a9705b","ref_index":1,"cited_arxiv_id":"2511.00062","is_internal_anchor":true},{"doi":"","year":2024,"title":"Diffusion for World Modeling: Visual Details Matter in Atari","work_id":"0b950347-c858-49b3-b5b8-7d4ef86b8c79","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning","work_id":"a9c28401-f16a-4933-89f0-788e2f94e52b","ref_index":3,"cited_arxiv_id":"2506.09985","is_internal_anchor":true},{"doi":"","year":2025,"title":"Whole-body conditioned egocentric video prediction","work_id":"16a86800-0171-422d-8be4-1732d118a0d4","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Genie 3: A New Frontier for World Models, 2025","work_id":"91fae91f-bd0b-44af-994d-847d340d4483","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":131,"snapshot_sha256":"8f97820ce321d473360d79e6c75b7013256917ad3f28093817fed9068a36e900","internal_anchors":30},"formal_canon":{"evidence_count":2,"snapshot_sha256":"794471e644fdf17259b3fb559808e7fe8b674f03f6f388a7f5f4c9a082bf2898"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2602.06949","created_at":"2026-05-17T23:38:47.189430+00:00"},{"alias_kind":"arxiv_version","alias_value":"2602.06949v1","created_at":"2026-05-17T23:38:47.189430+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2602.06949","created_at":"2026-05-17T23:38:47.189430+00:00"},{"alias_kind":"pith_short_12","alias_value":"PJU6IWRD6PMW","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"PJU6IWRD6PMWYZPP","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"PJU6IWRD","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":23,"internal_anchor_count":23,"sample":[{"citing_arxiv_id":"2604.08295","citing_title":"U-CECE: A Universal Multi-Resolution Framework for Conceptual Counterfactual Explanations","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22718","citing_title":"WorldKV: Efficient World Memory with World Retrieval and Compression","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16395","citing_title":"OrbiSim: World Models as Differentiable Physics Engines for Embodied Intelligence","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17077","citing_title":"How to Instruct Your Robot: Dense Language Annotations Power Robot Policy Learning","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16797","citing_title":"EgoKit: Towards Unified Low-Cost Egocentric Data Collection with Heterogeneous Devices","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15477","citing_title":"EgoExo-WM: Unlocking Exo Video for Ego World Models","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15178","citing_title":"SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2603.11755","citing_title":"Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13083","citing_title":"TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13775","citing_title":"RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2603.28489","citing_title":"Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms","ref_index":214,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11750","citing_title":"DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12090","citing_title":"World Action Models: The Next Frontier in Embodied AI","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11665","citing_title":"Nautilus: From One Prompt to Plug-and-Play Robot Learning","ref_index":72,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26848","citing_title":"STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26182","citing_title":"Lifting Embodied World Models for Planning and Control","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.22748","citing_title":"Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond","ref_index":102,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19741","citing_title":"CityRAG: Stepping Into a City via Spatially-Grounded Video Generation","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08544","citing_title":"SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2604.09330","citing_title":"VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2604.07348","citing_title":"MoRight: Motion Control Done Right","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08995","citing_title":"Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11751","citing_title":"Grounded World Model for Semantically Generalizable Planning","ref_index":17,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/PJU6IWRD6PMWYZPP66ML6CSIRS","json":"https://pith.science/pith/PJU6IWRD6PMWYZPP66ML6CSIRS.json","graph_json":"https://pith.science/api/pith-number/PJU6IWRD6PMWYZPP66ML6CSIRS/graph.json","events_json":"https://pith.science/api/pith-number/PJU6IWRD6PMWYZPP66ML6CSIRS/events.json","paper":"https://pith.science/paper/PJU6IWRD"},"agent_actions":{"view_html":"https://pith.science/pith/PJU6IWRD6PMWYZPP66ML6CSIRS","download_json":"https://pith.science/pith/PJU6IWRD6PMWYZPP66ML6CSIRS.json","view_paper":"https://pith.science/paper/PJU6IWRD","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2602.06949&json=true","fetch_graph":"https://pith.science/api/pith-number/PJU6IWRD6PMWYZPP66ML6CSIRS/graph.json","fetch_events":"https://pith.science/api/pith-number/PJU6IWRD6PMWYZPP66ML6CSIRS/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/PJU6IWRD6PMWYZPP66ML6CSIRS/action/timestamp_anchor","attest_storage":"https://pith.science/pith/PJU6IWRD6PMWYZPP66ML6CSIRS/action/storage_attestation","attest_author":"https://pith.science/pith/PJU6IWRD6PMWYZPP66ML6CSIRS/action/author_attestation","sign_citation":"https://pith.science/pith/PJU6IWRD6PMWYZPP66ML6CSIRS/action/citation_signature","submit_replication":"https://pith.science/pith/PJU6IWRD6PMWYZPP66ML6CSIRS/action/replication_record"}},"created_at":"2026-05-17T23:38:47.189430+00:00","updated_at":"2026-05-17T23:38:47.189430+00:00"}