{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:BOXZES2IUJO6M2D3ZJ2V7L2TJD","short_pith_number":"pith:BOXZES2I","schema_version":"1.0","canonical_sha256":"0baf924b48a25de6687bca755faf5348ee903c9ac35a648ddda7a30a201094cb","source":{"kind":"arxiv","id":"2509.24527","version":1},"attestation_state":"computed","paper":{"title":"Training Agents Inside of Scalable World Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Dreamer 4 obtains diamonds in Minecraft by training reinforcement learning behaviors inside a world model learned from offline videos.","cross_cats":["cs.LG","cs.RO","stat.ML"],"primary_cat":"cs.AI","authors_text":"Danijar Hafner, Timothy Lillicrap, Wilson Yan","submitted_at":"2025-09-29T09:42:27Z","abstract_excerpt":"World models learn general knowledge from videos and simulate experience for training behaviors in imagination, offering a path towards intelligent agents. However, previous world models have been unable to accurately predict object interactions in complex environments. We introduce Dreamer 4, a scalable agent that learns to solve control tasks by reinforcement learning inside of a fast and accurate world model. In the complex video game Minecraft, the world model accurately predicts object interactions and game mechanics, outperforming previous world models by a large margin. The world model "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2509.24527","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2025-09-29T09:42:27Z","cross_cats_sorted":["cs.LG","cs.RO","stat.ML"],"title_canon_sha256":"ca412486a9c960ce665f45febfd51c94c7d589cdfd63db76b8163230d2325929","abstract_canon_sha256":"4b59d29c5076b42c6c37a85dc96c337c8730bf3be3b0297aa2e051b899671712"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:53.863342Z","signature_b64":"ZyxdlVDCfM305rJfTJxnvFGNMlQ5zksZ6kv7NIJbf6X40GLezDXnj1Th9qGgtqiIL/Uioxem4Gceet1wc94zBQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"0baf924b48a25de6687bca755faf5348ee903c9ac35a648ddda7a30a201094cb","last_reissued_at":"2026-05-17T23:38:53.862693Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:53.862693Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Training Agents Inside of Scalable World Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Dreamer 4 obtains diamonds in Minecraft by training reinforcement learning behaviors inside a world model learned from offline videos.","cross_cats":["cs.LG","cs.RO","stat.ML"],"primary_cat":"cs.AI","authors_text":"Danijar Hafner, Timothy Lillicrap, Wilson Yan","submitted_at":"2025-09-29T09:42:27Z","abstract_excerpt":"World models learn general knowledge from videos and simulate experience for training behaviors in imagination, offering a path towards intelligent agents. However, previous world models have been unable to accurately predict object interactions in complex environments. We introduce Dreamer 4, a scalable agent that learns to solve control tasks by reinforcement learning inside of a fast and accurate world model. In the complex video game Minecraft, the world model accurately predicts object interactions and game mechanics, outperforming previous world models by a large margin. The world model "},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"By learning behaviors in imagination, Dreamer 4 is the first agent to obtain diamonds in Minecraft purely from offline data, without environment interaction.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The world model accurately predicts object interactions and game mechanics over the long action sequences required for the diamond task.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Dreamer 4 is the first agent to obtain diamonds in Minecraft from only offline data by reinforcement learning inside a scalable world model that accurately predicts game mechanics.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Dreamer 4 obtains diamonds in Minecraft by training reinforcement learning behaviors inside a world model learned from offline videos.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"a5ed48d9d4e669289a408a2581c8da8d60ebc3bf363b27c85e57f8d791f7fd02"},"source":{"id":"2509.24527","kind":"arxiv","version":1},"verdict":{"id":"e70fdf4a-fa31-411b-a985-eb38cd501cd6","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T02:01:18.530066Z","strongest_claim":"By learning behaviors in imagination, Dreamer 4 is the first agent to obtain diamonds in Minecraft purely from offline data, without environment interaction.","one_line_summary":"Dreamer 4 is the first agent to obtain diamonds in Minecraft from only offline data by reinforcement learning inside a scalable world model that accurately predicts game mechanics.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The world model accurately predicts object interactions and game mechanics over the long action sequences required for the diamond task.","pith_extraction_headline":"Dreamer 4 obtains diamonds in Minecraft by training reinforcement learning behaviors inside a world model learned from offline videos."},"references":{"count":84,"sample":[{"doi":"","year":2025,"title":"Mastering diverse control tasks through world models.Nature, pages 1–7, 2025","work_id":"11501645-f4f6-4b70-a15e-9da63b320e73","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Daydreamer: World models for physical robot learning","work_id":"3be0bb29-cef0-4cd3-90da-1ffb544f0046","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"TD-MPC2: Scalable, Robust World Models for Continuous Control","work_id":"360ec5fb-79fd-4490-bc73-3d161609c42d","ref_index":3,"cited_arxiv_id":"2310.16828","is_internal_anchor":true},{"doi":"","year":2024,"title":"Diffusion for world modeling: Visual details matter in atari.Advances in Neural Information Processing Systems, 37:58757–58791, 2024","work_id":"38bbb70f-29a1-4c4c-9a5b-f24d6be2e431","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":1911,"title":"Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model","work_id":"964ed935-1570-495e-a162-9182456934cc","ref_index":5,"cited_arxiv_id":"1911.08265","is_internal_anchor":true}],"resolved_work":84,"snapshot_sha256":"23340cba0440dd8752f3268d74a4c14f9e42192b4a5ff5b96a8f6fe37b8ef1b4","internal_anchors":26},"formal_canon":{"evidence_count":2,"snapshot_sha256":"cfb102cd8a5c161d63ae1f4f8b90da852ce445831b12a5650c28aff7edf83ea3"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2509.24527","created_at":"2026-05-17T23:38:53.862786+00:00"},{"alias_kind":"arxiv_version","alias_value":"2509.24527v1","created_at":"2026-05-17T23:38:53.862786+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2509.24527","created_at":"2026-05-17T23:38:53.862786+00:00"},{"alias_kind":"pith_short_12","alias_value":"BOXZES2IUJO6","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"BOXZES2IUJO6M2D3","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"BOXZES2I","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":38,"internal_anchor_count":38,"sample":[{"citing_arxiv_id":"2605.21800","citing_title":"stable-worldmodel: A Platform for Reproducible World Modeling Research and Evaluation","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22809","citing_title":"Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2602.16813","citing_title":"Flow Map Language Models: One-step Language Modeling via Continuous Denoising","ref_index":80,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08567","citing_title":"ACWM-Phys: Investigating Generalized Physical Interaction in Action-Conditioned Video World Models","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16412","citing_title":"SCAR: Self-Supervised Continuous Action Representation Learning","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15618","citing_title":"Latent Video Prediction Learns Better World Models","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18303","citing_title":"PH-Dreamer: A Physics-Driven World Model via Port-Hamiltonian Generative Dynamics","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2512.03438","citing_title":"Multimodal Reinforcement Learning with Adaptive Verifier for AI Agents","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2602.06949","citing_title":"DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2602.11075","citing_title":"RISE: Self-Improving Robot Policy with Compositional World Model","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2510.10125","citing_title":"Ctrl-World: A Controllable Generative World Model for Robot Manipulation","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2602.16813","citing_title":"Flow Map Language Models: One-step Language Modeling via Continuous Denoising","ref_index":80,"is_internal_anchor":true},{"citing_arxiv_id":"2603.11755","citing_title":"Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07931","citing_title":"One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2603.19312","citing_title":"LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14211","citing_title":"ASH: Agents that Self-Hone via Embodied Learning","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13740","citing_title":"Learning POMDP World Models from Observations with Language-Model Priors","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2603.28489","citing_title":"Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms","ref_index":236,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12090","citing_title":"World Action Models: The Next Frontier in Embodied AI","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11367","citing_title":"3D-Belief: Embodied Belief Inference via Generative 3D World Modeling","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06732","citing_title":"On Training in Imagination","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11665","citing_title":"Nautilus: From One Prompt to Plug-and-Play Robot Learning","ref_index":71,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08578","citing_title":"Probing the Impact of Scale on Data-Efficient, Generalist Transformer World Models for Atari","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08567","citing_title":"ACWM-Phys: Investigating Generalized Physical Interaction in Action-Conditioned Video World Models","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07931","citing_title":"One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy","ref_index":19,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/BOXZES2IUJO6M2D3ZJ2V7L2TJD","json":"https://pith.science/pith/BOXZES2IUJO6M2D3ZJ2V7L2TJD.json","graph_json":"https://pith.science/api/pith-number/BOXZES2IUJO6M2D3ZJ2V7L2TJD/graph.json","events_json":"https://pith.science/api/pith-number/BOXZES2IUJO6M2D3ZJ2V7L2TJD/events.json","paper":"https://pith.science/paper/BOXZES2I"},"agent_actions":{"view_html":"https://pith.science/pith/BOXZES2IUJO6M2D3ZJ2V7L2TJD","download_json":"https://pith.science/pith/BOXZES2IUJO6M2D3ZJ2V7L2TJD.json","view_paper":"https://pith.science/paper/BOXZES2I","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2509.24527&json=true","fetch_graph":"https://pith.science/api/pith-number/BOXZES2IUJO6M2D3ZJ2V7L2TJD/graph.json","fetch_events":"https://pith.science/api/pith-number/BOXZES2IUJO6M2D3ZJ2V7L2TJD/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/BOXZES2IUJO6M2D3ZJ2V7L2TJD/action/timestamp_anchor","attest_storage":"https://pith.science/pith/BOXZES2IUJO6M2D3ZJ2V7L2TJD/action/storage_attestation","attest_author":"https://pith.science/pith/BOXZES2IUJO6M2D3ZJ2V7L2TJD/action/author_attestation","sign_citation":"https://pith.science/pith/BOXZES2IUJO6M2D3ZJ2V7L2TJD/action/citation_signature","submit_replication":"https://pith.science/pith/BOXZES2IUJO6M2D3ZJ2V7L2TJD/action/replication_record"}},"created_at":"2026-05-17T23:38:53.862786+00:00","updated_at":"2026-05-17T23:38:53.862786+00:00"}