{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:57MOY35RKSWDA3PUOXJE5ICEAW","short_pith_number":"pith:57MOY35R","schema_version":"1.0","canonical_sha256":"efd8ec6fb154ac306df475d24ea044059ae2ad452412b6a444c84a360b52da61","source":{"kind":"arxiv","id":"2411.04983","version":2},"attestation_state":"computed","paper":{"title":"DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"DINO-WM uses pre-trained DINOv2 patch features to build world models that support zero-shot planning from offline data.","cross_cats":["cs.AI"],"primary_cat":"cs.RO","authors_text":"Gaoyue Zhou, Hengkai Pan, Lerrel Pinto, Yann LeCun","submitted_at":"2024-11-07T18:54:37Z","abstract_excerpt":"The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, remains challenging to learn and are typically developed for task-specific solutions with online policy learning. To unlock world models' true potential, we argue that they should 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To this end, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2411.04983","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2024-11-07T18:54:37Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"40b94add53985efde7ec3e35e5d2747436cc6d0ef9d700f818ce229c4e7b9abb","abstract_canon_sha256":"e58d581b062dd34ba2e4bdac3fef6fec60b35cb830b49b5caf1d525671d436f7"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:13.636570Z","signature_b64":"AQBCt3y22UEELqNGb/2ITSEAezzYTHuMvhzPLNFrRv7/Xx1dbIHcOjDY4S/aOHYjZli2RdxC6nwopr8Nm0TqAg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"efd8ec6fb154ac306df475d24ea044059ae2ad452412b6a444c84a360b52da61","last_reissued_at":"2026-05-17T23:38:13.635938Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:13.635938Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"DINO-WM uses pre-trained DINOv2 patch features to build world models that support zero-shot planning from offline data.","cross_cats":["cs.AI"],"primary_cat":"cs.RO","authors_text":"Gaoyue Zhou, Hengkai Pan, Lerrel Pinto, Yann LeCun","submitted_at":"2024-11-07T18:54:37Z","abstract_excerpt":"The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, remains challenging to learn and are typically developed for task-specific solutions with online policy learning. To unlock world models' true potential, we argue that they should 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To this end, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the "},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"DINO-WM achieves zero-shot behavioral solutions at test time on six environments without expert demonstrations, reward modeling, or pre-learned inverse models, outperforming prior state-of-the-art work across diverse task families.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That predicting future DINOv2 patch features alone captures sufficient dynamics information to enable reliable planning without visual reconstruction or task-specific components.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"DINO-WM builds world models on pre-trained DINOv2 features to enable zero-shot planning from offline data without rewards or demonstrations.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"DINO-WM uses pre-trained DINOv2 patch features to build world models that support zero-shot planning from offline data.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"6db11558a2ac2cfa3ee8711725c5f65e23582492548685ec38060de65901eeef"},"source":{"id":"2411.04983","kind":"arxiv","version":2},"verdict":{"id":"12c5d9cf-9f77-4a05-9637-ab014ad26b52","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-17T16:00:46.891348Z","strongest_claim":"DINO-WM achieves zero-shot behavioral solutions at test time on six environments without expert demonstrations, reward modeling, or pre-learned inverse models, outperforming prior state-of-the-art work across diverse task families.","one_line_summary":"DINO-WM builds world models on pre-trained DINOv2 features to enable zero-shot planning from offline data without rewards or demonstrations.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That predicting future DINOv2 patch features alone captures sufficient dynamics information to enable reliable planning without visual reconstruction or task-specific components.","pith_extraction_headline":"DINO-WM uses pre-trained DINOv2 patch features to build world models that support zero-shot planning from offline data."},"references":{"count":131,"sample":[{"doi":"","year":2022,"title":"Legged locomotion in challenging terrains using egocentric vision, 2022","work_id":"205d3229-9a4d-4506-8604-df6fa05bdde0","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Self-supervised learning from images with a joint-embedding predictive architecture","work_id":"f102eaff-c9af-4951-acb5-35e7356393be","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2008,"title":"Nonlinear and adaptive control with applications, volume 187","work_id":"c5bc28bc-c8f6-4af9-a97f-04c76ed022a8","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"V- JEPA : Latent video prediction for visual representation learning, 2024","work_id":"42a222c5-454c-48a6-b512-a7383176ac86","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control","work_id":"ff438a8a-8003-4fae-9131-acd418b3597b","ref_index":5,"cited_arxiv_id":"2307.15818","is_internal_anchor":true}],"resolved_work":131,"snapshot_sha256":"e16228a6869cc6f36edf1c4edfcb286399aa4c4123e66128ea91fb955b21680b","internal_anchors":27},"formal_canon":{"evidence_count":2,"snapshot_sha256":"df7eca548065fee867ef9495de757f98066fad6fe5dcac2a027416b1545f576c"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2411.04983","created_at":"2026-05-17T23:38:13.636034+00:00"},{"alias_kind":"arxiv_version","alias_value":"2411.04983v2","created_at":"2026-05-17T23:38:13.636034+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2411.04983","created_at":"2026-05-17T23:38:13.636034+00:00"},{"alias_kind":"pith_short_12","alias_value":"57MOY35RKSWD","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"57MOY35RKSWDA3PU","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"57MOY35R","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":27,"internal_anchor_count":27,"sample":[{"citing_arxiv_id":"2605.21800","citing_title":"stable-worldmodel: A Platform for Reproducible World Modeling Research and Evaluation","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22164","citing_title":"Beyond Euclidean Proximity: Repairing Latent World Models with Horizon-Matched Trajectory Reachability Metrics","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22138","citing_title":"Efficient Agentic Reasoning Through Self-Regulated Simulative Planning","ref_index":128,"is_internal_anchor":true},{"citing_arxiv_id":"2512.24497","citing_title":"What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?","ref_index":77,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16054","citing_title":"Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making","ref_index":206,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15618","citing_title":"Latent Video Prediction Learns Better World Models","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2506.09981","citing_title":"ReSim: Reliable World Simulation for Autonomous Driving","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2509.01728","citing_title":"Constrained Decoding for Safe Robot Navigation Foundation Models","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2505.15659","citing_title":"FLARE: Robot Learning with Implicit World Modeling","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2601.12538","citing_title":"Agentic Reasoning for Large Language Models","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2601.20239","citing_title":"TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance","ref_index":78,"is_internal_anchor":true},{"citing_arxiv_id":"2602.11075","citing_title":"RISE: Self-Improving Robot Policy with Compositional World Model","ref_index":96,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12651","citing_title":"Runtime Monitoring of Perception-Based Autonomous Systems via Embedding Temporal Logic","ref_index":81,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12651","citing_title":"Runtime Monitoring of Perception-Based Autonomous Systems via Embedding Temporal Logic","ref_index":81,"is_internal_anchor":true},{"citing_arxiv_id":"2603.29496","citing_title":"Metriplector: From Field Theory to Neural Architecture","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03208","citing_title":"Hierarchical Planning with Latent World Models","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2505.06111","citing_title":"UniVLA: Learning to Act Anywhere with Task-centric Latent Actions","ref_index":96,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24894","citing_title":"VISION-SLS: Safe Perception-Based Control from Learned Visual Representations via System Level Synthesis","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24661","citing_title":"Agent-Centric Observation Adaptation for Robust Visual Control under Dynamic Perturbations","ref_index":80,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18482","citing_title":"Safe Control using Learned Safety Filters and Adaptive Conformal Inference","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11302","citing_title":"3D-Anchored Lookahead Planning for Persistent Robotic Scene Memory via World-Model-Based MCTS","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11737","citing_title":"Learning Long-term Motion Embeddings for Efficient Kinematics Generation","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07278","citing_title":"Predictive but Not Plannable: RC-aux for Latent World Models","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24661","citing_title":"Agent-Centric Observation Adaptation for Robust Visual Control under Dynamic Perturbations","ref_index":80,"is_internal_anchor":true},{"citing_arxiv_id":"2506.09985","citing_title":"V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning","ref_index":59,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/57MOY35RKSWDA3PUOXJE5ICEAW","json":"https://pith.science/pith/57MOY35RKSWDA3PUOXJE5ICEAW.json","graph_json":"https://pith.science/api/pith-number/57MOY35RKSWDA3PUOXJE5ICEAW/graph.json","events_json":"https://pith.science/api/pith-number/57MOY35RKSWDA3PUOXJE5ICEAW/events.json","paper":"https://pith.science/paper/57MOY35R"},"agent_actions":{"view_html":"https://pith.science/pith/57MOY35RKSWDA3PUOXJE5ICEAW","download_json":"https://pith.science/pith/57MOY35RKSWDA3PUOXJE5ICEAW.json","view_paper":"https://pith.science/paper/57MOY35R","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2411.04983&json=true","fetch_graph":"https://pith.science/api/pith-number/57MOY35RKSWDA3PUOXJE5ICEAW/graph.json","fetch_events":"https://pith.science/api/pith-number/57MOY35RKSWDA3PUOXJE5ICEAW/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/57MOY35RKSWDA3PUOXJE5ICEAW/action/timestamp_anchor","attest_storage":"https://pith.science/pith/57MOY35RKSWDA3PUOXJE5ICEAW/action/storage_attestation","attest_author":"https://pith.science/pith/57MOY35RKSWDA3PUOXJE5ICEAW/action/author_attestation","sign_citation":"https://pith.science/pith/57MOY35RKSWDA3PUOXJE5ICEAW/action/citation_signature","submit_replication":"https://pith.science/pith/57MOY35RKSWDA3PUOXJE5ICEAW/action/replication_record"}},"created_at":"2026-05-17T23:38:13.636034+00:00","updated_at":"2026-05-17T23:38:13.636034+00:00"}