{"paper":{"title":"SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"SANA-WM generates minute-scale 720p videos with camera control at 36 times higher throughput than prior open-source models.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Enze Xie, Haoyi Zhu, Haozhe Liu, Jincheng Yu, Junsong Chen, Song Han, Tian Ye, Tong He, Yuyang Zhao","submitted_at":"2026-05-14T17:58:03Z","abstract_excerpt":"We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF traject"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency... On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36× higher throughput for scalable world modeling.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The robust annotation pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels that enable effective training of the world model.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"SANA-WM is a 2.6B-parameter efficient world model that synthesizes minute-scale 720p videos with 6-DoF camera control, trained on 213K public clips in 15 days on 64 H100s and runnable on single GPUs at 36x higher throughput than prior open baselines.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"SANA-WM generates minute-scale 720p videos with camera control at 36 times higher throughput than prior open-source models.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"55dd0e6b4c1d1b95062655e9933b87c866f4fab94d32b2de282676097a8c805f"},"source":{"id":"2605.15178","kind":"arxiv","version":1},"verdict":{"id":"f6f23a26-71f1-4e50-9451-a62bfc91b10d","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T13:52:18.797742Z","strongest_claim":"SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency... On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at 36× higher throughput for scalable world modeling.","one_line_summary":"SANA-WM is a 2.6B-parameter efficient world model that synthesizes minute-scale 720p videos with 6-DoF camera control, trained on 213K public clips in 15 days on 64 H100s and runnable on single GPUs at 36x higher throughput than prior open baselines.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The robust annotation pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels that enable effective training of the world model.","pith_extraction_headline":"SANA-WM generates minute-scale 720p videos with camera control at 36 times higher throughput than prior open-source models."},"references":{"count":102,"sample":[{"doi":"","year":2018,"title":"World Models","work_id":"07227eee-8445-4c98-bce4-c6a6fd5ed907","ref_index":1,"cited_arxiv_id":"1803.10122","is_internal_anchor":true},{"doi":"","year":2025,"title":"Genie 3: A new frontier for world models","work_id":"94eb34fb-202e-47c8-bd7e-5e1c88ff88ae","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"GAIA-1: A Generative World Model for Autonomous Driving","work_id":"313484e6-a442-4522-8e19-d07e502844a8","ref_index":3,"cited_arxiv_id":"2309.17080","is_internal_anchor":true},{"doi":"","year":2026,"title":"DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos","work_id":"95f2f415-c659-4084-a008-39303bea8638","ref_index":4,"cited_arxiv_id":"2602.06949","is_internal_anchor":true},{"doi":"","year":2025,"title":"Aether: Geometric-aware unified world modeling","work_id":"3aecc6ce-b828-4cf4-8553-7b25b9e2051c","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":102,"snapshot_sha256":"c904497025477ff38bfb7bb1e27b222f9c4bf279206dc36796e2646b766a77b4","internal_anchors":46},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"}