{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:LJJFWT474TT3TFHKS5YCQNSXOX","short_pith_number":"pith:LJJFWT47","schema_version":"1.0","canonical_sha256":"5a525b4f9fe4e7b994ea977028365775f96458ee822d0503435ba3c6bcfd0005","source":{"kind":"arxiv","id":"2510.02283","version":1},"attestation_state":"computed","paper":{"title":"Self-Forcing++: Towards Minute-Scale High-Quality Video Generation","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"Self-generated segments from a video model steer it to produce coherent four-minute clips without long-video teachers or retraining.","cross_cats":["cs.AI"],"primary_cat":"cs.CV","authors_text":"Andrew Bai, Cho-Jui Hsieh, Jie Wu, Justin Cui, Ming Li, Rui Wang, Tao Yang, Xiaojie Li, Yuanhao Ban","submitted_at":"2025-10-02T17:55:42Z","abstract_excerpt":"Diffusion models have revolutionized image and video generation, achieving unprecedented visual quality. However, their reliance on transformer architectures incurs prohibitively high computational costs, particularly when extending generation to long videos. Recent work has explored autoregressive formulations for long video generation, typically by distilling from short-horizon bidirectional teachers. Nevertheless, given that teacher models cannot synthesize long videos, the extrapolation of student models beyond their training horizon often leads to pronounced quality degradation, arising f"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":false},"canonical_record":{"source":{"id":"2510.02283","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.CV","submitted_at":"2025-10-02T17:55:42Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"a0b6f0aa34f4263b2dac7cc1fe967c50048cdbe39ec9d2d0743700e505f43d47","abstract_canon_sha256":"17ea339a40f1eab15b7d0eb4d0daa64de4838ce80bff720fb091434a659311e7"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:49.904351Z","signature_b64":"N+L7YIsOlSCaDqNTU70lU2TnRxi+dwqvTuncyim3rCdiJZnphUUGB0xEupNV4E5xZqDOeXCH9m5f3gEvPVENBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"5a525b4f9fe4e7b994ea977028365775f96458ee822d0503435ba3c6bcfd0005","last_reissued_at":"2026-05-17T23:38:49.903873Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:49.903873Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Self-Forcing++: Towards Minute-Scale High-Quality Video Generation","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"Self-generated segments from a video model steer it to produce coherent four-minute clips without long-video teachers or retraining.","cross_cats":["cs.AI"],"primary_cat":"cs.CV","authors_text":"Andrew Bai, Cho-Jui Hsieh, Jie Wu, Justin Cui, Ming Li, Rui Wang, Tao Yang, Xiaojie Li, Yuanhao Ban","submitted_at":"2025-10-02T17:55:42Z","abstract_excerpt":"Diffusion models have revolutionized image and video generation, achieving unprecedented visual quality. However, their reliance on transformer architectures incurs prohibitively high computational costs, particularly when extending generation to long videos. Recent work has explored autoregressive formulations for long video generation, typically by distilling from short-horizon bidirectional teachers. Nevertheless, given that teacher models cannot synthesize long videos, the extrapolation of student models beyond their training horizon often leads to pronounced quality degradation, arising f"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"our method shows the capability of generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the maximum span supported by our base model's position embedding and more than 50x longer than that of our baseline model","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That segments sampled from the model's own long self-generated videos supply reliable, non-degrading guidance equivalent to teacher supervision without introducing new compounding errors in the latent space.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Self-Forcing++ scales autoregressive video diffusion to over 4 minutes by using self-generated segments for guidance, reducing error accumulation and outperforming baselines in fidelity and consistency.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Self-generated segments from a video model steer it to produce coherent four-minute clips without long-video teachers or retraining.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"d9ac5ef6d5fef45a7e6ee6ba5daa0c3c00ed3ff4baac0bd156317f7b1e7cba82"},"source":{"id":"2510.02283","kind":"arxiv","version":1},"verdict":{"id":"cea5dc07-0b47-4428-9a12-f3ef0fd9b0e8","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T22:36:28.846851Z","strongest_claim":"our method shows the capability of generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the maximum span supported by our base model's position embedding and more than 50x longer than that of our baseline model","one_line_summary":"Self-Forcing++ scales autoregressive video diffusion to over 4 minutes by using self-generated segments for guidance, reducing error accumulation and outperforming baselines in fidelity and consistency.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That segments sampled from the model's own long self-generated videos supply reliable, non-degrading guidance equivalent to teacher supervision without introducing new compounding errors in the latent space.","pith_extraction_headline":"Self-generated segments from a video model steer it to produce coherent four-minute clips without long-video teachers or retraining."},"references":{"count":72,"sample":[{"doi":"","year":2024,"title":"Diffusion for world modeling: Visual details matter in atari.Advancesin Neural Information Processing Systems, 37:58757–58791, 2024","work_id":"a36c75da-338f-4d9d-8e10-975975cff124","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets","work_id":"4f68eada-27e3-437a-a2fe-6e4ca524d0d3","ref_index":2,"cited_arxiv_id":"2311.15127","is_internal_anchor":true},{"doi":"","year":2024,"title":"Genie: Generative interactive environments","work_id":"6c633c28-756b-4f8a-b31e-d5ac37197f04","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Videojam: Joint appearance-motion representations for en- hanced motion generation in video models","work_id":"d22ef704-e6df-4caf-a9b3-f220ad768f8b","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Diffusion forcing: Next-token prediction meets full-sequence diffusion.Advancesin Neural Information Processing Systems, 37:24081–24125, 2024","work_id":"9d20d335-5d78-4362-b7ce-11f7495019af","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":72,"snapshot_sha256":"9ad9ca0662156e44d7f1bb4d45e592642936163101b102f2c85bde14aa61bd85","internal_anchors":28},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2510.02283","created_at":"2026-05-17T23:38:49.903947+00:00"},{"alias_kind":"arxiv_version","alias_value":"2510.02283v1","created_at":"2026-05-17T23:38:49.903947+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2510.02283","created_at":"2026-05-17T23:38:49.903947+00:00"},{"alias_kind":"pith_short_12","alias_value":"LJJFWT474TT3","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"LJJFWT474TT3TFHK","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"LJJFWT47","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":36,"internal_anchor_count":36,"sample":[{"citing_arxiv_id":"2605.11596","citing_title":"HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2602.02214","citing_title":"Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22144","citing_title":"One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2602.02214","citing_title":"Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2602.23058","citing_title":"GeoWorld: Geometric World Models","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14382","citing_title":"Delta Forcing: Trust Region Steering for Interactive Autoregressive Video Generation","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21028","citing_title":"DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20910","citing_title":"FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21466","citing_title":"StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14382","citing_title":"Delta Forcing: Trust Region Steering for Interactive Autoregressive Video Generation","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16003","citing_title":"Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18739","citing_title":"LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19242","citing_title":"PhyWorld: Physics-Faithful World Model for Video Generation","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2512.04677","citing_title":"Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2512.04678","citing_title":"Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2602.06949","citing_title":"DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07775","citing_title":"Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2602.13669","citing_title":"EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation","ref_index":97,"is_internal_anchor":true},{"citing_arxiv_id":"2512.14614","citing_title":"WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14487","citing_title":"Head Forcing: Long Autoregressive Video Generation via Head Heterogeneity","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14382","citing_title":"Delta Forcing: Trust Region Steering for Interactive Autoregressive Video Generation","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12496","citing_title":"CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11596","citing_title":"HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25819","citing_title":"Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03849","citing_title":"Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation","ref_index":5,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/LJJFWT474TT3TFHKS5YCQNSXOX","json":"https://pith.science/pith/LJJFWT474TT3TFHKS5YCQNSXOX.json","graph_json":"https://pith.science/api/pith-number/LJJFWT474TT3TFHKS5YCQNSXOX/graph.json","events_json":"https://pith.science/api/pith-number/LJJFWT474TT3TFHKS5YCQNSXOX/events.json","paper":"https://pith.science/paper/LJJFWT47"},"agent_actions":{"view_html":"https://pith.science/pith/LJJFWT474TT3TFHKS5YCQNSXOX","download_json":"https://pith.science/pith/LJJFWT474TT3TFHKS5YCQNSXOX.json","view_paper":"https://pith.science/paper/LJJFWT47","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2510.02283&json=true","fetch_graph":"https://pith.science/api/pith-number/LJJFWT474TT3TFHKS5YCQNSXOX/graph.json","fetch_events":"https://pith.science/api/pith-number/LJJFWT474TT3TFHKS5YCQNSXOX/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/LJJFWT474TT3TFHKS5YCQNSXOX/action/timestamp_anchor","attest_storage":"https://pith.science/pith/LJJFWT474TT3TFHKS5YCQNSXOX/action/storage_attestation","attest_author":"https://pith.science/pith/LJJFWT474TT3TFHKS5YCQNSXOX/action/author_attestation","sign_citation":"https://pith.science/pith/LJJFWT474TT3TFHKS5YCQNSXOX/action/citation_signature","submit_replication":"https://pith.science/pith/LJJFWT474TT3TFHKS5YCQNSXOX/action/replication_record"}},"created_at":"2026-05-17T23:38:49.903947+00:00","updated_at":"2026-05-17T23:38:49.903947+00:00"}