{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:DUNYXM5BA4XJRJQEDWYLO2E7N7","short_pith_number":"pith:DUNYXM5B","schema_version":"1.0","canonical_sha256":"1d1b8bb3a1072e98a6041db0b7689f6ff1667d284b163bd00c2aa568ba216026","source":{"kind":"arxiv","id":"2512.04678","version":2},"attestation_state":"computed","paper":{"title":"Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"EMA-updated sink tokens and reward-weighted distillation fix copied frames and weak motion in streaming video models.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Haobo Li, Hao Ouyang, Hengyuan Cao, Jiapeng Zhu, Ka Leong Cheng, Min Zhang, Qiuyu Wang, Xing Zhu, Yanhong Zeng, Yujun Shen, Yunhong Lu, Zhipeng Zhang","submitted_at":"2025-12-04T11:12:13Z","abstract_excerpt":"Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frame"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2512.04678","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2025-12-04T11:12:13Z","cross_cats_sorted":[],"title_canon_sha256":"e7ca40a652a7ac5d695737b9deeff6537d1687485008487091d80ac55bf5c989","abstract_canon_sha256":"ec260685864428546f9219f556523d3969b00abb28dd89bf229c586abfeab891"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:47.001748Z","signature_b64":"Jc24fL7sZs0RG4J2NoIU6yTQ59fe7yhtYoLpP1HN0yNMqfGvVpzkPT5yHOprKXe4gRRwgbD2/4xjVTqfzXXTBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"1d1b8bb3a1072e98a6041db0b7689f6ff1667d284b163bd00c2aa568ba216026","last_reissued_at":"2026-05-17T23:38:47.001172Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:47.001172Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"EMA-updated sink tokens and reward-weighted distillation fix copied frames and weak motion in streaming video models.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Haobo Li, Hao Ouyang, Hengyuan Cao, Jiapeng Zhu, Ka Leong Cheng, Min Zhang, Qiuyu Wang, Xing Zhu, Yanhong Zeng, Yujun Shen, Yunhong Lu, Zhipeng Zhang","submitted_at":"2025-12-04T11:12:13Z","abstract_excerpt":"Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frame"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The vision-language model used to rate motion dynamics provides an accurate and unbiased signal that genuinely improves the distilled model's motion quality without introducing new artifacts or distribution shifts.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Reward Forcing combines EMA-Sink tokens and Rewarded Distribution Matching Distillation to deliver state-of-the-art streaming video generation at 23.1 FPS without copying initial frames.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"EMA-updated sink tokens and reward-weighted distillation fix copied frames and weak motion in streaming video models.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"eb7e58862ca94c53c792d694714e0c207d0eae4f4054ad71aea4b5c949807624"},"source":{"id":"2512.04678","kind":"arxiv","version":2},"verdict":{"id":"98362fe4-d383-4e49-8cee-bc56ddd5c37b","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T18:12:24.693015Z","strongest_claim":"Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.","one_line_summary":"Reward Forcing combines EMA-Sink tokens and Rewarded Distribution Matching Distillation to deliver state-of-the-art streaming video generation at 23.1 FPS without copying initial frames.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The vision-language model used to rate motion dynamics provides an accurate and unbiased signal that genuinely improves the distilled model's motion quality without introducing new artifacts or distribution shifts.","pith_extraction_headline":"EMA-updated sink tokens and reward-weighted distillation fix copied frames and weak motion in streaming video models."},"references":{"count":99,"sample":[{"doi":"","year":2025,"title":"Qwen2.5-VL Technical Report","work_id":"69dffacb-bfe8-442d-be86-48624c60426f","ref_index":1,"cited_arxiv_id":"2502.13923","is_internal_anchor":true},{"doi":"","year":2025,"title":"Philip J. Ball, Jakob Bauer, Frank Belletti, Bethanie Brown- field, Ariel Ephrat, Shlomi Fruchter, Agrim Gupta, Kris- tian Holsheimer, Aleksander Holynski, Jiri Hron, Christos Kaplanis, Marjorie Limon","work_id":"6283c28b-9a42-43bf-b29d-45a63104f030","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets","work_id":"4f68eada-27e3-437a-a2fe-6e4ca524d0d3","ref_index":3,"cited_arxiv_id":"2311.15127","is_internal_anchor":true},{"doi":"","year":null,"title":"Video generation models as world simulators","work_id":"775c18a1-70c0-4557-8352-9608c63bdd24","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Dimension-reduction attack! video generative models are experts on controllable image synthesis.arXiv preprint arXiv:2505.23325, 2025a","work_id":"5ef97af7-d902-425c-b24b-7d796c87372c","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":99,"snapshot_sha256":"cdddf6d57b186e7fb851e2d8d941173800e8d20858c4671e17be4f0ff0698345","internal_anchors":33},"formal_canon":{"evidence_count":3,"snapshot_sha256":"d0084abd67152f2afd7971a315008621fb58aa3a673c22319fde42d1fe2122cc"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2512.04678","created_at":"2026-05-17T23:38:47.001273+00:00"},{"alias_kind":"arxiv_version","alias_value":"2512.04678v2","created_at":"2026-05-17T23:38:47.001273+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2512.04678","created_at":"2026-05-17T23:38:47.001273+00:00"},{"alias_kind":"pith_short_12","alias_value":"DUNYXM5BA4XJ","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"DUNYXM5BA4XJRJQE","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"DUNYXM5B","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":23,"internal_anchor_count":23,"sample":[{"citing_arxiv_id":"2605.23458","citing_title":"One-Forcing: Towards Stable One-Step Autoregressive Video Generation","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20476","citing_title":"Goodbye Drift: Anchored Tree Sampling for Long-Horizon Video-to-Video Generation","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15824","citing_title":"FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16003","citing_title":"Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18733","citing_title":"Advancing Narrative Long Video Generation via Training-Free Identity-Aware Memory","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18233","citing_title":"Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2601.20540","citing_title":"Advancing Open-source World Models","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07775","citing_title":"Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2602.13669","citing_title":"EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation","ref_index":95,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14269","citing_title":"PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14278","citing_title":"KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14487","citing_title":"Head Forcing: Long Autoregressive Video Generation via Head Heterogeneity","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2603.28489","citing_title":"Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms","ref_index":74,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03118","citing_title":"Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03849","citing_title":"Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03877","citing_title":"DMGD: Train-Free Dataset Distillation with Semantic-Distribution Matching in Diffusion Models","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23632","citing_title":"Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2604.10103","citing_title":"Long-Horizon Streaming Video Generation via Hybrid Attention with Decoupled Distillation","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2604.10098","citing_title":"Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation","ref_index":128,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06939","citing_title":"Grounded Forcing: Bridging Time-Independent Semantics and Proximal Dynamics in Autoregressive Video Synthesis","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2604.15911","citing_title":"Efficient Video Diffusion Models: Advancements and Challenges","ref_index":96,"is_internal_anchor":true},{"citing_arxiv_id":"2604.16592","citing_title":"Human Cognition in Machines: A Unified Perspective of World Models","ref_index":115,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04461","citing_title":"Stream-T1: Test-Time Scaling for Streaming Video Generation","ref_index":25,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":3,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/DUNYXM5BA4XJRJQEDWYLO2E7N7","json":"https://pith.science/pith/DUNYXM5BA4XJRJQEDWYLO2E7N7.json","graph_json":"https://pith.science/api/pith-number/DUNYXM5BA4XJRJQEDWYLO2E7N7/graph.json","events_json":"https://pith.science/api/pith-number/DUNYXM5BA4XJRJQEDWYLO2E7N7/events.json","paper":"https://pith.science/paper/DUNYXM5B"},"agent_actions":{"view_html":"https://pith.science/pith/DUNYXM5BA4XJRJQEDWYLO2E7N7","download_json":"https://pith.science/pith/DUNYXM5BA4XJRJQEDWYLO2E7N7.json","view_paper":"https://pith.science/paper/DUNYXM5B","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2512.04678&json=true","fetch_graph":"https://pith.science/api/pith-number/DUNYXM5BA4XJRJQEDWYLO2E7N7/graph.json","fetch_events":"https://pith.science/api/pith-number/DUNYXM5BA4XJRJQEDWYLO2E7N7/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/DUNYXM5BA4XJRJQEDWYLO2E7N7/action/timestamp_anchor","attest_storage":"https://pith.science/pith/DUNYXM5BA4XJRJQEDWYLO2E7N7/action/storage_attestation","attest_author":"https://pith.science/pith/DUNYXM5BA4XJRJQEDWYLO2E7N7/action/author_attestation","sign_citation":"https://pith.science/pith/DUNYXM5BA4XJRJQEDWYLO2E7N7/action/citation_signature","submit_replication":"https://pith.science/pith/DUNYXM5BA4XJRJQEDWYLO2E7N7/action/replication_record"}},"created_at":"2026-05-17T23:38:47.001273+00:00","updated_at":"2026-05-17T23:38:47.001273+00:00"}