{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:7EGEGHRSBAIKP6HGYF7BFT5M52","short_pith_number":"pith:7EGEGHRS","schema_version":"1.0","canonical_sha256":"f90c431e320810a7f8e6c17e12cfacee8c158c886e033b449cfdd1fdc59e81b9","source":{"kind":"arxiv","id":"2502.10248","version":3},"attestation_state":"computed","paper":{"title":"Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.CV","authors_text":"Aojie Li, Bin Wang, Binxing Jiao, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Changyi Wan, Chenfei Wu, Chenguang Yu, Chen Xu, Dapeng Shi, Daxin Jiang, Deshan Sun, Deyu Zhou, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang, Guanzhe Huang, Gulin Yan, Guoqing Ma, Haiyang Feng, Hanpeng Hu, Hanqi Chen, Haolong Yan, Haonan Jia, Hao Nie, Haoyang Huang, Heng Wang, Heung-Yeung Shum, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiansheng Chen, Jian Zhou, Jiaoren Wu, Jiashuai Liu, Jiashuo Li, Jie Wu, Jie Yang, Jing Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaijun Tan, Kaixiang Li, Kang An, Kun Yan, Lei Liu, Lei Xia, Liangyu Chen, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Mei Chen, Ming Li, Mingliang Li, Muhua Cheng, Nan Duan, Na Wang, Qiaohui Chen, Qiling Wu, Qinglin He, Qiuyan Liang, Quan Sun, Ranchen Ming, Ran Sun, Rui Wang, Shaoliang Pang, Shengming Yin, Shiliang Yang, Shuchang Zhou, Shuli Gao, Siqi Liu, Sitong Liu, Tiancheng Cao, Tianyu Wang, Wei Ji, Weipeng Ming, Wenqing He, Wen Sun, Xianfang Zeng, Xiangyu Zhang, Xiaojia Liu, Xiaoniu Song, Xing Chen, Xin Han, Xinhao Zhang, Xuan Yang, Xuelin Zhang, Xu Zhao, Yanan Wei, Yanbo Yu, Yang Li, Yaqi Dai, Yibo Zhu, Yilei Wang, Yineng Deng, Yingming Wang, Yuanwei Lu, Yu Chen, Yuchu Luo, Yuheng Feng, Yuhe Yin, Yu Luo, Yuxiang Yang, Yu Zhou, Zecheng Tang, Zekai Zhang, Zheng Ge, Zidong Yang","submitted_at":"2025-02-14T15:58:10Z","abstract_excerpt":"We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-ba"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2502.10248","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2025-02-14T15:58:10Z","cross_cats_sorted":["cs.CL"],"title_canon_sha256":"786829ee2de585cb5a0eb167c63461a497211a4e806c0a053b5879a9ef572e10","abstract_canon_sha256":"2faed8f8b4aa6a49a487a3db0a0585c844bf5f332443d60a3ab3cc452a72dbfd"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-19T07:56:31.507932Z","signature_b64":"QcLPWA2rwVNky2kan5K+YnNYYkiT+fqFD58kpbtRd6QnMB0Cm0TZrmjO09vfBl6yrWHohmh/7N31ZnATNXsKBQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"f90c431e320810a7f8e6c17e12cfacee8c158c886e033b449cfdd1fdc59e81b9","last_reissued_at":"2026-05-19T07:56:31.504889Z","signature_status":"signed_v1","first_computed_at":"2026-05-19T07:56:31.504889Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.CV","authors_text":"Aojie Li, Bin Wang, Binxing Jiao, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Changyi Wan, Chenfei Wu, Chenguang Yu, Chen Xu, Dapeng Shi, Daxin Jiang, Deshan Sun, Deyu Zhou, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang, Guanzhe Huang, Gulin Yan, Guoqing Ma, Haiyang Feng, Hanpeng Hu, Hanqi Chen, Haolong Yan, Haonan Jia, Hao Nie, Haoyang Huang, Heng Wang, Heung-Yeung Shum, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiansheng Chen, Jian Zhou, Jiaoren Wu, Jiashuai Liu, Jiashuo Li, Jie Wu, Jie Yang, Jing Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaijun Tan, Kaixiang Li, Kang An, Kun Yan, Lei Liu, Lei Xia, Liangyu Chen, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Mei Chen, Ming Li, Mingliang Li, Muhua Cheng, Nan Duan, Na Wang, Qiaohui Chen, Qiling Wu, Qinglin He, Qiuyan Liang, Quan Sun, Ranchen Ming, Ran Sun, Rui Wang, Shaoliang Pang, Shengming Yin, Shiliang Yang, Shuchang Zhou, Shuli Gao, Siqi Liu, Sitong Liu, Tiancheng Cao, Tianyu Wang, Wei Ji, Weipeng Ming, Wenqing He, Wen Sun, Xianfang Zeng, Xiangyu Zhang, Xiaojia Liu, Xiaoniu Song, Xing Chen, Xin Han, Xinhao Zhang, Xuan Yang, Xuelin Zhang, Xu Zhao, Yanan Wei, Yanbo Yu, Yang Li, Yaqi Dai, Yibo Zhu, Yilei Wang, Yineng Deng, Yingming Wang, Yuanwei Lu, Yu Chen, Yuchu Luo, Yuheng Feng, Yuhe Yin, Yu Luo, Yuxiang Yang, Yu Zhou, Zecheng Tang, Zekai Zhang, Zheng Ge, Zidong Yang","submitted_at":"2025-02-14T15:58:10Z","abstract_excerpt":"We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-ba"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2502.10248","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2502.10248/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2502.10248","created_at":"2026-05-19T07:56:31.505026+00:00"},{"alias_kind":"arxiv_version","alias_value":"2502.10248v3","created_at":"2026-05-19T07:56:31.505026+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2502.10248","created_at":"2026-05-19T07:56:31.505026+00:00"},{"alias_kind":"pith_short_12","alias_value":"7EGEGHRSBAIK","created_at":"2026-05-19T07:56:31.505026+00:00"},{"alias_kind":"pith_short_16","alias_value":"7EGEGHRSBAIKP6HG","created_at":"2026-05-19T07:56:31.505026+00:00"},{"alias_kind":"pith_short_8","alias_value":"7EGEGHRS","created_at":"2026-05-19T07:56:31.505026+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":28,"internal_anchor_count":28,"sample":[{"citing_arxiv_id":"2605.11596","citing_title":"HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2503.20314","citing_title":"Wan: Open and Advanced Large-Scale Video Generative Models","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22344","citing_title":"Bernini: Latent Semantic Planning for Video Diffusion","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21798","citing_title":"CG-MLLM: Captioning and Generating 3D content via Multi-modal Large Language Models","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27505","citing_title":"Leveraging Verifier-Based Reinforcement Learning in Image Editing","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18678","citing_title":"Lance: Unified Multimodal Modeling by Multi-Task Synergy","ref_index":80,"is_internal_anchor":true},{"citing_arxiv_id":"2604.16503","citing_title":"Motif-Video 2B: Technical Report","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16649","citing_title":"AtlasVid: Efficient Ultra-High-Resolution Long Video Generation via Decoupled Global-Local Modeling","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18678","citing_title":"Lance: Unified Multimodal Modeling by Multi-Task Synergy","ref_index":79,"is_internal_anchor":true},{"citing_arxiv_id":"2506.22832","citing_title":"Listener-Rewarded Thinking in VLMs for Image Preferences","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2506.19840","citing_title":"GenHSI: Controllable Generation of Human-Scene Interaction Videos","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2509.24702","citing_title":"Enhancing Physical Plausibility in Video Generation by Reasoning the Implausibility","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2512.13281","citing_title":"VideoASMR-Bench: Can AI-Generated ASMR Videos Fool VLMs and Humans?","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2602.04939","citing_title":"SynthForensics: Benchmarking and Evaluating People-Centric Synthetic Video Deepfakes","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2602.13669","citing_title":"EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14513","citing_title":"HASTE: Training-Free Video Diffusion Acceleration via Head-Wise Adaptive Sparse Attention","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2511.18870","citing_title":"HunyuanVideo 1.5 Technical Report","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13565","citing_title":"Qwen-Image-VAE-2.0 Technical Report","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2503.21755","citing_title":"VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness","ref_index":62,"is_internal_anchor":true},{"citing_arxiv_id":"2505.13211","citing_title":"MAGI-1: Autoregressive Video Generation at Scale","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11596","citing_title":"HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27505","citing_title":"Leveraging Verifier-Based Reinforcement Learning in Image Editing","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10730","citing_title":"Qwen-Image-2.0 Technical Report","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09433","citing_title":"Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2604.16503","citing_title":"Motif-Video 2B: Technical Report","ref_index":24,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/7EGEGHRSBAIKP6HGYF7BFT5M52","json":"https://pith.science/pith/7EGEGHRSBAIKP6HGYF7BFT5M52.json","graph_json":"https://pith.science/api/pith-number/7EGEGHRSBAIKP6HGYF7BFT5M52/graph.json","events_json":"https://pith.science/api/pith-number/7EGEGHRSBAIKP6HGYF7BFT5M52/events.json","paper":"https://pith.science/paper/7EGEGHRS"},"agent_actions":{"view_html":"https://pith.science/pith/7EGEGHRSBAIKP6HGYF7BFT5M52","download_json":"https://pith.science/pith/7EGEGHRSBAIKP6HGYF7BFT5M52.json","view_paper":"https://pith.science/paper/7EGEGHRS","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2502.10248&json=true","fetch_graph":"https://pith.science/api/pith-number/7EGEGHRSBAIKP6HGYF7BFT5M52/graph.json","fetch_events":"https://pith.science/api/pith-number/7EGEGHRSBAIKP6HGYF7BFT5M52/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/7EGEGHRSBAIKP6HGYF7BFT5M52/action/timestamp_anchor","attest_storage":"https://pith.science/pith/7EGEGHRSBAIKP6HGYF7BFT5M52/action/storage_attestation","attest_author":"https://pith.science/pith/7EGEGHRSBAIKP6HGYF7BFT5M52/action/author_attestation","sign_citation":"https://pith.science/pith/7EGEGHRSBAIKP6HGYF7BFT5M52/action/citation_signature","submit_replication":"https://pith.science/pith/7EGEGHRSBAIKP6HGYF7BFT5M52/action/replication_record"}},"created_at":"2026-05-19T07:56:31.505026+00:00","updated_at":"2026-05-19T07:56:31.505026+00:00"}