{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:5TPEGTL3P25QXO4BWWLALGKWDZ","short_pith_number":"pith:5TPEGTL3","schema_version":"1.0","canonical_sha256":"ecde434d7b7ebb0bbb81b5960599561e645ef1d1381ea6ad07c5fa8fc1b24e0d","source":{"kind":"arxiv","id":"2502.11946","version":2},"attestation_state":"computed","paper":{"title":"Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.HC","cs.SD","eess.AS"],"primary_cat":"cs.CL","authors_text":"Ailin Huang, Bahtiyar Ahmidi, Bingxin Li, Bin Wang, Binxing Jiao, Bo Li, Boyong Wu, Brian Li, Bruce Wang, Buyun Ma, Changxin Miao, Changyi Wan, Chao Yan, Chengli Feng, Chengting Feng, Chen Hu, Chenrun Wang, Chen Xu, Dapeng Shi, Daxin Jiang, Deshan Sun, Dingyuan Hu, Dula Sai, Enle Liu, Fei Tian, Feiyu Shen, Guanzhe Huang, Gulin Yan, Hanpeng Hu, Haonan Jia, Haoyang Zhang, Heng Wang, Heung-Yeung Shum, Hongyuan Wang, Hongyu Zhou, Jiahao Gong, Jiahong Liu, Jianchang Wu, Jiangjie Zhen, Jianjian Sun, Jiansheng Chen, Jiaoren Wu, Jiashuai Liu, Jie Feng, Jie Wu, Jie Yang, Jingbei Li, Jing Li, Jinguo Wang, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Kang An, Lei Xia, Liang Zhao, Li Zhou, Longlong Gu, Mei Chen, Menglin Wu, Ming Li, Mingliang Li, Mingrui Chen, Mingxiao Li, Mingyao Liang, Na Wang, Nie Hao, Peng Liu, Qiling Wu, Qinyuan Tan, Ranchen Ming, Ran Sun, Ruihang Miao, Shanshan Yuan, Shaoliang Pang, Shihong Deng, Shilei Jiang, Shiliang Yang, Shuai Shuai, Shuchang Zhou, Shuli Gao, Siqi Liu, Sitong Liu, Song Yuan, Tiancheng Cao, Tianyu Wang, Wang You, Wei Ji, Weipeng Ming, Wenjin Deng, Wen Li, Wenqing He, Wen Sun, Wuxun Xie, Xiangwen Kong, Xiangyu Zhang, Xiaojia Liu, Xiaomin Deng, Xi Chen, Xin Han, Xinhao Zhang, Xin Huang, Xin Wu, Xuan Wen, Xuelin Zhang, Xuerui Yang, Xu Zhao, Yanan Wei, Yanbo Yu, Yang Cao, Yangguang Li, Yang Zhang, Yangzhen Ma, Yanming Xu, Yaoben Wei, Yaoyu Wang, Yaqiang Shi, Yaqi Dai, Yechang Huang, Yibo Zhu, Yilei Wang, Yinmin Zhong, Yizhuang Zhou, Yuanhao Ding, Yuankai Ma, Yuanwei Liang, Yuanwei Lu, Yuchu Luo, Yuhe Yin, Yu Luo, Yun Mou, Yuting Yan, Yuxiang Yang, Yuxiang Zhang, Yu Zhou, Zheng Ge, Zheng Gong, Zheng Sun, Zhewei Huang, Zhe Xie, Zhichao Chang, Zhisheng Guan, Zidong Yang, Zili Zhang, Zixin Zhang","submitted_at":"2025-02-17T15:58:56Z","abstract_excerpt":"Real-time speech interaction, serving as a fundamental interface for human-machine collaboration, holds immense potential. However, current open-source models face limitations such as high costs in voice data collection, weakness in dynamic control, and limited intelligence. To address these challenges, this paper introduces Step-Audio, the first production-ready open-source solution. Key contributions include: 1) a 130B-parameter unified speech-text multi-modal model that achieves unified understanding and generation, with the Step-Audio-Chat version open-sourced; 2) a generative speech data "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2502.11946","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-02-17T15:58:56Z","cross_cats_sorted":["cs.AI","cs.HC","cs.SD","eess.AS"],"title_canon_sha256":"a6968d62bfa43429fc545f5dd8af950cc44e961c9cd9e76e5d9c948178a30bf0","abstract_canon_sha256":"669c4c6238febfb4223b88f8e6a4f5b77efc9cdf2d7805845a815e0edf2e3147"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T13:33:17.635386Z","signature_b64":"dhjQ7AUASIQ7YKwE6SKXbpzb6PCQZ6GR3V4261AH0nPO8ttP7QlhN2LyuhDM19YWed0LrMdYKVtPS2MOiy/nCA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"ecde434d7b7ebb0bbb81b5960599561e645ef1d1381ea6ad07c5fa8fc1b24e0d","last_reissued_at":"2026-05-18T13:33:17.632999Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T13:33:17.632999Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.HC","cs.SD","eess.AS"],"primary_cat":"cs.CL","authors_text":"Ailin Huang, Bahtiyar Ahmidi, Bingxin Li, Bin Wang, Binxing Jiao, Bo Li, Boyong Wu, Brian Li, Bruce Wang, Buyun Ma, Changxin Miao, Changyi Wan, Chao Yan, Chengli Feng, Chengting Feng, Chen Hu, Chenrun Wang, Chen Xu, Dapeng Shi, Daxin Jiang, Deshan Sun, Dingyuan Hu, Dula Sai, Enle Liu, Fei Tian, Feiyu Shen, Guanzhe Huang, Gulin Yan, Hanpeng Hu, Haonan Jia, Haoyang Zhang, Heng Wang, Heung-Yeung Shum, Hongyuan Wang, Hongyu Zhou, Jiahao Gong, Jiahong Liu, Jianchang Wu, Jiangjie Zhen, Jianjian Sun, Jiansheng Chen, Jiaoren Wu, Jiashuai Liu, Jie Feng, Jie Wu, Jie Yang, Jingbei Li, Jing Li, Jinguo Wang, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Kang An, Lei Xia, Liang Zhao, Li Zhou, Longlong Gu, Mei Chen, Menglin Wu, Ming Li, Mingliang Li, Mingrui Chen, Mingxiao Li, Mingyao Liang, Na Wang, Nie Hao, Peng Liu, Qiling Wu, Qinyuan Tan, Ranchen Ming, Ran Sun, Ruihang Miao, Shanshan Yuan, Shaoliang Pang, Shihong Deng, Shilei Jiang, Shiliang Yang, Shuai Shuai, Shuchang Zhou, Shuli Gao, Siqi Liu, Sitong Liu, Song Yuan, Tiancheng Cao, Tianyu Wang, Wang You, Wei Ji, Weipeng Ming, Wenjin Deng, Wen Li, Wenqing He, Wen Sun, Wuxun Xie, Xiangwen Kong, Xiangyu Zhang, Xiaojia Liu, Xiaomin Deng, Xi Chen, Xin Han, Xinhao Zhang, Xin Huang, Xin Wu, Xuan Wen, Xuelin Zhang, Xuerui Yang, Xu Zhao, Yanan Wei, Yanbo Yu, Yang Cao, Yangguang Li, Yang Zhang, Yangzhen Ma, Yanming Xu, Yaoben Wei, Yaoyu Wang, Yaqiang Shi, Yaqi Dai, Yechang Huang, Yibo Zhu, Yilei Wang, Yinmin Zhong, Yizhuang Zhou, Yuanhao Ding, Yuankai Ma, Yuanwei Liang, Yuanwei Lu, Yuchu Luo, Yuhe Yin, Yu Luo, Yun Mou, Yuting Yan, Yuxiang Yang, Yuxiang Zhang, Yu Zhou, Zheng Ge, Zheng Gong, Zheng Sun, Zhewei Huang, Zhe Xie, Zhichao Chang, Zhisheng Guan, Zidong Yang, Zili Zhang, Zixin Zhang","submitted_at":"2025-02-17T15:58:56Z","abstract_excerpt":"Real-time speech interaction, serving as a fundamental interface for human-machine collaboration, holds immense potential. However, current open-source models face limitations such as high costs in voice data collection, weakness in dynamic control, and limited intelligence. To address these challenges, this paper introduces Step-Audio, the first production-ready open-source solution. Key contributions include: 1) a 130B-parameter unified speech-text multi-modal model that achieves unified understanding and generation, with the Step-Audio-Chat version open-sourced; 2) a generative speech data "},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2502.11946","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2502.11946","created_at":"2026-05-18T13:33:17.633153+00:00"},{"alias_kind":"arxiv_version","alias_value":"2502.11946v2","created_at":"2026-05-18T13:33:17.633153+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2502.11946","created_at":"2026-05-18T13:33:17.633153+00:00"},{"alias_kind":"pith_short_12","alias_value":"5TPEGTL3P25Q","created_at":"2026-05-18T13:33:17.633153+00:00"},{"alias_kind":"pith_short_16","alias_value":"5TPEGTL3P25QXO4B","created_at":"2026-05-18T13:33:17.633153+00:00"},{"alias_kind":"pith_short_8","alias_value":"5TPEGTL3","created_at":"2026-05-18T13:33:17.633153+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":19,"internal_anchor_count":19,"sample":[{"citing_arxiv_id":"2509.22220","citing_title":"StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2510.13293","citing_title":"Mismatch Aware Guidance for Robust Emotion Control in Auto-Regressive TTS Models","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2512.14234","citing_title":"ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2512.23578","citing_title":"Style Amnesia: Investigating Speaking Style Degradation and Mitigation in Multi-Turn Spoken Language Models","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2507.16632","citing_title":"Step-Audio 2 Technical Report","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2602.22710","citing_title":"Same Words, Different Judgments: How Preferences Vary Across Modalities","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12034","citing_title":"Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2507.08128","citing_title":"Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12034","citing_title":"Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03361","citing_title":"ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08962","citing_title":"MegaScale-Omni: A Hyper-Scale, Workload-Resilient System for MultiModal LLM Training in Production","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2504.18425","citing_title":"Kimi-Audio Technical Report","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03937","citing_title":"MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12145","citing_title":"Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11424","citing_title":"Bridging What the Model Thinks and How It Speaks: Self-Aware Speech Language Models for Expressive Speech Generation","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12383","citing_title":"On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2604.20940","citing_title":"Sema: Semantic Transport for Real-Time Multimodal Agents","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04700","citing_title":"Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03361","citing_title":"ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval","ref_index":18,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/5TPEGTL3P25QXO4BWWLALGKWDZ","json":"https://pith.science/pith/5TPEGTL3P25QXO4BWWLALGKWDZ.json","graph_json":"https://pith.science/api/pith-number/5TPEGTL3P25QXO4BWWLALGKWDZ/graph.json","events_json":"https://pith.science/api/pith-number/5TPEGTL3P25QXO4BWWLALGKWDZ/events.json","paper":"https://pith.science/paper/5TPEGTL3"},"agent_actions":{"view_html":"https://pith.science/pith/5TPEGTL3P25QXO4BWWLALGKWDZ","download_json":"https://pith.science/pith/5TPEGTL3P25QXO4BWWLALGKWDZ.json","view_paper":"https://pith.science/paper/5TPEGTL3","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2502.11946&json=true","fetch_graph":"https://pith.science/api/pith-number/5TPEGTL3P25QXO4BWWLALGKWDZ/graph.json","fetch_events":"https://pith.science/api/pith-number/5TPEGTL3P25QXO4BWWLALGKWDZ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/5TPEGTL3P25QXO4BWWLALGKWDZ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/5TPEGTL3P25QXO4BWWLALGKWDZ/action/storage_attestation","attest_author":"https://pith.science/pith/5TPEGTL3P25QXO4BWWLALGKWDZ/action/author_attestation","sign_citation":"https://pith.science/pith/5TPEGTL3P25QXO4BWWLALGKWDZ/action/citation_signature","submit_replication":"https://pith.science/pith/5TPEGTL3P25QXO4BWWLALGKWDZ/action/replication_record"}},"created_at":"2026-05-18T13:33:17.633153+00:00","updated_at":"2026-05-18T13:33:17.633153+00:00"}