{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:TGUESTQNQDO7XREYQJTEADR6PW","short_pith_number":"pith:TGUESTQN","schema_version":"1.0","canonical_sha256":"99a8494e0d80ddfbc4988266400e3e7da65ffb3402ae02d35f2cf6aeb0238abc","source":{"kind":"arxiv","id":"2507.16632","version":3},"attestation_state":"computed","paper":{"title":"Step-Audio 2 Technical Report","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Step-Audio 2 integrates latent audio encoding and discrete token generation to deliver state-of-the-art audio understanding and expressive end-to-end speech conversation.","cross_cats":["cs.SD","eess.AS"],"primary_cat":"cs.CL","authors_text":"Bingxin Li, Bin Wang, Binxing Jiao, Bo Li, Boyong Wu, Brian Li, Buyun Ma, Changhe Song, Changxin Miao, Changyi Wan, Chao Yan, Che Liu, Chengli Feng, Cheng Yi, Chen Hu, Chen Xu, Dapeng Shi, Daxin Jiang, Dingyuan Hu, Donghang Wu, Dongqing Pang, Enle Liu, Fei Tian, Feiyu Shen, Gang Yu, Guanzhe Huang, Gulin Yan, Guoqiang Hu, Haiyang Sun, Hanpeng Hu, Han Zhang, Haonan Jia, Hao Nie, Haoyang Zhang, Heung-Yeung Shum, Hongyu Zhou, Jiangjie Zhen, Jianjian Sun, Jiansheng Chen, Jiaoren Wu, Jie Wu, Jie Yang, Jingbei Li, Jing Li, Jin Yang, Junzhe Lin, Kaixiang Li, Kang An, Lei Yang, Liying Shi, Li Zhou, Longlong Gu, Ming Li, Mingliang Li, Mingrui Chen, Mingxiao Li, Nan Wu, Na Wang, Peng Liu, Qi Han, Qinyuan Tan, Shaoliang Pang, Shengjie Fan, Shuli Gao, Siqi Liu, Siyu Chen, Song Yuan, Tiancheng Cao, Wang You, Wanying Lu, Wei Ji, Wen Li, Wenqing He, Wen Sun, Wuxun Xie, Xiangyu Tony Zhang, Xiangyu Zhang, Xingyuan Li, Xuan Wen, Xuelin Zhang, Xueqi Li, Xuerui Yang, Xu Zhao, Yanbo Yu, Yang Yang, Yayue Deng, Yechang Huang, Yibo Zhu, Yifan Lu, Yilei Wang, Yi Liu, Yimin Jiang, Yong Ren, Yuanhao Ding, Yuankai Ma, Yuanwei Liang, Yuanwei Lu, Yuchu Luo, Yufan Lu, Yuhe Yin, Yumeng Zhan, Yuxiang Yang, Yuxiang Zhang, Yuxin Li, Yuxin Zhang, Yu Zhou, Zhao You, Zidong Yang, Zixin Zhang","submitted_at":"2025-07-22T14:23:55Z","abstract_excerpt":"This paper presents Step-Audio 2, an end-to-end multi-modal large language model designed for industry-strength audio understanding and speech conversation. By integrating a latent audio encoder and reasoning-centric reinforcement learning (RL), Step-Audio 2 achieves promising performance in automatic speech recognition (ASR) and audio understanding. To facilitate genuine end-to-end speech conversation, Step-Audio 2 incorporates the generation of discrete audio tokens into language modeling, significantly enhancing its responsiveness to paralinguistic information such as speaking styles and em"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":false},"canonical_record":{"source":{"id":"2507.16632","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-07-22T14:23:55Z","cross_cats_sorted":["cs.SD","eess.AS"],"title_canon_sha256":"b646849e8a7c531836a0955a51e33d7a166c3109cb62ee09014c8258dc259d25","abstract_canon_sha256":"d058c8b802bb2451222fdb49d5ad5886e9f7b768f3dbf4d6cc331027cd01b905"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:48.906866Z","signature_b64":"OyKn5opcSa/7veOMlgwTDsTnyHccdo+D/9dxgqWi3cByrBVK/ygIN3Pu1zNRXoNjKc9I9jVIHJahtbVXBQRdBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"99a8494e0d80ddfbc4988266400e3e7da65ffb3402ae02d35f2cf6aeb0238abc","last_reissued_at":"2026-05-17T23:38:48.906177Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:48.906177Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Step-Audio 2 Technical Report","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Step-Audio 2 integrates latent audio encoding and discrete token generation to deliver state-of-the-art audio understanding and expressive end-to-end speech conversation.","cross_cats":["cs.SD","eess.AS"],"primary_cat":"cs.CL","authors_text":"Bingxin Li, Bin Wang, Binxing Jiao, Bo Li, Boyong Wu, Brian Li, Buyun Ma, Changhe Song, Changxin Miao, Changyi Wan, Chao Yan, Che Liu, Chengli Feng, Cheng Yi, Chen Hu, Chen Xu, Dapeng Shi, Daxin Jiang, Dingyuan Hu, Donghang Wu, Dongqing Pang, Enle Liu, Fei Tian, Feiyu Shen, Gang Yu, Guanzhe Huang, Gulin Yan, Guoqiang Hu, Haiyang Sun, Hanpeng Hu, Han Zhang, Haonan Jia, Hao Nie, Haoyang Zhang, Heung-Yeung Shum, Hongyu Zhou, Jiangjie Zhen, Jianjian Sun, Jiansheng Chen, Jiaoren Wu, Jie Wu, Jie Yang, Jingbei Li, Jing Li, Jin Yang, Junzhe Lin, Kaixiang Li, Kang An, Lei Yang, Liying Shi, Li Zhou, Longlong Gu, Ming Li, Mingliang Li, Mingrui Chen, Mingxiao Li, Nan Wu, Na Wang, Peng Liu, Qi Han, Qinyuan Tan, Shaoliang Pang, Shengjie Fan, Shuli Gao, Siqi Liu, Siyu Chen, Song Yuan, Tiancheng Cao, Wang You, Wanying Lu, Wei Ji, Wen Li, Wenqing He, Wen Sun, Wuxun Xie, Xiangyu Tony Zhang, Xiangyu Zhang, Xingyuan Li, Xuan Wen, Xuelin Zhang, Xueqi Li, Xuerui Yang, Xu Zhao, Yanbo Yu, Yang Yang, Yayue Deng, Yechang Huang, Yibo Zhu, Yifan Lu, Yilei Wang, Yi Liu, Yimin Jiang, Yong Ren, Yuanhao Ding, Yuankai Ma, Yuanwei Liang, Yuanwei Lu, Yuchu Luo, Yufan Lu, Yuhe Yin, Yumeng Zhan, Yuxiang Yang, Yuxiang Zhang, Yuxin Li, Yuxin Zhang, Yu Zhou, Zhao You, Zidong Yang, Zixin Zhang","submitted_at":"2025-07-22T14:23:55Z","abstract_excerpt":"This paper presents Step-Audio 2, an end-to-end multi-modal large language model designed for industry-strength audio understanding and speech conversation. By integrating a latent audio encoder and reasoning-centric reinforcement learning (RL), Step-Audio 2 achieves promising performance in automatic speech recognition (ASR) and audio understanding. To facilitate genuine end-to-end speech conversation, Step-Audio 2 incorporates the generation of discrete audio tokens into language modeling, significantly enhancing its responsiveness to paralinguistic information such as speaking styles and em"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Step-Audio 2 achieves state-of-the-art performance on various audio understanding and conversational benchmarks compared to other open-source and commercial solutions.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the combination of latent audio encoding, reasoning-centric RL, discrete token generation, and RAG integration produces robust, generalizable performance on real-world conversational tasks beyond the reported benchmarks.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Step-Audio 2 integrates a latent audio encoder, reasoning-centric reinforcement learning, and discrete audio token generation into language modeling to deliver state-of-the-art performance on audio understanding and conversational benchmarks.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Step-Audio 2 integrates latent audio encoding and discrete token generation to deliver state-of-the-art audio understanding and expressive end-to-end speech conversation.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"7936797df1eb8c38ab969b0dd9c45726c8320e0e3805d7682e8f85b621239f53"},"source":{"id":"2507.16632","kind":"arxiv","version":3},"verdict":{"id":"48451f31-1b95-4ab4-9540-42d0a7c8faf5","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T05:55:34.925173Z","strongest_claim":"Step-Audio 2 achieves state-of-the-art performance on various audio understanding and conversational benchmarks compared to other open-source and commercial solutions.","one_line_summary":"Step-Audio 2 integrates a latent audio encoder, reasoning-centric reinforcement learning, and discrete audio token generation into language modeling to deliver state-of-the-art performance on audio understanding and conversational benchmarks.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the combination of latent audio encoding, reasoning-centric RL, discrete token generation, and RAG integration produces robust, generalizable performance on real-world conversational tasks beyond the reported benchmarks.","pith_extraction_headline":"Step-Audio 2 integrates latent audio encoding and discrete token generation to deliver state-of-the-art audio understanding and expressive end-to-end speech conversation."},"references":{"count":84,"sample":[{"doi":"","year":2024,"title":"Seed-TTS: A Family of High-Quality Versatile Speech Generation Models","work_id":"6e88ee95-1133-4302-a142-cdf8f9456a8d","ref_index":1,"cited_arxiv_id":"2406.02430","is_internal_anchor":true},{"doi":"","year":2023,"title":"PaLM 2 Technical Report","work_id":"905ee9a7-ea61-4a94-bd62-2600cbe3e315","ref_index":2,"cited_arxiv_id":"2305.10403","is_internal_anchor":true},{"doi":"","year":2020,"title":"wav2vec 2.0: A framework for self-supervised learning of speech representations","work_id":"453ebac7-2aaa-4384-b2aa-2f73ad059753","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Qwen Technical Report","work_id":"bb1fd52f-6b2f-437c-9516-37bdf6eb9be8","ref_index":4,"cited_arxiv_id":"2309.16609","is_internal_anchor":true},{"doi":"","year":2024,"title":"Seed-asr: Understanding diverse speech and contexts with llm-based speech recognition","work_id":"c5c60033-9068-454d-8df1-52efb011f98b","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":84,"snapshot_sha256":"438837758a1d1de5f02c49a6453185cf913d569d494128e5acd5ea428f171eac","internal_anchors":23},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2507.16632","created_at":"2026-05-17T23:38:48.906287+00:00"},{"alias_kind":"arxiv_version","alias_value":"2507.16632v3","created_at":"2026-05-17T23:38:48.906287+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2507.16632","created_at":"2026-05-17T23:38:48.906287+00:00"},{"alias_kind":"pith_short_12","alias_value":"TGUESTQNQDO7","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"TGUESTQNQDO7XREY","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"TGUESTQN","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":29,"internal_anchor_count":29,"sample":[{"citing_arxiv_id":"2605.23463","citing_title":"StepAudio 2.5 Technical Report","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20266","citing_title":"A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20755","citing_title":"DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21008","citing_title":"A Survey of Audio Reasoning in Multimodal Foundation Models","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16681","citing_title":"A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models","ref_index":64,"is_internal_anchor":true},{"citing_arxiv_id":"2509.22220","citing_title":"StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs","ref_index":76,"is_internal_anchor":true},{"citing_arxiv_id":"2510.09592","citing_title":"Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2512.23578","citing_title":"Style Amnesia: Investigating Speaking Style Degradation and Mitigation in Multi-Turn Spoken Language Models","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2601.09270","citing_title":"MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07064","citing_title":"OmniFysics: Towards Physical Intelligence Evolution via Omni-Modal Signal Processing and Network Optimization","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12034","citing_title":"Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2603.22267","citing_title":"TiCo: Time-Controllable Spoken Dialogue Model","ref_index":69,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03074","citing_title":"Speaker-Reasoner: Scaling Interaction Turns and Reasoning Patterns for Timestamped Speaker-Attributed ASR","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12036","citing_title":"Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12034","citing_title":"Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10199","citing_title":"How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25719","citing_title":"Step-Audio-R1.5 Technical Report","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04613","citing_title":"VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19300","citing_title":"HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18187","citing_title":"Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18105","citing_title":"NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12145","citing_title":"Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11594","citing_title":"HumDial-EIBench: A Human-Recorded Multi-Turn Emotional Intelligence Benchmark for Audio Language Models","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08363","citing_title":"CapTalk: Unified Voice Design for Single-Utterance and Dialogue Speech Generation","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08003","citing_title":"Rethinking Entropy Allocation in LLM-based ASR: Understanding the Dynamics between Speech Encoders and LLMs","ref_index":24,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/TGUESTQNQDO7XREYQJTEADR6PW","json":"https://pith.science/pith/TGUESTQNQDO7XREYQJTEADR6PW.json","graph_json":"https://pith.science/api/pith-number/TGUESTQNQDO7XREYQJTEADR6PW/graph.json","events_json":"https://pith.science/api/pith-number/TGUESTQNQDO7XREYQJTEADR6PW/events.json","paper":"https://pith.science/paper/TGUESTQN"},"agent_actions":{"view_html":"https://pith.science/pith/TGUESTQNQDO7XREYQJTEADR6PW","download_json":"https://pith.science/pith/TGUESTQNQDO7XREYQJTEADR6PW.json","view_paper":"https://pith.science/paper/TGUESTQN","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2507.16632&json=true","fetch_graph":"https://pith.science/api/pith-number/TGUESTQNQDO7XREYQJTEADR6PW/graph.json","fetch_events":"https://pith.science/api/pith-number/TGUESTQNQDO7XREYQJTEADR6PW/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/TGUESTQNQDO7XREYQJTEADR6PW/action/timestamp_anchor","attest_storage":"https://pith.science/pith/TGUESTQNQDO7XREYQJTEADR6PW/action/storage_attestation","attest_author":"https://pith.science/pith/TGUESTQNQDO7XREYQJTEADR6PW/action/author_attestation","sign_citation":"https://pith.science/pith/TGUESTQNQDO7XREYQJTEADR6PW/action/citation_signature","submit_replication":"https://pith.science/pith/TGUESTQNQDO7XREYQJTEADR6PW/action/replication_record"}},"created_at":"2026-05-17T23:38:48.906287+00:00","updated_at":"2026-05-17T23:38:48.906287+00:00"}