Unimoe-audio: Unified speech and music generation with dynamic-capacity moe.arXiv preprint arXiv:2510.13344, 2025d

Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen, Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, et al · 2025 · arXiv 2510.13344

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

AudioCALM: Continuous Autoregressive Language Modeling for Universal Audio Generation

eess.AS · 2026-06-22 · unverdicted · novelty 7.0

AudioCALM presents a continuous autoregressive framework with flow-matching prediction and A-MoME architecture that unifies speech, sound, and music generation while matching modality-specific state-of-the-art performance.

AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

cs.SD · 2026-06-10 · unverdicted · novelty 5.0

AudioX-Turbo distills a Multimodal Diffusion Transformer into a 4-step student model for efficient multimodal anything-to-audio generation, trained on a new 9.2M-sample dataset IF-caps-Pro.

citing papers explorer

Showing 2 of 2 citing papers.

AudioCALM: Continuous Autoregressive Language Modeling for Universal Audio Generation eess.AS · 2026-06-22 · unverdicted · none · ref 22
AudioCALM presents a continuous autoregressive framework with flow-matching prediction and A-MoME architecture that unifies speech, sound, and music generation while matching modality-specific state-of-the-art performance.
AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation cs.SD · 2026-06-10 · unverdicted · none · ref 46
AudioX-Turbo distills a Multimodal Diffusion Transformer into a 4-step student model for efficient multimodal anything-to-audio generation, trained on a new 9.2M-sample dataset IF-caps-Pro.

Unimoe-audio: Unified speech and music generation with dynamic-capacity moe.arXiv preprint arXiv:2510.13344, 2025d

fields

years

verdicts

representative citing papers

citing papers explorer