InPro- ceedings of the Computer Vision and Pattern Recog- nition Conference, pages 28901–28911

Mmaudio: Taming multimodal joint training for high-quality video-to-audio synthesis · 2023

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

eess.AS · 2026-04-24 · unverdicted · novelty 6.0

UniSonate unifies text-to-speech, text-to-music, and text-to-audio in a flow-matching framework with dynamic token injection and curriculum learning, reporting SOTA TTS and TTM results plus positive cross-task transfer.

citing papers explorer

Showing 1 of 1 citing paper.

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions eess.AS · 2026-04-24 · unverdicted · none · ref 2
UniSonate unifies text-to-speech, text-to-music, and text-to-audio in a flow-matching framework with dynamic token injection and curriculum learning, reporting SOTA TTS and TTM results plus positive cross-task transfer.

InPro- ceedings of the Computer Vision and Pattern Recog- nition Conference, pages 28901–28911

fields

years

verdicts

representative citing papers

citing papers explorer