A survey on music generation from single-modal, cross-modal, and multi-modal perspectives,

· 2025 · arXiv 2504.00837

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

LaDA-Band: Language Diffusion Models for Vocal-to-Accompaniment Generation

cs.SD · 2026-04-13 · unverdicted · novelty 6.0

LaDA-Band applies discrete masked diffusion with dual-track conditioning and progressive training to generate vocal-to-accompaniment tracks that improve acoustic authenticity, global coherence, and dynamic orchestration over prior baselines.

Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach

cs.SD · 2025-09-26 · unverdicted · novelty 6.0

A zero-training VLM framework generates music from images via ABC notation, multi-modal RAG, and self-refinement while providing text and visual explanations for the outputs.

citing papers explorer

Showing 2 of 2 citing papers.

LaDA-Band: Language Diffusion Models for Vocal-to-Accompaniment Generation cs.SD · 2026-04-13 · unverdicted · none · ref 29
LaDA-Band applies discrete masked diffusion with dual-track conditioning and progressive training to generate vocal-to-accompaniment tracks that improve acoustic authenticity, global coherence, and dynamic orchestration over prior baselines.
Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach cs.SD · 2025-09-26 · unverdicted · none · ref 32
A zero-training VLM framework generates music from images via ABC notation, multi-modal RAG, and self-refinement while providing text and visual explanations for the outputs.

A survey on music generation from single-modal, cross-modal, and multi-modal perspectives,

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer