arXiv preprint arXiv:2303.13336 , year=

A survey on audio diffusion models: Text to speech synthesis · 2023 · arXiv 2303.13336

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

read on arXiv browse 5 citing papers

citation-role summary

method 1

citation-polarity summary

use method 1

representative citing papers

Transformers Learn the Optimal DDPM Denoiser for Multi-Token GMMs

cs.LG · 2026-04-11 · unverdicted · novelty 8.0

Transformers converge globally to the optimal DDPM denoiser for multi-token GMMs via self-attention mean denoising, with explicit token and iteration requirements.

Inverse Design for Conditional Distribution Matching

cs.LG · 2026-05-10 · unverdicted · novelty 7.0

Defines Conditional Distribution Matching (CDM) as finding inputs whose induced conditional distributions match a target distribution and proposes the MLGD-F inference-time algorithm using pretrained diffusion models to solve it without retraining.

Grokking of Diffusion Models: Case Study on Modular Addition

cs.LG · 2026-04-20 · unverdicted · novelty 7.0

Diffusion models show grokking on modular addition by composing periodic operand representations in simple data regimes or by separating arithmetic computation from visual denoising across timesteps in varied regimes.

T-CLIP: Enabling Thermal Perception for Contrastive Language-Image Pretraining

cs.CV · 2026-05-30 · unverdicted · novelty 6.0

T-CLIP introduces a physics-aware thermal captioning dataset (IR-Cap) and a decoupled dual-LoRA adaptation of CLIP that improves cross-modal retrieval on thermal benchmarks by separating scene-level and object-level thermal understanding.

Structured Diffusion Bridges: Inductive Bias for Denoising Diffusion Bridges

cs.LG · 2026-05-03 · unverdicted · novelty 5.0 · 2 refs

A structured diffusion bridge method achieves near fully-paired modality translation quality using alignment constraints even in unpaired or semi-paired regimes.

citing papers explorer

Showing 5 of 5 citing papers after filters.

Transformers Learn the Optimal DDPM Denoiser for Multi-Token GMMs cs.LG · 2026-04-11 · unverdicted · none · ref 63
Transformers converge globally to the optimal DDPM denoiser for multi-token GMMs via self-attention mean denoising, with explicit token and iteration requirements.
Inverse Design for Conditional Distribution Matching cs.LG · 2026-05-10 · unverdicted · none · ref 44
Defines Conditional Distribution Matching (CDM) as finding inputs whose induced conditional distributions match a target distribution and proposes the MLGD-F inference-time algorithm using pretrained diffusion models to solve it without retraining.
Grokking of Diffusion Models: Case Study on Modular Addition cs.LG · 2026-04-20 · unverdicted · none · ref 32
Diffusion models show grokking on modular addition by composing periodic operand representations in simple data regimes or by separating arithmetic computation from visual denoising across timesteps in varied regimes.
T-CLIP: Enabling Thermal Perception for Contrastive Language-Image Pretraining cs.CV · 2026-05-30 · unverdicted · none · ref 22
T-CLIP introduces a physics-aware thermal captioning dataset (IR-Cap) and a decoupled dual-LoRA adaptation of CLIP that improves cross-modal retrieval on thermal benchmarks by separating scene-level and object-level thermal understanding.
Structured Diffusion Bridges: Inductive Bias for Denoising Diffusion Bridges cs.LG · 2026-05-03 · unverdicted · none · ref 39 · 2 links
A structured diffusion bridge method achieves near fully-paired modality translation quality using alignment constraints even in unpaired or semi-paired regimes.

arXiv preprint arXiv:2303.13336 , year=

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer