HiFTNet: A Fast High- Quality Neural V ocoder with Harmonic-Plus-Noise Filter and Inverse Short Time Fourier Transform,

· 2023 · arXiv 2309.09493

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading

eess.AS · 2026-06-08 · unverdicted · novelty 6.0

Masked multimodal training on sEMG and lipreading reduces word error rate by up to 14 percentage points and improves robustness to modality loss in silent speech synthesis.

Enhancing Flow Matching with A Unified Guidance Framework for Efficient and Robust Speech Synthesis

cs.SD · 2026-07-01 · unverdicted · novelty 4.0

Unified guidance framework for Flow Matching speech synthesis achieves nearly 3x faster inference and improved speaker similarity by combining heterogeneous data augmentation with intrinsic model guidance to eliminate CFG overhead.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Enhancing Flow Matching with A Unified Guidance Framework for Efficient and Robust Speech Synthesis cs.SD · 2026-07-01 · unverdicted · none · ref 40
Unified guidance framework for Flow Matching speech synthesis achieves nearly 3x faster inference and improved speaker similarity by combining heterogeneous data augmentation with intrinsic model guidance to eliminate CFG overhead.

HiFTNet: A Fast High- Quality Neural V ocoder with Harmonic-Plus-Noise Filter and Inverse Short Time Fourier Transform,

fields

years

verdicts

representative citing papers

citing papers explorer