Robust speech recognition via large-scale weak supervi- sion,

· 2023

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

representative citing papers

From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation

cs.CL · 2026-05-15 · unverdicted · novelty 6.0

S2ST-Omni 2 uses typology-informed hierarchical encoding, gated Dual-CTC, and typology-aware prompting to improve multilingual S2ST over flat-label baselines on CVSS-C, with gains in low-data regimes.

HQTN-SER: Speech Emotion Recognition with Hybrid Quantum Tensor Networks

quant-ph · 2026-05-14 · unverdicted · novelty 5.0

HQTN-SER combines a low-parameter quantum tensor network module with classical latent embeddings to reach 73-80% accuracy on three speech emotion datasets while using few qubits and showing stable training.

UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations

eess.AS · 2026-04-16 · unverdicted · novelty 5.0

UniPASE extends the PASE framework with DeWavLM-Omni to convert degraded speech into high-fidelity, low-hallucination audio across sampling rates via phonetic enhancement, acoustic adaptation, and multi-rate vocoding.

citing papers explorer

Showing 3 of 3 citing papers.

From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation cs.CL · 2026-05-15 · unverdicted · none · ref 29
S2ST-Omni 2 uses typology-informed hierarchical encoding, gated Dual-CTC, and typology-aware prompting to improve multilingual S2ST over flat-label baselines on CVSS-C, with gains in low-data regimes.
HQTN-SER: Speech Emotion Recognition with Hybrid Quantum Tensor Networks quant-ph · 2026-05-14 · unverdicted · none · ref 28
HQTN-SER combines a low-parameter quantum tensor network module with classical latent embeddings to reach 73-80% accuracy on three speech emotion datasets while using few qubits and showing stable training.
UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations eess.AS · 2026-04-16 · unverdicted · none · ref 69
UniPASE extends the PASE framework with DeWavLM-Omni to convert degraded speech into high-fidelity, low-hallucination audio across sampling rates via phonetic enhancement, acoustic adaptation, and multi-rate vocoding.

Robust speech recognition via large-scale weak supervi- sion,

fields

years

verdicts

representative citing papers

citing papers explorer