IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages

· 2026 · eess.AS · arXiv 2606.19157

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open full Pith review browse 1 citing papers arXiv PDF

abstract

AudioLLMs enable speech recognition conditioned on textual prompts such as domain descriptions or entity lists. However, it remains unclear whether these models genuinely utilise such context or rely on parametric knowledge learned during pretraining. Existing benchmarks cannot answer this question because they evaluate transcription under fixed prompting conditions and rarely include explicit contextual inputs. We introduce IndicContextEval, a 56-hour multilingual benchmark of natural speech from 555 speakers across 8 Indian languages and 23 professional domains. We design a 7-level prompting framework that progressively introduces contextual signals, including metadata, natural-language descriptions, entity lists in English and native script, and adversarial prompts with incorrect entities. Evaluating five models reveals substantial differences in context utilisation behaviour, highlighting the need for explicit evaluation of contextual grounding in AudioLLMs.

representative citing papers

IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages

eess.AS · 2026-06-17 · unverdicted · novelty 7.0

IndicContextEval is a new 56-hour multilingual benchmark and 7-level prompting framework for evaluating context utilization in AudioLLMs across 8 Indic languages.

citing papers explorer

Showing 1 of 1 citing paper after filters.

IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages eess.AS · 2026-06-17 · unverdicted · none · ref 2 · internal anchor
IndicContextEval is a new 56-hour multilingual benchmark and 7-level prompting framework for evaluating context utilization in AudioLLMs across 8 Indic languages.

IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages

fields

years

verdicts

representative citing papers

citing papers explorer