{"paper":{"title":"IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"IndicMedDialog supplies parallel multi-turn medical dialogues in English and nine Indic languages to support personalized symptom-elicitation models.","cross_cats":["cs.AI","cs.IR","cs.LG"],"primary_cat":"cs.CL","authors_text":"Piyush Patel, Shubham Kumar Nigam, Suparnojit Sarkar","submitted_at":"2026-05-13T10:06:38Z","abstract_excerpt":"Most existing medical dialogue systems operate in a single-turn question--answering paradigm or rely on template-based datasets, limiting conversational realism and multilingual applicability. We introduce IndicMedDialog, a parallel multi-turn medical dialogue dataset spanning English and nine Indic languages: Assamese, Bengali, Gujarati, Hindi, Marathi, Punjabi, Tamil, Telugu, and Urdu. The dataset extends MDDial with LLM-generated synthetic consultations, translated using TranslateGemma, verified by native speakers, and refined through a script-aware post-processing pipeline to correct phone"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"We introduce IndicMedDialog, a parallel multi-turn medical dialogue dataset spanning English and nine Indic languages... Building on this dataset, we fine-tune IndicMedLM via parameter-efficient adaptation... and validate clinical plausibility through medical expert evaluation.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The assumption that LLM-generated synthetic consultations, after translation with TranslateGemma and native-speaker verification, produce clinically plausible multi-turn dialogues that faithfully represent real patient-provider interactions without introducing systematic biases or factual errors.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"A parallel multi-turn medical dialogue dataset spanning English and nine Indic languages is created from synthetic consultations to enable personalized AI healthcare interactions.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"IndicMedDialog supplies parallel multi-turn medical dialogues in English and nine Indic languages to support personalized symptom-elicitation models.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"782364865667287f6575d7c7b5c4a4ed4cc3a79475bd78f0b6f278996fb065a6"},"source":{"id":"2605.13292","kind":"arxiv","version":1},"verdict":{"id":"8522d356-9916-4dee-bb05-193e227de195","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-14T19:00:32.441240Z","strongest_claim":"We introduce IndicMedDialog, a parallel multi-turn medical dialogue dataset spanning English and nine Indic languages... Building on this dataset, we fine-tune IndicMedLM via parameter-efficient adaptation... and validate clinical plausibility through medical expert evaluation.","one_line_summary":"A parallel multi-turn medical dialogue dataset spanning English and nine Indic languages is created from synthetic consultations to enable personalized AI healthcare interactions.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The assumption that LLM-generated synthetic consultations, after translation with TranslateGemma and native-speaker verification, produce clinically plausible multi-turn dialogues that faithfully represent real patient-provider interactions without introducing systematic biases or factual errors.","pith_extraction_headline":"IndicMedDialog supplies parallel multi-turn medical dialogues in English and nine Indic languages to support personalized symptom-elicitation models."},"references":{"count":44,"sample":[{"doi":"","year":2024,"title":"Findings of the Association for Computational Linguistics: EMNLP 2024 , pages=","work_id":"20248839-bcd4-47c1-bec1-a4a048743cf8","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"arXiv preprint arXiv:2308.08147 , year=","work_id":"cc378513-cbea-4d77-8737-597402d227ce","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Real-World Doctor Agent with Proactive Consultation through Multi-Agent Reinforcement Learning","work_id":"23afdfee-e306-49ad-873c-211334e6416a","ref_index":3,"cited_arxiv_id":"2505.19630","is_internal_anchor":true},{"doi":"","year":2020,"title":"Proceedings of the 2020 conference on empirical methods in natural language processing (EMNLP) , pages=","work_id":"f57864c4-6d2e-4692-bcc8-acc5c2dc05a9","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"CCF International Conference on Natural Language Processing and Chinese Computing , pages=","work_id":"a3400c06-5077-4dc9-a9d2-7963397047d3","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":44,"snapshot_sha256":"59dd021b8dc861fa880a303af8b43d9520994cf63000366f80260b49f29fa6fe","internal_anchors":8},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"}