{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:RNKXLNDJ2QDKTSDATG4OXGQADK","short_pith_number":"pith:RNKXLNDJ","schema_version":"1.0","canonical_sha256":"8b5575b469d406a9c86099b8eb9a001a98f95bafcb88901c0008de9639d7f4d2","source":{"kind":"arxiv","id":"2605.13292","version":1},"attestation_state":"computed","paper":{"title":"IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"IndicMedDialog supplies parallel multi-turn medical dialogues in English and nine Indic languages to support personalized symptom-elicitation models.","cross_cats":["cs.AI","cs.IR","cs.LG"],"primary_cat":"cs.CL","authors_text":"Piyush Patel, Shubham Kumar Nigam, Suparnojit Sarkar","submitted_at":"2026-05-13T10:06:38Z","abstract_excerpt":"Most existing medical dialogue systems operate in a single-turn question--answering paradigm or rely on template-based datasets, limiting conversational realism and multilingual applicability. We introduce IndicMedDialog, a parallel multi-turn medical dialogue dataset spanning English and nine Indic languages: Assamese, Bengali, Gujarati, Hindi, Marathi, Punjabi, Tamil, Telugu, and Urdu. The dataset extends MDDial with LLM-generated synthetic consultations, translated using TranslateGemma, verified by native speakers, and refined through a script-aware post-processing pipeline to correct phone"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":false},"canonical_record":{"source":{"id":"2605.13292","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.CL","submitted_at":"2026-05-13T10:06:38Z","cross_cats_sorted":["cs.AI","cs.IR","cs.LG"],"title_canon_sha256":"9897394a88de9f227fdf8de1a9f4fe89e4f681206ce22204e0a58a01c6eadc41","abstract_canon_sha256":"c6d9e7e83fdcada655b8c37716b8a9ee5232d129d28c8bbb00fe95ea4891bc80"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T02:44:49.112362Z","signature_b64":"IjLtIjH7QTbfbN6MxFvlqBzGTQ2iSvBc2I4MK3tAp9kRNgf6U5fl9DsLkauQ7tFW1H0/9Qsj+nmQc866fKg6DQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"8b5575b469d406a9c86099b8eb9a001a98f95bafcb88901c0008de9639d7f4d2","last_reissued_at":"2026-05-18T02:44:49.111874Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T02:44:49.111874Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"IndicMedDialog supplies parallel multi-turn medical dialogues in English and nine Indic languages to support personalized symptom-elicitation models.","cross_cats":["cs.AI","cs.IR","cs.LG"],"primary_cat":"cs.CL","authors_text":"Piyush Patel, Shubham Kumar Nigam, Suparnojit Sarkar","submitted_at":"2026-05-13T10:06:38Z","abstract_excerpt":"Most existing medical dialogue systems operate in a single-turn question--answering paradigm or rely on template-based datasets, limiting conversational realism and multilingual applicability. We introduce IndicMedDialog, a parallel multi-turn medical dialogue dataset spanning English and nine Indic languages: Assamese, Bengali, Gujarati, Hindi, Marathi, Punjabi, Tamil, Telugu, and Urdu. The dataset extends MDDial with LLM-generated synthetic consultations, translated using TranslateGemma, verified by native speakers, and refined through a script-aware post-processing pipeline to correct phone"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"We introduce IndicMedDialog, a parallel multi-turn medical dialogue dataset spanning English and nine Indic languages... Building on this dataset, we fine-tune IndicMedLM via parameter-efficient adaptation... and validate clinical plausibility through medical expert evaluation.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The assumption that LLM-generated synthetic consultations, after translation with TranslateGemma and native-speaker verification, produce clinically plausible multi-turn dialogues that faithfully represent real patient-provider interactions without introducing systematic biases or factual errors.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"A parallel multi-turn medical dialogue dataset spanning English and nine Indic languages is created from synthetic consultations to enable personalized AI healthcare interactions.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"IndicMedDialog supplies parallel multi-turn medical dialogues in English and nine Indic languages to support personalized symptom-elicitation models.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"782364865667287f6575d7c7b5c4a4ed4cc3a79475bd78f0b6f278996fb065a6"},"source":{"id":"2605.13292","kind":"arxiv","version":1},"verdict":{"id":"8522d356-9916-4dee-bb05-193e227de195","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-14T19:00:32.441240Z","strongest_claim":"We introduce IndicMedDialog, a parallel multi-turn medical dialogue dataset spanning English and nine Indic languages... Building on this dataset, we fine-tune IndicMedLM via parameter-efficient adaptation... and validate clinical plausibility through medical expert evaluation.","one_line_summary":"A parallel multi-turn medical dialogue dataset spanning English and nine Indic languages is created from synthetic consultations to enable personalized AI healthcare interactions.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The assumption that LLM-generated synthetic consultations, after translation with TranslateGemma and native-speaker verification, produce clinically plausible multi-turn dialogues that faithfully represent real patient-provider interactions without introducing systematic biases or factual errors.","pith_extraction_headline":"IndicMedDialog supplies parallel multi-turn medical dialogues in English and nine Indic languages to support personalized symptom-elicitation models."},"references":{"count":44,"sample":[{"doi":"","year":2024,"title":"Findings of the Association for Computational Linguistics: EMNLP 2024 , pages=","work_id":"20248839-bcd4-47c1-bec1-a4a048743cf8","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"arXiv preprint arXiv:2308.08147 , year=","work_id":"cc378513-cbea-4d77-8737-597402d227ce","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Real-World Doctor Agent with Proactive Consultation through Multi-Agent Reinforcement Learning","work_id":"23afdfee-e306-49ad-873c-211334e6416a","ref_index":3,"cited_arxiv_id":"2505.19630","is_internal_anchor":true},{"doi":"","year":2020,"title":"Proceedings of the 2020 conference on empirical methods in natural language processing (EMNLP) , pages=","work_id":"f57864c4-6d2e-4692-bcc8-acc5c2dc05a9","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"CCF International Conference on Natural Language Processing and Chinese Computing , pages=","work_id":"a3400c06-5077-4dc9-a9d2-7963397047d3","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":44,"snapshot_sha256":"59dd021b8dc861fa880a303af8b43d9520994cf63000366f80260b49f29fa6fe","internal_anchors":8},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.13292","created_at":"2026-05-18T02:44:49.111955+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.13292v1","created_at":"2026-05-18T02:44:49.111955+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.13292","created_at":"2026-05-18T02:44:49.111955+00:00"},{"alias_kind":"pith_short_12","alias_value":"RNKXLNDJ2QDK","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"RNKXLNDJ2QDKTSDA","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"RNKXLNDJ","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/RNKXLNDJ2QDKTSDATG4OXGQADK","json":"https://pith.science/pith/RNKXLNDJ2QDKTSDATG4OXGQADK.json","graph_json":"https://pith.science/api/pith-number/RNKXLNDJ2QDKTSDATG4OXGQADK/graph.json","events_json":"https://pith.science/api/pith-number/RNKXLNDJ2QDKTSDATG4OXGQADK/events.json","paper":"https://pith.science/paper/RNKXLNDJ"},"agent_actions":{"view_html":"https://pith.science/pith/RNKXLNDJ2QDKTSDATG4OXGQADK","download_json":"https://pith.science/pith/RNKXLNDJ2QDKTSDATG4OXGQADK.json","view_paper":"https://pith.science/paper/RNKXLNDJ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.13292&json=true","fetch_graph":"https://pith.science/api/pith-number/RNKXLNDJ2QDKTSDATG4OXGQADK/graph.json","fetch_events":"https://pith.science/api/pith-number/RNKXLNDJ2QDKTSDATG4OXGQADK/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/RNKXLNDJ2QDKTSDATG4OXGQADK/action/timestamp_anchor","attest_storage":"https://pith.science/pith/RNKXLNDJ2QDKTSDATG4OXGQADK/action/storage_attestation","attest_author":"https://pith.science/pith/RNKXLNDJ2QDKTSDATG4OXGQADK/action/author_attestation","sign_citation":"https://pith.science/pith/RNKXLNDJ2QDKTSDATG4OXGQADK/action/citation_signature","submit_replication":"https://pith.science/pith/RNKXLNDJ2QDKTSDATG4OXGQADK/action/replication_record"}},"created_at":"2026-05-18T02:44:49.111955+00:00","updated_at":"2026-05-18T02:44:49.111955+00:00"}