MedMT-Bench: Can LLMs memorize and understand long multi-turn conversations in medical scenarios?arXiv preprint arXiv:2603.23519, 2026

Lin Yang, Yuancheng Yang, Xu Wang, Changkun Liu, Haihua Yang · 2026 · arXiv 2603.23519

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

cs.CL · 2026-05-28 · unverdicted · novelty 5.0

Fine-tuning a Spanish biomedical encoder on Gemini-generated synthetic data for multiple languages yields a bi-encoder that matches or exceeds BioBERT-ST on clinical code retrieval metrics, with further gains from cross-encoder reranking on most languages.

MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional

cs.AI · 2026-05-23 · unverdicted · novelty 4.0

MDIA, a specialty-routed 7-node multi-agent system, reports 0.6272 accuracy on 525 HealthBench Professional cases using GPT-5.4, outperforming the ChatGPT for Clinicians baseline by 3.72 points and attributing the lift to architectural components.

citing papers explorer

Showing 1 of 1 citing paper after filters.

MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional cs.AI · 2026-05-23 · unverdicted · none · ref 23
MDIA, a specialty-routed 7-node multi-agent system, reports 0.6272 accuracy on 525 HealthBench Professional cases using GPT-5.4, outperforming the ChatGPT for Clinicians baseline by 3.72 points and attributing the lift to architectural components.

MedMT-Bench: Can LLMs memorize and understand long multi-turn conversations in medical scenarios?arXiv preprint arXiv:2603.23519, 2026

fields

years

verdicts

representative citing papers

citing papers explorer