Comparingtheaccuracyoflargelanguagemodels andpromptengineeringindiagnosingrealworldcases

· 2025 · arXiv 2025.106026

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores

cs.LG · 2026-04-23 · unverdicted · novelty 5.0

Adding medically insignificant features to prompts causes statistically significant increases in mean predicted hospitalization risk and output variability across four LLMs and four prompt styles on synthetic patient profiles.

Evaluating Multimodal LLMs for Inpatient Diagnosis: Real-World Performance, Safety, and Cost Across Ten Frontier Models

cs.LG · 2026-04-18 · unverdicted · novelty 5.0

Multimodal LLMs performed similarly across models and better than standard care on diagnostic accuracy and patient safety in a real-world LMIC hospital dataset.

citing papers explorer

Showing 2 of 2 citing papers.

Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores cs.LG · 2026-04-23 · unverdicted · none · ref 20
Adding medically insignificant features to prompts causes statistically significant increases in mean predicted hospitalization risk and output variability across four LLMs and four prompt styles on synthetic patient profiles.
Evaluating Multimodal LLMs for Inpatient Diagnosis: Real-World Performance, Safety, and Cost Across Ten Frontier Models cs.LG · 2026-04-18 · unverdicted · none · ref 14
Multimodal LLMs performed similarly across models and better than standard care on diagnostic accuracy and patient safety in a real-world LMIC hospital dataset.

Comparingtheaccuracyoflargelanguagemodels andpromptengineeringindiagnosingrealworldcases

fields

years

verdicts

representative citing papers

citing papers explorer