Rapidly Benchmarking Large Language Models for Diagnosing Comorbid Patients: Comparative Study Leveraging the LLM-as-a-Judge Method , volume =

Sarvari, Peter, Al-fagih, Zaid , year = · DOI 10.2196/67661

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores

cs.LG · 2026-04-23 · unverdicted · novelty 5.0

Adding medically insignificant features to prompts causes statistically significant increases in mean predicted hospitalization risk and output variability across four LLMs and four prompt styles on synthetic patient profiles.

citing papers explorer

Showing 1 of 1 citing paper.

Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores cs.LG · 2026-04-23 · unverdicted · none · ref 21
Adding medically insignificant features to prompts causes statistically significant increases in mean predicted hospitalization risk and output variability across four LLMs and four prompt styles on synthetic patient profiles.

Rapidly Benchmarking Large Language Models for Diagnosing Comorbid Patients: Comparative Study Leveraging the LLM-as-a-Judge Method , volume =

fields

years

verdicts

representative citing papers

citing papers explorer