MedSafetyBench : Evaluating and Improving the Medical Safety of Large Language Models

Han, Tessa, Kumar, Aounon, Agarwal, Chirag, Lakkaraju, Himabindu · 2024 · DOI 10.52202/079017-1054

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open at publisher browse 2 citing papers

representative citing papers

MultiTurnPSB: Evaluating Multi-Turn Jailbreak Attacks an dClassifier-Based Defenses for Medical AI Safety

cs.CR · 2026-05-30 · unverdicted · novelty 7.0

Multi-turn jailbreak attacks on medical AI increase unsafe responses from 35% to 80% by turn 4, expose 19x model gaps invisible in single-turn tests, and a lightweight classifier reduces unsafe outputs by 52 points at the cost of 45% false alarms on benign queries.

DrugBench: Evaluating AI Control Protocols for Medication Harm Mitigation

cs.AI · 2026-06-10 · unverdicted · novelty 6.0

DrugBench evaluates AI control protocols on 3,671 medical conversations for four medication harm types and finds existing protocols subvertible, proposing severity-based monitoring instead.

citing papers explorer

Showing 1 of 1 citing paper after filters.

DrugBench: Evaluating AI Control Protocols for Medication Harm Mitigation cs.AI · 2026-06-10 · unverdicted · none · ref 7
DrugBench evaluates AI control protocols on 3,671 medical conversations for four medication harm types and finds existing protocols subvertible, proposing severity-based monitoring instead.

MedSafetyBench : Evaluating and Improving the Medical Safety of Large Language Models

fields

years

verdicts

representative citing papers

citing papers explorer