arXiv preprint arXiv:2505.23473 , year=

EVOREFUSE: Evolutionary Prompt Optimization for Evaluation, Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions , author= · arXiv 2505.23473

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

AOR-Bench: Do Large Audio Language Models Over-Refuse Pseudo-Harmful Queries?

cs.SD · 2026-06-19 · unverdicted · novelty 7.0

Introduces the first benchmark for over-refusal in large audio language models using 3,000 pseudo-harmful audio samples and evaluates 12 models across six families, finding widespread over-refusal.

Addressing Over-Refusal in LLMs with Competing Rewards

cs.LG · 2026-06-30 · unverdicted · novelty 6.0

SEAR trains one LLM via adversarial process rewards to explore harmful reasoning paths but flip to safe outputs, reducing over-refusal while preserving safety.

citing papers explorer

Showing 2 of 2 citing papers.

AOR-Bench: Do Large Audio Language Models Over-Refuse Pseudo-Harmful Queries? cs.SD · 2026-06-19 · unverdicted · none · ref 18
Introduces the first benchmark for over-refusal in large audio language models using 3,000 pseudo-harmful audio samples and evaluates 12 models across six families, finding widespread over-refusal.
Addressing Over-Refusal in LLMs with Competing Rewards cs.LG · 2026-06-30 · unverdicted · none · ref 106
SEAR trains one LLM via adversarial process rewards to explore harmful reasoning paths but flip to safe outputs, reducing over-refusal while preserving safety.

arXiv preprint arXiv:2505.23473 , year=

fields

years

verdicts

representative citing papers

citing papers explorer