Robustness in large language models: A survey of mitigation strategies and evaluation metrics

· 2025 · arXiv 2505.18658

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

read on arXiv browse 5 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

cs.CL · 2026-05-11 · unverdicted · novelty 6.0

EchoDistill applies noisy-to-clean self-distillation with GRPO to boost Audio LLM robustness, reporting 4.18% average GSR gains under strong noise.

Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework

cs.AI · 2026-05-23 · unverdicted · novelty 5.0 · 2 refs

A behavioral framework operationalizes six dimensions of LLM reasoning quality and shows they are largely independent from accuracy, revealing issues with single-metric evaluation.

Robust Biomedical Publication Type and Study Design Classification with Knowledge-Guided Perturbations

cs.CL · 2026-05-12 · unverdicted · novelty 5.0 · 2 refs

Introduces perturbation-based robustness evaluation and hybrid masking-adversarial training to reduce reliance on spurious topical cues while preserving methodological signals in biomedical publication type classification.

Sentra-Guard: A Real-Time Multilingual Defense Against Adversarial LLM Prompts

cs.CR · 2025-10-26 · unverdicted · novelty 4.0

Sentra-Guard reports 99.96% detection of adversarial LLM prompts with AUC 1.00 and ASR of 0.004% using a hybrid SBERT-FAISS and transformer classifier architecture with multilingual translation and human feedback.

Harnessing non-adversarial robustness in large language models

cs.AI · 2026-05-28 · unverdicted · novelty 3.0

Debiasing via fine-tuning can enhance LLM robustness to semantically neutral prompt perturbations by addressing perturbation-induced bias in neural network outputs.

citing papers explorer

Showing 0 of 0 citing papers after filters.

No citing papers match the current filters.

Robustness in large language models: A survey of mitigation strategies and evaluation metrics

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer