Robustness in large language models: A survey of mitigation strategies and evaluation metrics

Kumar, P · 2025 · arXiv 2505.18658

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

read on arXiv browse 5 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

cs.CL · 2026-05-11 · unverdicted · novelty 6.0

EchoDistill applies noisy-to-clean self-distillation with GRPO to boost Audio LLM robustness, reporting 4.18% average GSR gains under strong noise.

Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework

cs.AI · 2026-05-23 · unverdicted · novelty 5.0 · 3 refs

Proposes a multi-dimensional behavioral framework with six dimensions (Correctness, Consistency, Robustness, Local Logical Coherence, Efficiency, Stability) plus deployment-aware aggregation to diagnose LLM reasoning beyond accuracy-based benchmarks.

Robust Biomedical Publication Type and Study Design Classification with Knowledge-Guided Perturbations

cs.CL · 2026-05-12 · unverdicted · novelty 5.0 · 2 refs

Introduces perturbation-based robustness evaluation and hybrid masking-adversarial training to reduce reliance on spurious topical cues while preserving methodological signals in biomedical publication type classification.

Sentra-Guard: A Real-Time Multilingual Defense Against Adversarial LLM Prompts

cs.CR · 2025-10-26 · unverdicted · novelty 4.0

Sentra-Guard reports 99.96% detection of adversarial LLM prompts with AUC 1.00 and ASR of 0.004% using a hybrid SBERT-FAISS and transformer classifier architecture with multilingual translation and human feedback.

Harnessing non-adversarial robustness in large language models

cs.AI · 2026-05-28 · unverdicted · novelty 3.0

Debiasing via fine-tuning can enhance LLM robustness to semantically neutral prompt perturbations by addressing perturbation-induced bias in neural network outputs.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Robust Biomedical Publication Type and Study Design Classification with Knowledge-Guided Perturbations cs.CL · 2026-05-12 · unverdicted · none · ref 38 · 2 links
Introduces perturbation-based robustness evaluation and hybrid masking-adversarial training to reduce reliance on spurious topical cues while preserving methodological signals in biomedical publication type classification.

Robustness in large language models: A survey of mitigation strategies and evaluation metrics

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer