Robustness in large language models: A survey of mitigation strategies and evaluation metrics

Kumar, P · 2025 · arXiv 2505.18658

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

read on arXiv browse 4 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework

cs.AI · 2026-05-23 · unverdicted · novelty 5.0 · 2 refs

A behavioral framework operationalizes six dimensions of LLM reasoning quality and shows they are largely independent from accuracy, revealing issues with single-metric evaluation.

Robust Biomedical Publication Type and Study Design Classification with Knowledge-Guided Perturbations

cs.CL · 2026-05-12 · unverdicted · novelty 5.0

Introduces perturbation-based robustness evaluation and hybrid masking-adversarial training to reduce reliance on spurious topical cues while preserving methodological signals in biomedical publication type classification.

Sentra-Guard: A Real-Time Multilingual Defense Against Adversarial LLM Prompts

cs.CR · 2025-10-26 · unverdicted · novelty 4.0

Sentra-Guard reports 99.96% detection of adversarial LLM prompts with AUC 1.00 and ASR of 0.004% using a hybrid SBERT-FAISS and transformer classifier architecture with multilingual translation and human feedback.

Harnessing non-adversarial robustness in large language models

cs.AI · 2026-05-28 · unverdicted · novelty 3.0

Debiasing via fine-tuning can enhance LLM robustness to semantically neutral prompt perturbations by addressing perturbation-induced bias in neural network outputs.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Sentra-Guard: A Real-Time Multilingual Defense Against Adversarial LLM Prompts cs.CR · 2025-10-26 · unverdicted · none · ref 9
Sentra-Guard reports 99.96% detection of adversarial LLM prompts with AUC 1.00 and ASR of 0.004% using a hybrid SBERT-FAISS and transformer classifier architecture with multilingual translation and human feedback.

Robustness in large language models: A survey of mitigation strategies and evaluation metrics

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer