Exposing the illusion of fairness: Auditing vulnerabilities to distributional manipulation attacks

· 2025 · arXiv 2507.20708

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

The Evaluation Game: Beyond Static LLM Benchmarking

cs.LG · 2026-05-19 · unverdicted · novelty 6.0

Presents a game-theoretic model with group actions for data augmentation in LLM adversarial evaluation, demonstrating local generalization from fine-tuning on three model families and redefining benchmarks as orbits under group actions.

Fairness of Explanations in Artificial Intelligence (AI): A Unifying Framework, Axioms, and Future Direction toward Responsible AI

cs.AI · 2026-05-11 · unverdicted · novelty 6.0

A conditional invariance framework defines explanation fairness as explanations being statistically independent of protected attributes given task-relevant features, unifying existing metrics and enabling procedural bias audits.

citing papers explorer

Showing 2 of 2 citing papers.

The Evaluation Game: Beyond Static LLM Benchmarking cs.LG · 2026-05-19 · unverdicted · none · ref 31
Presents a game-theoretic model with group actions for data augmentation in LLM adversarial evaluation, demonstrating local generalization from fine-tuning on three model families and redefining benchmarks as orbits under group actions.
Fairness of Explanations in Artificial Intelligence (AI): A Unifying Framework, Axioms, and Future Direction toward Responsible AI cs.AI · 2026-05-11 · unverdicted · none · ref 36
A conditional invariance framework defines explanation fairness as explanations being statistically independent of protected attributes given task-relevant features, unifying existing metrics and enabling procedural bias audits.

Exposing the illusion of fairness: Auditing vulnerabilities to distributional manipulation attacks

fields

years

verdicts

representative citing papers

citing papers explorer