LCES : Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models

Takumi Shibata, Yuichi Miyamura · 2025 · DOI 10.18653/v1/2025.emnlp-main.1523

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open at publisher browse 2 citing papers

representative citing papers

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

cs.AI · 2026-06-03 · unverdicted · novelty 7.0

LLM judges exhibit high stability under neutral re-evaluation but substantial reversibility under targeted post-decision challenges, quantified via a new Evaluation Robustness Score (ERS).

MADRAG: Multi-Agent Debate with Retrieval-Augmented Generation for Training-Free Analytic Essay Scoring

cs.MA · 2026-06-04 · unverdicted · novelty 5.0

MADRAG combines multi-agent debate with retrieval-augmented generation to produce training-free analytic essay scores that outperform prompt baselines and approach supervised systems.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges cs.AI · 2026-06-03 · unverdicted · none · ref 69
LLM judges exhibit high stability under neutral re-evaluation but substantial reversibility under targeted post-decision challenges, quantified via a new Evaluation Robustness Score (ERS).

LCES : Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models

fields

years

verdicts

representative citing papers

citing papers explorer