Large language models and automated essay scoring of English language learner writing: Insights into validity and reliability

Austin Pack, Alex Barrett · 2024 · arXiv 2024.100234

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring

cs.CL · 2026-06-09 · unverdicted · novelty 5.0

Sequential fine-tuning of LLaMA-3.1-8B on discourse elements in order outperforms independent and randomized curricula for AES on PERSUADE 2.0, with specific F1/accuracy gains and competitiveness vs. LLaMA-70B on conclusion scoring.

Early-Token Confidence Predicts Reasoning Quality in Multi-Agent LLM Debate

cs.CL · 2026-06-09 · unverdicted · novelty 5.0

Early-token log-probabilities from LLM decoding are stronger predictors of reasoning quality than full-sequence statistics in multi-agent debate on essay scoring tasks.

The Confident Liar: Diagnosing Multi-Agent Debate with Log-Probabilities and LLM-as-Judge

cs.CL · 2026-06-09 · unverdicted · novelty 5.0

In two-agent debate, log-probability confidence aligns with LLM-judged reasoning quality roughly twice as strongly for the Constructor (AUROC 0.804 for critical failure detection) as for the Auditor (0.634).

citing papers explorer

Showing 3 of 3 citing papers.

The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring cs.CL · 2026-06-09 · unverdicted · none · ref 4
Sequential fine-tuning of LLaMA-3.1-8B on discourse elements in order outperforms independent and randomized curricula for AES on PERSUADE 2.0, with specific F1/accuracy gains and competitiveness vs. LLaMA-70B on conclusion scoring.
Early-Token Confidence Predicts Reasoning Quality in Multi-Agent LLM Debate cs.CL · 2026-06-09 · unverdicted · none · ref 14
Early-token log-probabilities from LLM decoding are stronger predictors of reasoning quality than full-sequence statistics in multi-agent debate on essay scoring tasks.
The Confident Liar: Diagnosing Multi-Agent Debate with Log-Probabilities and LLM-as-Judge cs.CL · 2026-06-09 · unverdicted · none · ref 14
In two-agent debate, log-probability confidence aligns with LLM-judged reasoning quality roughly twice as strongly for the Constructor (AUROC 0.804 for critical failure detection) as for the Auditor (0.634).

Large language models and automated essay scoring of English language learner writing: Insights into validity and reliability

fields

years

verdicts

representative citing papers

citing papers explorer