InThe Thirty-ninth An- nual Conference on Neural Information Processing Systems Datasets and Benchmarks Track

SuperGPQA: Scaling LLM evaluation across 285 graduate disciplines · 2019

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks

cs.CL · 2026-02-05 · unverdicted · novelty 7.0

BenchMarker toolkit audits 12 MCQA benchmarks for contamination, shortcuts, and writing errors using LLM judges, finding widespread flaws that inflate or deflate accuracy and alter rankings.

citing papers explorer

Showing 1 of 1 citing paper.

BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks cs.CL · 2026-02-05 · unverdicted · none · ref 2
BenchMarker toolkit audits 12 MCQA benchmarks for contamination, shortcuts, and writing errors using LLM judges, finding widespread flaws that inflate or deflate accuracy and alter rankings.

InThe Thirty-ninth An- nual Conference on Neural Information Processing Systems Datasets and Benchmarks Track

fields

years

verdicts

representative citing papers

citing papers explorer