TruthfulQA: Measuring how models mimic human falsehoods

Stephanie Lin, Jacob Hilton, Owain Evans · 2022

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Unified Deployment-Aware Evaluation of Open Reasoning Language Models

cs.CL · 2026-04-08 · unverdicted · novelty 4.0 · 2 refs

A controlled multi-model evaluation on shared data subsets shows that deployment metrics and prompting choices create important tradeoffs and alter model rankings beyond accuracy alone.

citing papers explorer

Showing 1 of 1 citing paper.

Unified Deployment-Aware Evaluation of Open Reasoning Language Models cs.CL · 2026-04-08 · unverdicted · none · ref 13 · 2 links
A controlled multi-model evaluation on shared data subsets shows that deployment metrics and prompting choices create important tradeoffs and alter model rankings beyond accuracy alone.

TruthfulQA: Measuring how models mimic human falsehoods

fields

years

verdicts

representative citing papers

citing papers explorer