Mirage: Evaluating and explaining inductive reasoning process in language models

Li, J · arXiv 2505.23474

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

GR-Ben: A General Reasoning Benchmark for Evaluating Process Reward Models

cs.AI · 2026-05-02 · unverdicted · novelty 6.0

GR-Ben is a new process-level benchmark that evaluates error detection by PRMs and LLMs in science and logic reasoning, showing weaker performance outside mathematics.

citing papers explorer

Showing 1 of 1 citing paper.

GR-Ben: A General Reasoning Benchmark for Evaluating Process Reward Models cs.AI · 2026-05-02 · unverdicted · none · ref 7
GR-Ben is a new process-level benchmark that evaluates error detection by PRMs and LLMs in science and logic reasoning, showing weaker performance outside mathematics.

Mirage: Evaluating and explaining inductive reasoning process in language models

fields

years

verdicts

representative citing papers

citing papers explorer