Realtime Retrospective Board: AI Model Benchmark Dataset and Evaluation Artifacts

Mehta A · 2026 · DOI 10.5281/zenodo.21134406

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

Reasoning effort, not tool access, buys first-try reliability in agentic code generation: an observational study

cs.SE · 2026-07-02 · unverdicted · novelty 5.0

An observational study of 90 agent runs finds that higher reasoning effort, not testing tool access, drives first-try reliability in agentic code generation.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Reasoning effort, not tool access, buys first-try reliability in agentic code generation: an observational study cs.SE · 2026-07-02 · unverdicted · none · ref 5
An observational study of 90 agent runs finds that higher reasoning effort, not testing tool access, drives first-try reliability in agentic code generation.

Realtime Retrospective Board: AI Model Benchmark Dataset and Evaluation Artifacts

fields

years

verdicts

representative citing papers

citing papers explorer