Internalizing LLM reasoning via discovery and replay of latent actions

· 2026 · arXiv 2602.04925

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

cs.LG · 2026-05-25 · unverdicted · novelty 7.0

ARBITER models reasoning trajectory basins in test-time sampling and uses model-internal signals to correct majority-vote failures, recovering part of the oracle gap on math benchmarks.

Inducing Reasoning Primitives from Agent Traces

cs.AI · 2026-06-02 · unverdicted · novelty 6.0

Reasoning Primitive Induction mines ReAct traces to build a library of typed pseudo-tools that, when composed in a standard ReAct loop, outperform the original agent by 22-44 percentage points on five subtasks.

citing papers explorer

Showing 1 of 1 citing paper after filters.

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling cs.LG · 2026-05-25 · unverdicted · none · ref 23
ARBITER models reasoning trajectory basins in test-time sampling and uses model-internal signals to correct majority-vote failures, recovering part of the oracle gap on math benchmarks.

Internalizing LLM reasoning via discovery and replay of latent actions

fields

years

verdicts

representative citing papers

citing papers explorer