The refinement instruction is task-agnostic and contains no correctness signals, ensuring the model learns self-refinement without external supervision

Finally, after finishing the review, provide your refined solution, answer

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

cs.AI · 2026-04-02 · unverdicted · novelty 6.0

ThinkTwice jointly optimizes LLMs for reasoning and self-refinement via a two-phase GRPO process, yielding gains of 5 points before and 11.5 points after refinement on AIME for Qwen3-4B.

citing papers explorer

Showing 1 of 1 citing paper.

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement cs.AI · 2026-04-02 · unverdicted · none · ref 4
ThinkTwice jointly optimizes LLMs for reasoning and self-refinement via a two-phase GRPO process, yielding gains of 5 points before and 11.5 points after refinement on AIME for Qwen3-4B.

The refinement instruction is task-agnostic and contains no correctness signals, ensuring the model learns self-refinement without external supervision

fields

years

verdicts

representative citing papers

citing papers explorer