Reasoning model is stub- born: Diagnosing instruction overriding in reasoning models.arXiv preprint arXiv:2505.17225

Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang · 2025 · arXiv 2505.17225

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases

cs.CL · 2026-01-07 · unverdicted · novelty 7.0

Reasoning models judge better than non-reasoning LLMs yet retain biases; generating an evaluation plan first mitigates bias without losing accuracy.

Context Learning for Multi-Agent Discussion

cs.AI · 2026-02-02 · unverdicted · novelty 6.0

M2CL trains per-agent context generators with a self-adaptive mechanism to maintain coherence and reduce output discrepancies in multi-LLM discussions, yielding 20-50% gains on reasoning, embodied, and mobile control tasks.

Input-Time Scaling: Adding Noise and Irrelevance into Less-Is-More Drastically Improves Reasoning Performance and Efficiency

cs.LG · 2025-08-19 · unverdicted · novelty 6.0

Adding controlled noise and irrelevant persona contexts across training and testing stages for strong LLMs yields better reasoning and efficiency than high-quality data alone, reaching 76.7% on AIME24/25 with Qwen2.5-32B.

citing papers explorer

Showing 3 of 3 citing papers.

Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases cs.CL · 2026-01-07 · unverdicted · none · ref 1
Reasoning models judge better than non-reasoning LLMs yet retain biases; generating an evaluation plan first mitigates bias without losing accuracy.
Context Learning for Multi-Agent Discussion cs.AI · 2026-02-02 · unverdicted · none · ref 9
M2CL trains per-agent context generators with a self-adaptive mechanism to maintain coherence and reduce output discrepancies in multi-LLM discussions, yielding 20-50% gains on reasoning, embodied, and mobile control tasks.
Input-Time Scaling: Adding Noise and Irrelevance into Less-Is-More Drastically Improves Reasoning Performance and Efficiency cs.LG · 2025-08-19 · unverdicted · none · ref 8
Adding controlled noise and irrelevant persona contexts across training and testing stages for strong LLMs yields better reasoning and efficiency than high-quality data alone, reaching 76.7% on AIME24/25 with Qwen2.5-32B.

Reasoning model is stub- born: Diagnosing instruction overriding in reasoning models.arXiv preprint arXiv:2505.17225

fields

years

verdicts

representative citing papers

citing papers explorer