Examining reasoning llms-as-judges in non-verifiable llm post-training

Liu, Y · 2026 · arXiv 2603.12246

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

read on arXiv browse 3 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

cs.AI · 2026-04-22 · unverdicted · novelty 7.0

Introduces Defensibility Index, Ambiguity Index, and Probabilistic Defensibility Signal to evaluate AI moderation decisions by logical derivability from explicit rules rather than agreement with historical labels, with validation on 193k+ Reddit cases showing 33-46.6 pp metric gaps and a Governance

Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

cs.LG · 2026-06-08 · unverdicted · novelty 6.0

Reasoning Arena converts non-diverse reward groups in RLVR into relative rewards via adaptive trace tournaments and Bradley-Terry fitting on anchor comparisons, claiming 7.6% average gains and 27-41% faster training on math/coding benchmarks.

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

cs.AI · 2026-05-08 · unverdicted · novelty 6.0

Auto-Rubric as Reward externalizes VLM preferences into structured rubrics and applies Rubric Policy Optimization to create more reliable binary rewards for multimodal generation, outperforming pairwise models on text-to-image and editing benchmarks.

citing papers explorer

Showing 3 of 3 citing papers after filters.

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI cs.AI · 2026-04-22 · unverdicted · none · ref 14
Introduces Defensibility Index, Ambiguity Index, and Probabilistic Defensibility Signal to evaluate AI moderation decisions by logical derivability from explicit rules rather than agreement with historical labels, with validation on 193k+ Reddit cases showing 33-46.6 pp metric gaps and a Governance
Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short cs.LG · 2026-06-08 · unverdicted · none · ref 17
Reasoning Arena converts non-diverse reward groups in RLVR into relative rewards via adaptive trace tournaments and Bradley-Terry fitting on anchor comparisons, claiming 7.6% average gains and 27-41% faster training on math/coding benchmarks.
Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria cs.AI · 2026-05-08 · unverdicted · none · ref 25
Auto-Rubric as Reward externalizes VLM preferences into structured rubrics and applies Rubric Policy Optimization to create more reliable binary rewards for multimodal generation, outperforming pairwise models on text-to-image and editing benchmarks.

Examining reasoning llms-as-judges in non-verifiable llm post-training

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer