arXiv preprint arXiv:2601.18533 , year=

From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation , author= · arXiv 2601.18533

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards

cs.CL · 2026-06-02 · unverdicted · novelty 5.0

QUBRIC co-designs queries and rubrics via teacher key points, contrastive generation, and learnability filtering to support GRPO training, yielding +5.5 on ArenaHard and +6.3 average transfer to legal/moral/narrative benchmarks.

ConSteer-RL: Steering Reasoning Capabilities in Large Language Models via Confidence-Aware Reinforcement Learning

cs.LG · 2026-06-06 · unverdicted · novelty 4.0

ConSteer-RL adds a confidence-aware reward derived from per-token probabilities to GRPO-based RLVR and reports 2.3-4% average gains over baselines across model scales.

citing papers explorer

Showing 1 of 1 citing paper after filters.

QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards cs.CL · 2026-06-02 · unverdicted · none · ref 34
QUBRIC co-designs queries and rubrics via teacher key points, contrastive generation, and learnability filtering to support GRPO training, yielding +5.5 on ArenaHard and +6.3 average transfer to legal/moral/narrative benchmarks.

arXiv preprint arXiv:2601.18533 , year=

fields

years

verdicts

representative citing papers

citing papers explorer