RVPO: Risk-Sensitive Alignment via Variance Regularization

· 2026 · cs.LG · arXiv 2605.05750

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open full Pith review browse 1 citing papers arXiv PDF

abstract

Current critic-less RLHF methods aggregate multi-objective rewards via an arithmetic mean, leaving them vulnerable to constraint neglect: high-magnitude success in one objective can numerically offset critical failures in others (e.g., safety or formatting), masking low-performing "bottleneck" rewards vital for reliable multi-objective alignment. We propose Reward-Variance Policy Optimization (RVPO), a risk-sensitive framework that penalizes inter-reward variance during advantage aggregation, shifting the objective from "maximize sum" to "maximize consistency." We show via Taylor expansion that a LogSumExp (SoftMin) operator effectively acts as a smooth variance penalty. We evaluate RVPO on rubric-based medical and scientific reasoning with up to 17 concurrent LLM-judged reward signals (Qwen2.5-3B/7B/14B) and on tool-calling with rule-based constraints (Qwen2.5-1.5B/3B). By preventing the model from neglecting difficult constraints to exploit easier objectives, RVPO improves overall scores on HealthBench (0.261 vs. 0.215 for GDPO at 14B, $p < 0.001$) and maintains competitive accuracy on GPQA-Diamond without the late-stage degradation observed in other multi-reward methods, demonstrating that variance regularization mitigates constraint neglect across model scales without sacrificing general capabilities.

representative citing papers

PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges

cs.AI · 2026-05-29 · unverdicted · novelty 7.0

PReMISE discovers and audits rubric sets for LLM judges, finding no existing source meets all reliability, preference-fit, and robustness criteria simultaneously while showing two repair methods improve accuracy and reduce exploitability.

citing papers explorer

Showing 1 of 1 citing paper after filters.

PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges cs.AI · 2026-05-29 · unverdicted · none · ref 4 · internal anchor
PReMISE discovers and audits rubric sets for LLM judges, finding no existing source meets all reliability, preference-fit, and robustness criteria simultaneously while showing two repair methods improve accuracy and reduce exploitability.

RVPO: Risk-Sensitive Alignment via Variance Regularization

fields

years

verdicts

representative citing papers

citing papers explorer