Eliminating biased length reliance of direct preference optimization via down-sampled KL divergence

Junru Lu, Jiazheng Li, Siyu An, Meng Zhao, Yulan He, Di Yin, Xing Sun · 2024 · DOI 10.18653/v1/2024.emnlp-main.60

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

Reward Bias Substitution: Single-Axis Bias Mitigations Redirect Optimization Pressure

cs.AI · 2026-05-27 · accept · novelty 7.0

Single-axis reward bias mitigations redirect optimization pressure to correlated proxies, and audit-distribution scoring produces identical observables for successful mitigation, bias substitution, and overcorrection.

citing papers explorer

Showing 1 of 1 citing paper.

Reward Bias Substitution: Single-Axis Bias Mitigations Redirect Optimization Pressure cs.AI · 2026-05-27 · accept · none · ref 54
Single-axis reward bias mitigations redirect optimization pressure to correlated proxies, and audit-distribution scoring produces identical observables for successful mitigation, bias substitution, and overcorrection.

Eliminating biased length reliance of direct preference optimization via down-sampled KL divergence

fields

years

verdicts

representative citing papers

citing papers explorer