Shaded bands mark success regions (τ∈[0.08,0.15] for seq_mean;[0.003,0.008]for q10)

15 Figure 4:Sensitivity to gating threshold τ · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models

cs.LG · 2026-05-04 · conditional · novelty 6.0

Gate-DPO attenuates gradients on low-probability rejected responses to reduce probability collapse and improve chosen-response likelihood during preference optimization.

citing papers explorer

Showing 1 of 1 citing paper.

Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models cs.LG · 2026-05-04 · conditional · none · ref 21
Gate-DPO attenuates gradients on low-probability rejected responses to reduce probability collapse and improve chosen-response likelihood during preference optimization.

Shaded bands mark success regions (τ∈[0.08,0.15] for seq_mean;[0.003,0.008]for q10)

fields

years

verdicts

representative citing papers

citing papers explorer