arXiv preprint arXiv:2501.12735 , year=

Online preference alignment for language models via count-based exploration , author= · 2025 · arXiv 2501.12735

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

On Advantage Estimates for Max@K Policy Gradients

cs.LG · 2026-06-04 · unverdicted · novelty 6.0

Proposes MaxPO using a Leave-Two-Out baseline for centered unbiased advantages in max@K policy gradients, with a unified derivation of finite-batch estimators.

DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

cs.LG · 2026-05-29 · unverdicted · novelty 6.0

DRIFT achieves multi-turn RL performance via offline importance-weighted SFT by leveraging the equivalence of KL-regularized RL to weighted supervised learning.

N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization

cs.LG · 2026-06-09 · unverdicted · novelty 3.0

N-GRPO enhances GRPO via Semantic Neighbor Mixing of token embeddings to improve diversity and consistency in LLM math reasoning rollouts.

citing papers explorer

Showing 3 of 3 citing papers after filters.

On Advantage Estimates for Max@K Policy Gradients cs.LG · 2026-06-04 · unverdicted · none · ref 3
Proposes MaxPO using a Leave-Two-Out baseline for centered unbiased advantages in max@K policy gradients, with a unified derivation of finite-batch estimators.
DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization cs.LG · 2026-05-29 · unverdicted · none · ref 1
DRIFT achieves multi-turn RL performance via offline importance-weighted SFT by leveraging the equivalence of KL-regularized RL to weighted supervised learning.
N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization cs.LG · 2026-06-09 · unverdicted · none · ref 3
N-GRPO enhances GRPO via Semantic Neighbor Mixing of token embeddings to improve diversity and consistency in LLM math reasoning rollouts.

arXiv preprint arXiv:2501.12735 , year=

fields

years

verdicts

representative citing papers

citing papers explorer