blue midi dress

Anchor coalitions: Always retain ∅, {1 · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Owen-Shapley Policy Optimization: A Principled RL Algorithm for Generative Search LLMs

cs.AI · 2026-01-13 · unverdicted · novelty 7.0

OSPO redistributes sequence-level advantages in LLM RL training via Shapley-Owen values on semantic coalitions to improve token-level credit assignment without parametric value models.

citing papers explorer

Showing 1 of 1 citing paper.

Owen-Shapley Policy Optimization: A Principled RL Algorithm for Generative Search LLMs cs.AI · 2026-01-13 · unverdicted · none · ref 11
OSPO redistributes sequence-level advantages in LLM RL training via Shapley-Owen values on semantic coalitions to improve token-level credit assignment without parametric value models.

blue midi dress

fields

years

verdicts

representative citing papers

citing papers explorer