Treerl: Llm reinforcement learning with on-policy tree search,

· 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Self-Distilled Reinforcement Learning for Co-Evolving Agentic Recommender Systems

cs.IR · 2026-04-11 · unverdicted · novelty 6.0

CoARS enables co-evolving recommender and user agents by using interaction-derived rewards and self-distilled credit assignment to internalize multi-turn feedback into model parameters, outperforming prior agentic baselines.

citing papers explorer

Showing 1 of 1 citing paper.

Self-Distilled Reinforcement Learning for Co-Evolving Agentic Recommender Systems cs.IR · 2026-04-11 · unverdicted · none · ref 22
CoARS enables co-evolving recommender and user agents by using interaction-derived rewards and self-distilled credit assignment to internalize multi-turn feedback into model parameters, outperforming prior agentic baselines.

Treerl: Llm reinforcement learning with on-policy tree search,

fields

years

verdicts

representative citing papers

citing papers explorer