Beyond training objectives: Interpreting reward model divergence in large language models

Luke Marks, Amir Abdullah, Clement Neo, Rauno Arike, Philip Torr, Fazl Barez · 2023

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Preference Learning Unlocks LLMs' Psycho-Counseling Skills

cs.CL · 2025-02-27 · conditional · novelty 6.0

A new expert-principle preference dataset enables an 8B LLM to reach 87% win rate vs GPT-4o on counseling responses through standard preference optimization.

citing papers explorer

Showing 1 of 1 citing paper.

Preference Learning Unlocks LLMs' Psycho-Counseling Skills cs.CL · 2025-02-27 · conditional · none · ref 20
A new expert-principle preference dataset enables an 8B LLM to reach 87% win rate vs GPT-4o on counseling responses through standard preference optimization.

Beyond training objectives: Interpreting reward model divergence in large language models

fields

years

verdicts

representative citing papers

citing papers explorer