Title resolution pending

Direct preference optimization: Your language model is secretly a reward model · 2023 · arXiv 2411.10227

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

Title metadata for this work has not finished resolving. The hub is built from the citation graph; the title resolver retries DOI and OpenAlex on its next pass.

representative citing papers

Human Label Variation as Stable Signal: Learning Annotator-Specific Explanation Behavior via Cross-Annotator Preference Optimization

cs.CL · 2026-05-27 · unverdicted · novelty 6.0

LLMs can learn annotator-specific label-explanation behavior from human label variation via cross-annotator preference optimization, outperforming prompting and standard fine-tuning on two sentence-pair tasks.

citing papers explorer

Showing 1 of 1 citing paper.

Human Label Variation as Stable Signal: Learning Annotator-Specific Explanation Behavior via Cross-Annotator Preference Optimization cs.CL · 2026-05-27 · unverdicted · none · ref 5
LLMs can learn annotator-specific label-explanation behavior from human label variation via cross-annotator preference optimization, outperforming prompting and standard fine-tuning on two sentence-pair tasks.

Title resolution pending

fields

years

verdicts

representative citing papers

citing papers explorer