Comparing Bad Apples to Good Oranges Aligning Large Language Models via Joint Preference Optimization

Bansal, Hritik, Suvarna, Ashima, Bhatt, Gantavya, Peng, Nanyun, Chang, Kai-Wei, Grover, Aditya · 2025 · DOI 10.18653/v1/2025.findings-acl.39

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

open at publisher browse 1 citing papers

representative citing papers

Beyond Overlap Metrics: Rewarding Reasoning and Preferences for Faithful Multi-Role Dialogue Summarization

cs.CL · 2026-04-19 · unverdicted · novelty 5.0

A reasoning-distillation plus dual-reward GRPO method for multi-role dialogue summarization matches ROUGE and BERTScore baselines while improving factual faithfulness and preference alignment on CSDS and SAMSum.

citing papers explorer

Showing 1 of 1 citing paper.

Beyond Overlap Metrics: Rewarding Reasoning and Preferences for Faithful Multi-Role Dialogue Summarization cs.CL · 2026-04-19 · unverdicted · none · ref 45
A reasoning-distillation plus dual-reward GRPO method for multi-role dialogue summarization matches ROUGE and BERTScore baselines while improving factual faithfulness and preference alignment on CSDS and SAMSum.

Comparing Bad Apples to Good Oranges Aligning Large Language Models via Joint Preference Optimization

fields

years

verdicts

representative citing papers

citing papers explorer