Jointly reinforcing diversity and quality in language model generations

Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang · 2025

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

cs.CL · 2026-05-11 · unverdicted · novelty 7.0

Diversity collapse in LLMs arises from order and shape miscalibration in token probability distributions at inference time, not from sampling methods.

Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

cs.CL · 2026-05-14 · unverdicted · novelty 6.0

CIPO jointly optimizes standard RLVR rewards with correction samples derived from the model's own failed attempts, yielding better reasoning and self-correction on math and code benchmarks.

citing papers explorer

Showing 2 of 2 citing papers.

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs cs.CL · 2026-05-11 · unverdicted · none · ref 25
Diversity collapse in LLMs arises from order and shape miscalibration in token probability distributions at inference time, not from sampling methods.
Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards cs.CL · 2026-05-14 · unverdicted · none · ref 22
CIPO jointly optimizes standard RLVR rewards with correction samples derived from the model's own failed attempts, yielding better reasoning and self-correction on math and code benchmarks.

Jointly reinforcing diversity and quality in language model generations

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer