Direct preference optimization: Your lan- guage model is secretly a reward model.Advances in neural information processing systems, 36:53728–53741

[Rafailovet al · 2023

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

representative citing papers

Online Self-Calibration Against Hallucination in Vision-Language Models

cs.CV · 2026-05-01 · unverdicted · novelty 6.0

OSCAR exploits the generative-discriminative gap in LVLMs to build online preference data with MCTS and dual-granularity rewards for DPO-based calibration, claiming SOTA hallucination reduction and improved multimodal performance.

GRPO-TTA: Test-Time Visual Tuning for Vision-Language Models via GRPO-Driven Reinforcement Learning

cs.CV · 2026-05-05 · unverdicted · novelty 5.0

GRPO-TTA reformulates test-time adaptation for vision-language models as group-wise policy optimization via top-K sampling from CLIP distributions and alignment/dispersion rewards to tune the visual encoder.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Online Self-Calibration Against Hallucination in Vision-Language Models cs.CV · 2026-05-01 · unverdicted · none · ref 21
OSCAR exploits the generative-discriminative gap in LVLMs to build online preference data with MCTS and dual-granularity rewards for DPO-based calibration, claiming SOTA hallucination reduction and improved multimodal performance.
GRPO-TTA: Test-Time Visual Tuning for Vision-Language Models via GRPO-Driven Reinforcement Learning cs.CV · 2026-05-05 · unverdicted · none · ref 26
GRPO-TTA reformulates test-time adaptation for vision-language models as group-wise policy optimization via top-K sampling from CLIP distributions and alignment/dispersion rewards to tune the visual encoder.

Direct preference optimization: Your lan- guage model is secretly a reward model.Advances in neural information processing systems, 36:53728–53741

fields

years

verdicts

representative citing papers

citing papers explorer