Adavip: Aligning multi-modal llms via adaptive vision- enhanced preference optimization, 2025a

Lu, J · arXiv 2504.15619

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Experience Augmented Policy Optimization for LLM Reasoning

cs.LG · 2026-06-29 · unverdicted · novelty 5.0

EAPO reuses prior RL policy experience adaptively at decision points in LLM rollouts with adapted importance sampling and reports gains over prior RLVR methods on math benchmarks.

citing papers explorer

Showing 1 of 1 citing paper.

Experience Augmented Policy Optimization for LLM Reasoning cs.LG · 2026-06-29 · unverdicted · none · ref 9
EAPO reuses prior RL policy experience adaptively at decision points in LLM rollouts with adapted importance sampling and reports gains over prior RLVR methods on math benchmarks.

Adavip: Aligning multi-modal llms via adaptive vision- enhanced preference optimization, 2025a

fields

years

verdicts

representative citing papers

citing papers explorer