Introducing gpt-oss, 2025

OpenAI · 2025

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

citation-role summary

method 1

citation-polarity summary

use method 1

representative citing papers

Reflective Prompted Policy Optimization: Trajectory-Grounded Revision and Salience Bias

cs.LG · 2026-05-08 · unverdicted · novelty 6.0

Reflective Prompted Policy Optimization uses a Critic-LLM to inspect full trajectories and propose grounded revisions, yielding higher mean best rewards, faster near-optimal performance, and greater stability than scalar-reward baselines across ten environments.

Back into Plato's Cave: Examining Cross-modal Representational Convergence at Scale

cs.CV · 2026-04-20

citing papers explorer

Showing 1 of 1 citing paper after filters.

Reflective Prompted Policy Optimization: Trajectory-Grounded Revision and Salience Bias cs.LG · 2026-05-08 · unverdicted · none · ref 13
Reflective Prompted Policy Optimization uses a Critic-LLM to inspect full trajectories and propose grounded revisions, yielding higher mean best rewards, faster near-optimal performance, and greater stability than scalar-reward baselines across ten environments.

Introducing gpt-oss, 2025

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer