Safe- grpo: Self-rewarded multimodal safety alignment via rule-governed policy optimization.CoRR, abs/2511.12982, 2025

Xuankun Rong, Wenke Huang, Tingfeng Wang, Daiguo Zhou, Bo Du, Mang Ye · 2025 · arXiv 2511.12982

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models

cs.CL · 2026-05-25 · unverdicted · novelty 7.0

MCPO applies contrastive learning to GRPO-style RL by treating cross-domain correct rollouts as positives and incorrect ones as negatives to improve multi-domain reasoning performance in LRMs.

citing papers explorer

Showing 1 of 1 citing paper after filters.

Harmony in Diversity: Multi-domain Contrastive Policy Optimization for Large Reasoning Models cs.CL · 2026-05-25 · unverdicted · none · ref 6
MCPO applies contrastive learning to GRPO-style RL by treating cross-domain correct rollouts as positives and incorrect ones as negatives to improve multi-domain reasoning performance in LRMs.

Safe- grpo: Self-rewarded multimodal safety alignment via rule-governed policy optimization.CoRR, abs/2511.12982, 2025

fields

years

verdicts

representative citing papers

citing papers explorer