Rewardsharpness-awarefine-tuningfordiffusionmodels

KwanyoungKimandByeongsuSim · 2026 · arXiv 2603.21175

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning

cs.LG · 2026-06-26 · unverdicted · novelty 6.0

NormGuard adds a training-time hinge penalty on velocity norm inflation in flow-matching RL to improve MLLM-judged image quality and forensic realism while preserving reward across multiple setups.

citing papers explorer

Showing 1 of 1 citing paper.

NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning cs.LG · 2026-06-26 · unverdicted · none · ref 9
NormGuard adds a training-time hinge penalty on velocity norm inflation in flow-matching RL to improve MLLM-judged image quality and forensic realism while preserving reward across multiple setups.

Rewardsharpness-awarefine-tuningfordiffusionmodels

fields

years

verdicts

representative citing papers

citing papers explorer