Furthermore, we identify the Self-Contra issue in RFT and propose a novel LoCo-RFT paradigm to mitigate it by rewarding faithful reasoning

CONCLUSION In this work, we introduce WeatherQA, a novel multimodal reasoning benchmark for meteorology

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Weather-R1: Logically Consistent Reinforcement Fine-Tuning for Multimodal Reasoning in Meteorology

cs.CV · 2026-01-20 · conditional · novelty 7.0

Weather-R1 is a multimodal reasoning model for meteorology that uses logical consistency rewards during reinforcement fine-tuning to cut self-contradictory outputs and raises benchmark accuracy by 9.8 points over baselines.

citing papers explorer

Showing 1 of 1 citing paper.

Weather-R1: Logically Consistent Reinforcement Fine-Tuning for Multimodal Reasoning in Meteorology cs.CV · 2026-01-20 · conditional · none · ref 4
Weather-R1 is a multimodal reasoning model for meteorology that uses logical consistency rewards during reinforcement fine-tuning to cut self-contradictory outputs and raises benchmark accuracy by 9.8 points over baselines.

Furthermore, we identify the Self-Contra issue in RFT and propose a novel LoCo-RFT paradigm to mitigate it by rewarding faithful reasoning

fields

years

verdicts

representative citing papers

citing papers explorer