{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:OPOV5ZMKBHVJAL765RJW3ZR6NU","short_pith_number":"pith:OPOV5ZMK","schema_version":"1.0","canonical_sha256":"73dd5ee58a09ea902ffeec536de63e6d25a25a45d4b04594ac2584b7aa0b6ef8","source":{"kind":"arxiv","id":"2503.12937","version":2},"attestation_state":"computed","paper":{"title":"R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Step-wise reinforcement learning enables multimodal models to improve their own reasoning beyond imitation.","cross_cats":["cs.CL","cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Dacheng Tao, Huanjin Yao, Jiaxing Huang, Jingyi Zhang, Shijian Lu, Shunyu Liu, Xikun Zhang","submitted_at":"2025-03-17T08:51:44Z","abstract_excerpt":"Recent studies generally enhance MLLMs' reasoning capabilities via supervised fine-tuning on high-quality chain-of-thought reasoning data, which often leads models to merely imitate successful reasoning paths without understanding what the wrong reasoning paths are. In this work, we aim to enhance the MLLMs' reasoning ability beyond passively imitating positive reasoning paths. To this end, we design Step-wise Group Relative Policy Optimization (StepGRPO), a new online reinforcement learning framework that enables MLLMs to self-improve reasoning ability via simple, effective and dense step-wis"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2503.12937","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2025-03-17T08:51:44Z","cross_cats_sorted":["cs.CL","cs.CV","cs.LG"],"title_canon_sha256":"065382bfc88dc23099bc45466e988625a4a530f16d05101c5cff3fb7a6301b37","abstract_canon_sha256":"2dae2665f2ff37d01907db2977b6e7d871d6e7c1dbba62aa21f45ff6f31cbf12"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:47.503154Z","signature_b64":"TpLCmgmLj77F0kcngNybQ7jIKDXfja/otzxV8Bv4zYHnDDAffUy2Rfc4yY1RAcqS1kNEMdSMNo+6Ce3dyAIEAQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"73dd5ee58a09ea902ffeec536de63e6d25a25a45d4b04594ac2584b7aa0b6ef8","last_reissued_at":"2026-05-17T23:38:47.502673Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:47.502673Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Step-wise reinforcement learning enables multimodal models to improve their own reasoning beyond imitation.","cross_cats":["cs.CL","cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Dacheng Tao, Huanjin Yao, Jiaxing Huang, Jingyi Zhang, Shijian Lu, Shunyu Liu, Xikun Zhang","submitted_at":"2025-03-17T08:51:44Z","abstract_excerpt":"Recent studies generally enhance MLLMs' reasoning capabilities via supervised fine-tuning on high-quality chain-of-thought reasoning data, which often leads models to merely imitate successful reasoning paths without understanding what the wrong reasoning paths are. In this work, we aim to enhance the MLLMs' reasoning ability beyond passively imitating positive reasoning paths. To this end, we design Step-wise Group Relative Policy Optimization (StepGRPO), a new online reinforcement learning framework that enables MLLMs to self-improve reasoning ability via simple, effective and dense step-wis"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"With the proposed StepGRPO, we introduce R1-VL, a series of MLLMs with outstanding capabilities in step-by-step reasoning. Extensive experiments over 8 benchmarks demonstrate the superiority of our methods.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The rule-based StepRAR and StepRVR rewards accurately identify necessary and logically sound reasoning steps without introducing bias or rewarding superficial patterns that do not reflect true understanding.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"R1-VL uses StepGRPO with rule-based StepRAR and StepRVR rewards to let MLLMs learn step-by-step reasoning beyond imitation of positive paths.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Step-wise reinforcement learning enables multimodal models to improve their own reasoning beyond imitation.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"9981077fccd724e6bf512dd79966b64c92c25c7eca8f6570b9e047e9a0354caf"},"source":{"id":"2503.12937","kind":"arxiv","version":2},"verdict":{"id":"0ec518c3-bb2d-4666-9be2-a66ec6fe1948","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T14:59:54.216667Z","strongest_claim":"With the proposed StepGRPO, we introduce R1-VL, a series of MLLMs with outstanding capabilities in step-by-step reasoning. Extensive experiments over 8 benchmarks demonstrate the superiority of our methods.","one_line_summary":"R1-VL uses StepGRPO with rule-based StepRAR and StepRVR rewards to let MLLMs learn step-by-step reasoning beyond imitation of positive paths.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The rule-based StepRAR and StepRVR rewards accurately identify necessary and logically sound reasoning steps without introducing bias or rewarding superficial patterns that do not reflect true understanding.","pith_extraction_headline":"Step-wise reinforcement learning enables multimodal models to improve their own reasoning beyond imitation."},"references":{"count":57,"sample":[{"doi":"","year":2024,"title":"Claude 3.5 sonnet, 2024","work_id":"b72d9c68-3a94-4a1a-92b1-eb1a97352e5f","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Qwen2.5-VL Technical Report","work_id":"69dffacb-bfe8-442d-be86-48624c60426f","ref_index":2,"cited_arxiv_id":"2502.13923","is_internal_anchor":true},{"doi":"","year":2022,"title":"Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback","work_id":"a1f2574b-a899-4713-be60-c87ba332656c","ref_index":3,"cited_arxiv_id":"2204.05862","is_internal_anchor":true},{"doi":"","year":1901,"title":"Lan- guage models are few-shot learners","work_id":"5b23bebc-10b7-4150-9a97-e3f37825079e","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"arXiv preprint arXiv:2406.10858 , year=","work_id":"2523ac3a-94a4-4667-a2ce-de8ecadb2936","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":57,"snapshot_sha256":"c7bcb0b619aa1a5c59c53dd876f2931341fd9459117f9da8da3b08a10c942e14","internal_anchors":24},"formal_canon":{"evidence_count":3,"snapshot_sha256":"33bd4268d721bb47534d28f93bb8333b277175ca0a5870078de40cdc32ad31a5"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2503.12937","created_at":"2026-05-17T23:38:47.502748+00:00"},{"alias_kind":"arxiv_version","alias_value":"2503.12937v2","created_at":"2026-05-17T23:38:47.502748+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2503.12937","created_at":"2026-05-17T23:38:47.502748+00:00"},{"alias_kind":"pith_short_12","alias_value":"OPOV5ZMKBHVJ","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"OPOV5ZMKBHVJAL76","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"OPOV5ZMK","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":31,"internal_anchor_count":31,"sample":[{"citing_arxiv_id":"2605.23281","citing_title":"DepthAgent: Towards Better Universal Depth Estimation via Sample-wise Expert Selection","ref_index":78,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14068","citing_title":"CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18903","citing_title":"Reasoning Portability: Guiding Continual Learning for MLLMs in the RLVR Era","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20164","citing_title":"Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2506.16796","citing_title":"RealSR-R1: Reinforcement Learning for Real-World Image Super-Resolution with Vision-Language Chain-of-Thought","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2503.17352","citing_title":"OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2507.00748","citing_title":"Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning","ref_index":51,"is_internal_anchor":true},{"citing_arxiv_id":"2507.05920","citing_title":"High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2508.19652","citing_title":"Self-Rewarding Vision-Language Model via Reasoning Decomposition","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2509.02547","citing_title":"The Landscape of Agentic Reinforcement Learning for LLMs: A Survey","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2509.07969","citing_title":"Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2505.15436","citing_title":"Adaptive Chain-of-Focus Reasoning via Dynamic Visual Search and Zooming for Efficient VLMs","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2511.19972","citing_title":"Boosting Reasoning in Large Multimodal Models via Activation Replay","ref_index":59,"is_internal_anchor":true},{"citing_arxiv_id":"2601.06993","citing_title":"Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2602.09782","citing_title":"Flexible Entropy Control in RLVR with a Gradient-Preserving Perspective","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2504.06958","citing_title":"VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2503.12605","citing_title":"Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey","ref_index":250,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14068","citing_title":"CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03318","citing_title":"EgoMind: Activating Spatial Cognition through Linguistic Reasoning in MLLMs","ref_index":56,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11922","citing_title":"StepCodeReasoner: Aligning Code Reasoning with Stepwise Execution Traces via Reinforcement Learning","ref_index":77,"is_internal_anchor":true},{"citing_arxiv_id":"2502.17419","citing_title":"From System 1 to System 2: A Survey of Reasoning Large Language Models","ref_index":260,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03485","citing_title":"MHPR: Multidimensional Human Perception and Reasoning Benchmark for Large Vision-Languate Models","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2604.22498","citing_title":"CGC: Compositional Grounded Contrast for Fine-Grained Multi-Image Understanding","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06179","citing_title":"SuperFace: Preference-Aligned Facial Expression Estimation Beyond Pseudo Supervision","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21268","citing_title":"Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding","ref_index":74,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":3,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/OPOV5ZMKBHVJAL765RJW3ZR6NU","json":"https://pith.science/pith/OPOV5ZMKBHVJAL765RJW3ZR6NU.json","graph_json":"https://pith.science/api/pith-number/OPOV5ZMKBHVJAL765RJW3ZR6NU/graph.json","events_json":"https://pith.science/api/pith-number/OPOV5ZMKBHVJAL765RJW3ZR6NU/events.json","paper":"https://pith.science/paper/OPOV5ZMK"},"agent_actions":{"view_html":"https://pith.science/pith/OPOV5ZMKBHVJAL765RJW3ZR6NU","download_json":"https://pith.science/pith/OPOV5ZMKBHVJAL765RJW3ZR6NU.json","view_paper":"https://pith.science/paper/OPOV5ZMK","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2503.12937&json=true","fetch_graph":"https://pith.science/api/pith-number/OPOV5ZMKBHVJAL765RJW3ZR6NU/graph.json","fetch_events":"https://pith.science/api/pith-number/OPOV5ZMKBHVJAL765RJW3ZR6NU/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/OPOV5ZMKBHVJAL765RJW3ZR6NU/action/timestamp_anchor","attest_storage":"https://pith.science/pith/OPOV5ZMKBHVJAL765RJW3ZR6NU/action/storage_attestation","attest_author":"https://pith.science/pith/OPOV5ZMKBHVJAL765RJW3ZR6NU/action/author_attestation","sign_citation":"https://pith.science/pith/OPOV5ZMKBHVJAL765RJW3ZR6NU/action/citation_signature","submit_replication":"https://pith.science/pith/OPOV5ZMKBHVJAL765RJW3ZR6NU/action/replication_record"}},"created_at":"2026-05-17T23:38:47.502748+00:00","updated_at":"2026-05-17T23:38:47.502748+00:00"}