{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:I5D2TXP4ZATAWSJLOGSA6B4GQW","short_pith_number":"pith:I5D2TXP4","schema_version":"1.0","canonical_sha256":"4747a9ddfcc8260b492b71a40f078685bcb36c58f1254a98253e3328b54685dd","source":{"kind":"arxiv","id":"2503.05132","version":2},"attestation_state":"computed","paper":{"title":"R1-Zero's \"Aha Moment\" in Visual Reasoning on a 2B Non-SFT Model","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Cho-Jui Hsieh, Hengguang Zhou, Minhao Cheng, Ruochen Wang, Tianyi Zhou, Xirui Li","submitted_at":"2025-03-07T04:21:47Z","abstract_excerpt":"Recently DeepSeek R1 demonstrated how reinforcement learning with simple rule-based incentives can enable autonomous development of complex reasoning in large language models, characterized by the \"aha moment\", in which the model manifest self-reflection and increased response length during training. However, attempts to extend this success to multimodal reasoning often failed to reproduce these key characteristics. In this report, we present the first successful replication of these emergent characteristics for multimodal reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and app"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2503.05132","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2025-03-07T04:21:47Z","cross_cats_sorted":["cs.CV","cs.LG"],"title_canon_sha256":"b33cc3ddbc1eea765ae5b4de4ec8530c484950f1bb7871d70fa4769b9335cc53","abstract_canon_sha256":"09099a3415debc8180936d340334708ac4f921ecf1c4ec19398112305547f649"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-19T07:09:20.917394Z","signature_b64":"62ynZGPLK+ykpzjdUCSnZtr/z1GPPRYMZHWNkVqDRX5BNfFrUd2ij2BLcy7Sl39Bi4xC46PEWZHJoKQg+r7XBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"4747a9ddfcc8260b492b71a40f078685bcb36c58f1254a98253e3328b54685dd","last_reissued_at":"2026-05-19T07:09:20.914616Z","signature_status":"signed_v1","first_computed_at":"2026-05-19T07:09:20.914616Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"R1-Zero's \"Aha Moment\" in Visual Reasoning on a 2B Non-SFT Model","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Cho-Jui Hsieh, Hengguang Zhou, Minhao Cheng, Ruochen Wang, Tianyi Zhou, Xirui Li","submitted_at":"2025-03-07T04:21:47Z","abstract_excerpt":"Recently DeepSeek R1 demonstrated how reinforcement learning with simple rule-based incentives can enable autonomous development of complex reasoning in large language models, characterized by the \"aha moment\", in which the model manifest self-reflection and increased response length during training. However, attempts to extend this success to multimodal reasoning often failed to reproduce these key characteristics. In this report, we present the first successful replication of these emergent characteristics for multimodal reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and app"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2503.05132","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2503.05132/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2503.05132","created_at":"2026-05-19T07:09:20.914724+00:00"},{"alias_kind":"arxiv_version","alias_value":"2503.05132v2","created_at":"2026-05-19T07:09:20.914724+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2503.05132","created_at":"2026-05-19T07:09:20.914724+00:00"},{"alias_kind":"pith_short_12","alias_value":"I5D2TXP4ZATA","created_at":"2026-05-19T07:09:20.914724+00:00"},{"alias_kind":"pith_short_16","alias_value":"I5D2TXP4ZATAWSJL","created_at":"2026-05-19T07:09:20.914724+00:00"},{"alias_kind":"pith_short_8","alias_value":"I5D2TXP4","created_at":"2026-05-19T07:09:20.914724+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":23,"internal_anchor_count":23,"sample":[{"citing_arxiv_id":"2605.16883","citing_title":"SE-GA: Memory-Augmented Self-Evolution for GUI Agents","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11651","citing_title":"Hide to See: Reasoning-prefix Masking for Visual-anchored Thinking in VLM Distillation","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2506.20332","citing_title":"Mobile-R1: Towards Interactive Capability for VLM-Based Mobile Agent via Systematic Training","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2503.17352","citing_title":"OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles","ref_index":95,"is_internal_anchor":true},{"citing_arxiv_id":"2509.02547","citing_title":"The Landscape of Agentic Reinforcement Learning for LLMs: A Survey","ref_index":242,"is_internal_anchor":true},{"citing_arxiv_id":"2509.21976","citing_title":"Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2509.07969","citing_title":"Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2601.09536","citing_title":"Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2503.15558","citing_title":"Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2503.21620","citing_title":"UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2504.06958","citing_title":"VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2503.12605","citing_title":"Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey","ref_index":248,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11651","citing_title":"Hide to See: Reasoning-prefix Masking for Visual-anchored Thinking in VLM Distillation","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11651","citing_title":"Hide to See: Reasoning-prefix Masking for Visual-anchored Thinking in VLM Distillation","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2502.17419","citing_title":"From System 1 to System 2: A Survey of Reasoning Large Language Models","ref_index":291,"is_internal_anchor":true},{"citing_arxiv_id":"2504.07615","citing_title":"VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00663","citing_title":"Affordance Agent Harness: Verification-Gated Skill Orchestration","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19218","citing_title":"Thinking Before Matching: A Reinforcement Reasoning Paradigm Towards General Person Re-Identification","ref_index":58,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00663","citing_title":"Affordance Agent Harness: Verification-Gated Skill Orchestration","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07353","citing_title":"Confidence-Aware Alignment Makes Reasoning LLMs More Reliable","ref_index":58,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06725","citing_title":"Enhancing MLLM Spatial Understanding via Active 3D Scene Exploration for Multi-Perspective Reasoning","ref_index":63,"is_internal_anchor":true},{"citing_arxiv_id":"2604.04379","citing_title":"Reinforce to Learn, Elect to Reason: A Dual Paradigm for Video Reasoning","ref_index":57,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18839","citing_title":"One Step Forward and K Steps Back: Better Reasoning with Denoising Recursion Models","ref_index":152,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/I5D2TXP4ZATAWSJLOGSA6B4GQW","json":"https://pith.science/pith/I5D2TXP4ZATAWSJLOGSA6B4GQW.json","graph_json":"https://pith.science/api/pith-number/I5D2TXP4ZATAWSJLOGSA6B4GQW/graph.json","events_json":"https://pith.science/api/pith-number/I5D2TXP4ZATAWSJLOGSA6B4GQW/events.json","paper":"https://pith.science/paper/I5D2TXP4"},"agent_actions":{"view_html":"https://pith.science/pith/I5D2TXP4ZATAWSJLOGSA6B4GQW","download_json":"https://pith.science/pith/I5D2TXP4ZATAWSJLOGSA6B4GQW.json","view_paper":"https://pith.science/paper/I5D2TXP4","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2503.05132&json=true","fetch_graph":"https://pith.science/api/pith-number/I5D2TXP4ZATAWSJLOGSA6B4GQW/graph.json","fetch_events":"https://pith.science/api/pith-number/I5D2TXP4ZATAWSJLOGSA6B4GQW/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/I5D2TXP4ZATAWSJLOGSA6B4GQW/action/timestamp_anchor","attest_storage":"https://pith.science/pith/I5D2TXP4ZATAWSJLOGSA6B4GQW/action/storage_attestation","attest_author":"https://pith.science/pith/I5D2TXP4ZATAWSJLOGSA6B4GQW/action/author_attestation","sign_citation":"https://pith.science/pith/I5D2TXP4ZATAWSJLOGSA6B4GQW/action/citation_signature","submit_replication":"https://pith.science/pith/I5D2TXP4ZATAWSJLOGSA6B4GQW/action/replication_record"}},"created_at":"2026-05-19T07:09:20.914724+00:00","updated_at":"2026-05-19T07:09:20.914724+00:00"}