{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2025:I5D2TXP4ZATAWSJLOGSA6B4GQW","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"09099a3415debc8180936d340334708ac4f921ecf1c4ec19398112305547f649","cross_cats_sorted":["cs.CV","cs.LG"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2025-03-07T04:21:47Z","title_canon_sha256":"b33cc3ddbc1eea765ae5b4de4ec8530c484950f1bb7871d70fa4769b9335cc53"},"schema_version":"1.0","source":{"id":"2503.05132","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2503.05132","created_at":"2026-05-19T07:09:20Z"},{"alias_kind":"arxiv_version","alias_value":"2503.05132v2","created_at":"2026-05-19T07:09:20Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2503.05132","created_at":"2026-05-19T07:09:20Z"},{"alias_kind":"pith_short_12","alias_value":"I5D2TXP4ZATA","created_at":"2026-05-19T07:09:20Z"},{"alias_kind":"pith_short_16","alias_value":"I5D2TXP4ZATAWSJL","created_at":"2026-05-19T07:09:20Z"},{"alias_kind":"pith_short_8","alias_value":"I5D2TXP4","created_at":"2026-05-19T07:09:20Z"}],"graph_snapshots":[{"event_id":"sha256:67160fc3a6713a97ea474a9e10ee8af76f7f752ae82879c2559172c25c12b5fd","target":"graph","created_at":"2026-05-19T07:09:20Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2503.05132/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Recently DeepSeek R1 demonstrated how reinforcement learning with simple rule-based incentives can enable autonomous development of complex reasoning in large language models, characterized by the \"aha moment\", in which the model manifest self-reflection and increased response length during training. However, attempts to extend this success to multimodal reasoning often failed to reproduce these key characteristics. In this report, we present the first successful replication of these emergent characteristics for multimodal reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and app","authors_text":"Cho-Jui Hsieh, Hengguang Zhou, Minhao Cheng, Ruochen Wang, Tianyi Zhou, Xirui Li","cross_cats":["cs.CV","cs.LG"],"headline":"","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2025-03-07T04:21:47Z","title":"R1-Zero's \"Aha Moment\" in Visual Reasoning on a 2B Non-SFT Model"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2503.05132","kind":"arxiv","version":2},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:e7ab3cd706c758e46348daa6b3806e2a4bce4e4c8b3b0c5a834435aa4e708b59","target":"record","created_at":"2026-05-19T07:09:20Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"09099a3415debc8180936d340334708ac4f921ecf1c4ec19398112305547f649","cross_cats_sorted":["cs.CV","cs.LG"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2025-03-07T04:21:47Z","title_canon_sha256":"b33cc3ddbc1eea765ae5b4de4ec8530c484950f1bb7871d70fa4769b9335cc53"},"schema_version":"1.0","source":{"id":"2503.05132","kind":"arxiv","version":2}},"canonical_sha256":"4747a9ddfcc8260b492b71a40f078685bcb36c58f1254a98253e3328b54685dd","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"4747a9ddfcc8260b492b71a40f078685bcb36c58f1254a98253e3328b54685dd","first_computed_at":"2026-05-19T07:09:20.914616Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-19T07:09:20.914616Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"62ynZGPLK+ykpzjdUCSnZtr/z1GPPRYMZHWNkVqDRX5BNfFrUd2ij2BLcy7Sl39Bi4xC46PEWZHJoKQg+r7XBg==","signature_status":"signed_v1","signed_at":"2026-05-19T07:09:20.917394Z","signed_message":"canonical_sha256_bytes"},"source_id":"2503.05132","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:e7ab3cd706c758e46348daa6b3806e2a4bce4e4c8b3b0c5a834435aa4e708b59","sha256:67160fc3a6713a97ea474a9e10ee8af76f7f752ae82879c2559172c25c12b5fd"],"state_sha256":"ab162a329898dc31f87f4ed435a97053c92d8c7efbdc3b32e3cd4a0526a472a5"}