{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2025:OCYZW2WGJ3TAQCHDRDADYFENAL","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"96498b0f0f1524900019ecacd3cffafbb3686a8b0da23ad7467db86874b9071b","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2025-03-03T18:16:32Z","title_canon_sha256":"4feb024d94b70d42e09917ec358fc74a6a2dbfe6a4d7d6621d55fc13747a0e30"},"schema_version":"1.0","source":{"id":"2503.01785","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2503.01785","created_at":"2026-05-18T04:29:17Z"},{"alias_kind":"arxiv_version","alias_value":"2503.01785v1","created_at":"2026-05-18T04:29:17Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2503.01785","created_at":"2026-05-18T04:29:17Z"},{"alias_kind":"pith_short_12","alias_value":"OCYZW2WGJ3TA","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"OCYZW2WGJ3TAQCHD","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"OCYZW2WG","created_at":"2026-05-18T12:33:37Z"}],"graph_snapshots":[{"event_id":"sha256:68a217653aef7dc5f197c326c060054accbdf479902c94d481b099e85718b60c","target":"graph","created_at":"2026-05-18T04:29:17Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"Visual-RFT improves accuracy by 24.3% over the baseline in one-shot fine-grained image classification with around 100 samples and exceeds the baseline by 21.9 on COCO's two-shot setting."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That the visual perception verifiable reward functions (e.g., IoU) provide sufficiently dense and unbiased signals to guide policy optimization without introducing new failure modes not present in language-only RFT."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"Visual-RFT applies reinforcement learning with verifiable perception rewards to improve large vision-language models on fine-grained classification, few-shot detection, and grounding tasks."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"Visual-RFT lets large vision-language models learn visual tasks from perceptual rewards instead of labeled data."}],"snapshot_sha256":"8076afea17fa7125bd56efb0afa36d68826a481619bf10d58d86d523ea1c3055"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Reinforcement Fine-Tuning (RFT) in Large Reasoning Models like OpenAI o1 learns from feedback on its answers, which is especially useful in applications when fine-tuning data is scarce. Recent open-source work like DeepSeek-R1 demonstrates that reinforcement learning with verifiable reward is one key direction in reproducing o1. While the R1-style model has demonstrated success in language models, its application in multi-modal domains remains under-explored. This work introduces Visual Reinforcement Fine-Tuning (Visual-RFT), which further extends the application areas of RFT on visual tasks. ","authors_text":"Dahua Lin, Haodong Duan, Jiaqi Wang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Zeyi Sun, Ziyu Liu","cross_cats":[],"headline":"Visual-RFT lets large vision-language models learn visual tasks from perceptual rewards instead of labeled data.","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2025-03-03T18:16:32Z","title":"Visual-RFT: Visual Reinforcement Fine-Tuning"},"references":{"count":52,"internal_anchors":19,"resolved_work":52,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"Lmrl gym: Benchmarks for multi-turn reinforcement learn- ing with language models","work_id":"bad1baad-5c3f-4456-ac96-29c8f5e78bfb","year":null},{"cited_arxiv_id":"2403.17297","doi":"","is_internal_anchor":true,"ref_index":2,"title":"InternLM2 Technical Report","work_id":"dfa13e0e-1c3c-4fb6-943d-a19945bacdbe","year":2024},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":3,"title":"Grounding large language models in interactive environments with on- line reinforcement learning","work_id":"3086d7ff-f5e3-4593-9700-3603bad5be12","year":2023},{"cited_arxiv_id":"2501.12948","doi":"","is_internal_anchor":true,"ref_index":4,"title":"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning","work_id":"e6b75ad5-2877-4168-97c8-710407094d20","year":2025},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":5,"title":"Lvis: A dataset for large vocabulary instance segmentation","work_id":"d2430c96-329f-4510-aaa0-74f084edb36d","year":2019}],"snapshot_sha256":"093104e5a7a3d56c18936c23fdb27b5fd0a3cb53533ee3d4794f03e915dcfa41"},"source":{"id":"2503.01785","kind":"arxiv","version":1},"verdict":{"created_at":"2026-05-13T22:11:14.863124Z","id":"1829aa0f-ed0e-4ff8-8bd7-dcac36f656d3","model_set":{"reader":"grok-4.3"},"one_line_summary":"Visual-RFT applies reinforcement learning with verifiable perception rewards to improve large vision-language models on fine-grained classification, few-shot detection, and grounding tasks.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"Visual-RFT lets large vision-language models learn visual tasks from perceptual rewards instead of labeled data.","strongest_claim":"Visual-RFT improves accuracy by 24.3% over the baseline in one-shot fine-grained image classification with around 100 samples and exceeds the baseline by 21.9 on COCO's two-shot setting.","weakest_assumption":"That the visual perception verifiable reward functions (e.g., IoU) provide sufficiently dense and unbiased signals to guide policy optimization without introducing new failure modes not present in language-only RFT."}},"verdict_id":"1829aa0f-ed0e-4ff8-8bd7-dcac36f656d3"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:00cf7c55f34ba4d7fe6ccacadfc901483524f1915dda16bdf5c353be25f6dadf","target":"record","created_at":"2026-05-18T04:29:17Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"96498b0f0f1524900019ecacd3cffafbb3686a8b0da23ad7467db86874b9071b","cross_cats_sorted":[],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2025-03-03T18:16:32Z","title_canon_sha256":"4feb024d94b70d42e09917ec358fc74a6a2dbfe6a4d7d6621d55fc13747a0e30"},"schema_version":"1.0","source":{"id":"2503.01785","kind":"arxiv","version":1}},"canonical_sha256":"70b19b6ac64ee60808e388c03c148d02d884f91dfbe3eb35f5fc7c09d811dc89","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"70b19b6ac64ee60808e388c03c148d02d884f91dfbe3eb35f5fc7c09d811dc89","first_computed_at":"2026-05-18T04:29:17.081188Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T04:29:17.081188Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"H2yBVUM5xSjXbVwdS53zSf+qodiwYkik7DQZqSi0QZg4qwjvNGW5hp5rfLa8GhjwCk0tOnPewbhndcH9mByaBg==","signature_status":"signed_v1","signed_at":"2026-05-18T04:29:17.081672Z","signed_message":"canonical_sha256_bytes"},"source_id":"2503.01785","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:00cf7c55f34ba4d7fe6ccacadfc901483524f1915dda16bdf5c353be25f6dadf","sha256:68a217653aef7dc5f197c326c060054accbdf479902c94d481b099e85718b60c"],"state_sha256":"16001ced0458b6965a8a2a05102fd25594d4664497dfca5f8754d513936e16f2"}