{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:VITK3VBU5MEPLZ4MOALEG5VYZ6","short_pith_number":"pith:VITK3VBU","schema_version":"1.0","canonical_sha256":"aa26add434eb08f5e78c70164376b8cfb7ad667f77886f2511bf8d2db77f60c0","source":{"kind":"arxiv","id":"2503.10615","version":2},"attestation_state":"computed","paper":{"title":"R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Converting images to formal textual representations lets a new model reason more precisely about visual content and outperform GPT-4o on multimodal benchmarks.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Bo Zhang, Dacheng Yin, Fengyun Rao, Haoyu Lu, Hongkun Pan, Minfeng Zhu, Wei Chen, Xiaoxuan He, Xingtao Yang, Xiyan Jiang, Yan Deng, Yi Yang","submitted_at":"2025-03-13T17:56:05Z","abstract_excerpt":"Large Language Models have demonstrated remarkable reasoning capability in complex textual tasks. However, multimodal reasoning, which requires integrating visual and textual information, remains a significant challenge. Existing visual-language models often struggle to effectively analyze and reason visual content, resulting in suboptimal performance on complex reasoning tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate assessment of multimodal reasoning capabilities. In this paper, we introduce R1-Onevision, a multimodal reasoning model designed to bridge the gap "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2503.10615","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2025-03-13T17:56:05Z","cross_cats_sorted":[],"title_canon_sha256":"a834e22b8a0f74a52fd27e91bfd289fbbba20a0f8d0cae4148e740dde2f22644","abstract_canon_sha256":"d5c091666b3b7ee6e36740e3f46ddaba83dc06f3c49fa818841cd1f10fe06639"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:49.635538Z","signature_b64":"72qviIJB96ShGM5ItxbBRdgsMBvj7Rc9qoTNyRg9hHxCkteqzHYXnIxqDDcPSyIa1SrQx6Ms2/EaMFRpry0IDQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"aa26add434eb08f5e78c70164376b8cfb7ad667f77886f2511bf8d2db77f60c0","last_reissued_at":"2026-05-17T23:38:49.635056Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:49.635056Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Converting images to formal textual representations lets a new model reason more precisely about visual content and outperform GPT-4o on multimodal benchmarks.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Bo Zhang, Dacheng Yin, Fengyun Rao, Haoyu Lu, Hongkun Pan, Minfeng Zhu, Wei Chen, Xiaoxuan He, Xingtao Yang, Xiyan Jiang, Yan Deng, Yi Yang","submitted_at":"2025-03-13T17:56:05Z","abstract_excerpt":"Large Language Models have demonstrated remarkable reasoning capability in complex textual tasks. However, multimodal reasoning, which requires integrating visual and textual information, remains a significant challenge. Existing visual-language models often struggle to effectively analyze and reason visual content, resulting in suboptimal performance on complex reasoning tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate assessment of multimodal reasoning capabilities. In this paper, we introduce R1-Onevision, a multimodal reasoning model designed to bridge the gap "},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Experimental results show that R1-Onevision achieves state-of-the-art performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple challenging multimodal reasoning benchmarks.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The cross-modal reasoning pipeline that transforms images into formal textual representations enables precise language-based reasoning without loss of critical visual information.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"R1-Onevision turns images into structured text for multimodal reasoning, trains on a custom dataset with RL, and claims SOTA results on an educational benchmark.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Converting images to formal textual representations lets a new model reason more precisely about visual content and outperform GPT-4o on multimodal benchmarks.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"328bf0673f857cc04372ad3144a7057d20744b2d37143ae14c47bd62ad9a0d3d"},"source":{"id":"2503.10615","kind":"arxiv","version":2},"verdict":{"id":"5b1d824b-5318-486b-bc22-b1dab766e6b3","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T00:14:57.086487Z","strongest_claim":"Experimental results show that R1-Onevision achieves state-of-the-art performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple challenging multimodal reasoning benchmarks.","one_line_summary":"R1-Onevision turns images into structured text for multimodal reasoning, trains on a custom dataset with RL, and claims SOTA results on an educational benchmark.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The cross-modal reasoning pipeline that transforms images into formal textual representations enables precise language-based reasoning without loss of critical visual information.","pith_extraction_headline":"Converting images to formal textual representations lets a new model reason more precisely about visual content and outperform GPT-4o on multimodal benchmarks."},"references":{"count":52,"sample":[{"doi":"","year":null,"title":"GPT-4 Technical Report","work_id":"b928e041-6991-4c08-8c81-0359e4097c7b","ref_index":1,"cited_arxiv_id":"2303.08774","is_internal_anchor":true},{"doi":"","year":2024,"title":"Large language models for mathematical reasoning: Progresses and challenges","work_id":"d8278850-469f-40f1-8af5-cf634483852f","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Qwen2.5-VL Technical Report","work_id":"69dffacb-bfe8-442d-be86-48624c60426f","ref_index":3,"cited_arxiv_id":"2502.13923","is_internal_anchor":true},{"doi":"","year":2021,"title":"Evaluating Large Language Models Trained on Code","work_id":"042493e9-b26f-4b4e-bbde-382072ca9b08","ref_index":4,"cited_arxiv_id":"2107.03374","is_internal_anchor":true},{"doi":"","year":2024,"title":"Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling","work_id":"ee70bdc8-4656-4849-ada7-ce42a2278d70","ref_index":5,"cited_arxiv_id":"2412.05271","is_internal_anchor":true}],"resolved_work":52,"snapshot_sha256":"37c05a6301528103c18f297a800da92de427d48f1dfb8a2c911a07254025246c","internal_anchors":12},"formal_canon":{"evidence_count":2,"snapshot_sha256":"da588d0e4ac644c4f37b168acb8e544ce1d95322a0b2f1d6712432f995874f73"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2503.10615","created_at":"2026-05-17T23:38:49.635131+00:00"},{"alias_kind":"arxiv_version","alias_value":"2503.10615v2","created_at":"2026-05-17T23:38:49.635131+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2503.10615","created_at":"2026-05-17T23:38:49.635131+00:00"},{"alias_kind":"pith_short_12","alias_value":"VITK3VBU5MEP","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"VITK3VBU5MEPLZ4M","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"VITK3VBU","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":44,"internal_anchor_count":44,"sample":[{"citing_arxiv_id":"2605.23281","citing_title":"DepthAgent: Towards Better Universal Depth Estimation via Sample-wise Expert Selection","ref_index":69,"is_internal_anchor":true},{"citing_arxiv_id":"2505.15879","citing_title":"GRIT: Teaching MLLMs to Think with Images","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16460","citing_title":"REC-RL: Referring expression counting via Gaussian and range-based reward optimization","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15864","citing_title":"Are VLMs Seeing or Just Saying? Uncovering the Illusion of Visual Re-examination","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20165","citing_title":"CaMo: Camera Motion Grounded Evaluation and Training for Vision-Language Models","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2505.22095","citing_title":"Mixture-of-Retrieval Experts for Reasoning-Guided Multimodal Knowledge Exploitation","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2506.11991","citing_title":"VGR: Visual Grounded Reasoning","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2506.16796","citing_title":"RealSR-R1: Reinforcement Learning for Real-World Image Super-Resolution with Vision-Language Chain-of-Thought","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2506.20332","citing_title":"Mobile-R1: Towards Interactive Capability for VLM-Based Mobile Agent via Systematic Training","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2503.17352","citing_title":"OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles","ref_index":80,"is_internal_anchor":true},{"citing_arxiv_id":"2507.00748","citing_title":"Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2507.05920","citing_title":"High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2507.06448","citing_title":"Perception-Aware Policy Optimization for Multimodal Reasoning","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2509.21976","citing_title":"Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2509.22746","citing_title":"Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2509.23322","citing_title":"Mitigating Visual Context Degradation in Large Multimodal Models: A Training-Free Decoupled Agentic Framework","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2510.04225","citing_title":"Locate-Then-Examine: Grounded Region Reasoning Improves Detection of AI-Generated Images","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2511.13026","citing_title":"REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2505.15436","citing_title":"Adaptive Chain-of-Focus Reasoning via Dynamic Visual Search and Zooming for Efficient VLMs","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2511.22396","citing_title":"Asking like Socrates: Socrates helps VLMs understand remote sensing images","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2506.09965","citing_title":"Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing","ref_index":71,"is_internal_anchor":true},{"citing_arxiv_id":"2511.20814","citing_title":"SPHINX: A Synthetic Environment for Visual Perception and Reasoning","ref_index":65,"is_internal_anchor":true},{"citing_arxiv_id":"2512.12623","citing_title":"Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2601.04442","citing_title":"Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2601.06993","citing_title":"Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification?","ref_index":42,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/VITK3VBU5MEPLZ4MOALEG5VYZ6","json":"https://pith.science/pith/VITK3VBU5MEPLZ4MOALEG5VYZ6.json","graph_json":"https://pith.science/api/pith-number/VITK3VBU5MEPLZ4MOALEG5VYZ6/graph.json","events_json":"https://pith.science/api/pith-number/VITK3VBU5MEPLZ4MOALEG5VYZ6/events.json","paper":"https://pith.science/paper/VITK3VBU"},"agent_actions":{"view_html":"https://pith.science/pith/VITK3VBU5MEPLZ4MOALEG5VYZ6","download_json":"https://pith.science/pith/VITK3VBU5MEPLZ4MOALEG5VYZ6.json","view_paper":"https://pith.science/paper/VITK3VBU","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2503.10615&json=true","fetch_graph":"https://pith.science/api/pith-number/VITK3VBU5MEPLZ4MOALEG5VYZ6/graph.json","fetch_events":"https://pith.science/api/pith-number/VITK3VBU5MEPLZ4MOALEG5VYZ6/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/VITK3VBU5MEPLZ4MOALEG5VYZ6/action/timestamp_anchor","attest_storage":"https://pith.science/pith/VITK3VBU5MEPLZ4MOALEG5VYZ6/action/storage_attestation","attest_author":"https://pith.science/pith/VITK3VBU5MEPLZ4MOALEG5VYZ6/action/author_attestation","sign_citation":"https://pith.science/pith/VITK3VBU5MEPLZ4MOALEG5VYZ6/action/citation_signature","submit_replication":"https://pith.science/pith/VITK3VBU5MEPLZ4MOALEG5VYZ6/action/replication_record"}},"created_at":"2026-05-17T23:38:49.635131+00:00","updated_at":"2026-05-17T23:38:49.635131+00:00"}