{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:B4C6YM3XSS3A3KANRUD7FB4JRK","short_pith_number":"pith:B4C6YM3X","schema_version":"1.0","canonical_sha256":"0f05ec337794b60da80d8d07f287898abc34417ece15ac30e8d6a3525a778f74","source":{"kind":"arxiv","id":"2504.01805","version":2},"attestation_state":"computed","paper":{"title":"SpaceR: Reinforcing MLLMs in Video Spatial Reasoning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"SpaceR uses RL with a map imagination step to lift open MLLMs above GPT-4o on video spatial reasoning.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Fandong Meng, Haoning Wu, Hao Zhou, Jie Zhou, Kun Ouyang, Xu Sun, Yi Liu, Yuanxin Liu","submitted_at":"2025-04-02T15:12:17Z","abstract_excerpt":"Video spatial reasoning, which involves inferring the underlying spatial structure from observed video frames, poses a significant challenge for existing Multimodal Large Language Models (MLLMs). This limitation stems primarily from 1) the absence of high-quality datasets for this task, and 2) the lack of effective training strategies to develop spatial reasoning capabilities. Motivated by the success of Reinforcement Learning with Verifiable Reward (RLVR) in unlocking LLM reasoning abilities, this work aims to improve MLLMs in video spatial reasoning through the RLVR paradigm. To this end, we"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2504.01805","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2025-04-02T15:12:17Z","cross_cats_sorted":[],"title_canon_sha256":"eb73df9b782bd59f39d2a63a195316f9c257dd8db174b480a6c146662349dca0","abstract_canon_sha256":"b1128aaafe23aa5d3764f0fa8ed20ff71f4e2a50c317e25e7b99a4babf951644"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:51.112362Z","signature_b64":"AqqG+rhF1siysjgbVqe1XvYjnV3pF6eQrwJFaBYE1M90zjGcPRBLX7+lBgIE3Xx3bKD3Unnl8Yat10Q6aF4hAw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"0f05ec337794b60da80d8d07f287898abc34417ece15ac30e8d6a3525a778f74","last_reissued_at":"2026-05-17T23:38:51.111830Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:51.111830Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"SpaceR: Reinforcing MLLMs in Video Spatial Reasoning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"SpaceR uses RL with a map imagination step to lift open MLLMs above GPT-4o on video spatial reasoning.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Fandong Meng, Haoning Wu, Hao Zhou, Jie Zhou, Kun Ouyang, Xu Sun, Yi Liu, Yuanxin Liu","submitted_at":"2025-04-02T15:12:17Z","abstract_excerpt":"Video spatial reasoning, which involves inferring the underlying spatial structure from observed video frames, poses a significant challenge for existing Multimodal Large Language Models (MLLMs). This limitation stems primarily from 1) the absence of high-quality datasets for this task, and 2) the lack of effective training strategies to develop spatial reasoning capabilities. Motivated by the success of Reinforcement Learning with Verifiable Reward (RLVR) in unlocking LLM reasoning abilities, this work aims to improve MLLMs in video spatial reasoning through the RLVR paradigm. To this end, we"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"SpaceR surpasses the advanced GPT-4o by 11.6% accuracy on VSI-Bench and is on par with the leading proprietary model Gemini-2.0-Flash.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the map imagination mechanism inside SG-RLVR genuinely improves spatial reasoning rather than merely increasing the chance of producing benchmark-correct answers during RL training.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"SpaceR uses a new verifiable dataset and map-imagination-augmented RLVR to reach SOTA spatial reasoning accuracy in MLLMs, exceeding GPT-4o on VSI-Bench.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"SpaceR uses RL with a map imagination step to lift open MLLMs above GPT-4o on video spatial reasoning.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"7e79726119f5f425bc12493c0473a3cf2961e767c8bda5eb8fa8e671f26dbec6"},"source":{"id":"2504.01805","kind":"arxiv","version":2},"verdict":{"id":"55efce98-f167-44c5-bb72-497785d0c091","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T15:12:24.514112Z","strongest_claim":"SpaceR surpasses the advanced GPT-4o by 11.6% accuracy on VSI-Bench and is on par with the leading proprietary model Gemini-2.0-Flash.","one_line_summary":"SpaceR uses a new verifiable dataset and map-imagination-augmented RLVR to reach SOTA spatial reasoning accuracy in MLLMs, exceeding GPT-4o on VSI-Bench.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the map imagination mechanism inside SG-RLVR genuinely improves spatial reasoning rather than merely increasing the chance of producing benchmark-correct answers during RL training.","pith_extraction_headline":"SpaceR uses RL with a map imagination step to lift open MLLMs above GPT-4o on video spatial reasoning."},"references":{"count":45,"sample":[{"doi":"","year":2015,"title":"Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. 2015. Vqa: Visual question answering. In Proceedings of the IEEE international confe","work_id":"21e39d06-ef7e-42d9-a941-6cb5033aab46","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Qwen2.5-VL Technical Report","work_id":"69dffacb-bfe8-442d-be86-48624c60426f","ref_index":2,"cited_arxiv_id":"2502.13923","is_internal_anchor":true},{"doi":"","year":2024,"title":"Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling","work_id":"ee70bdc8-4656-4849-ada7-ce42a2278d70","ref_index":3,"cited_arxiv_id":"2412.05271","is_internal_anchor":true},{"doi":"","year":2024,"title":"Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, et al. 2024. Internvl: Scaling up vision foundation models and aligning for generic","work_id":"3077a2fd-cec8-47fe-aede-6777a2169e44","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Angela Dai, Angel X Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nießner","work_id":"e398fb8b-a34d-4d56-aa5c-f2e735115610","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":45,"snapshot_sha256":"fbf65f00d922e7171f427009b68951f61cebd601ad7664a307cea6776085bfd5","internal_anchors":19},"formal_canon":{"evidence_count":2,"snapshot_sha256":"65e99e94b2ab149c467d044f15773245a9ac935a46d159696cfe08ba2ec9adda"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2504.01805","created_at":"2026-05-17T23:38:51.111935+00:00"},{"alias_kind":"arxiv_version","alias_value":"2504.01805v2","created_at":"2026-05-17T23:38:51.111935+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2504.01805","created_at":"2026-05-17T23:38:51.111935+00:00"},{"alias_kind":"pith_short_12","alias_value":"B4C6YM3XSS3A","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"B4C6YM3XSS3A3KAN","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"B4C6YM3X","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":34,"internal_anchor_count":34,"sample":[{"citing_arxiv_id":"2605.05997","citing_title":"4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06094","citing_title":"VISD: Enhancing Video Reasoning via Structured Self-Distillation","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2505.17012","citing_title":"SpatialScore: Towards Comprehensive Evaluation for Spatial Intelligence","ref_index":63,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22558","citing_title":"GeoWeaver: Grounding Visual Tokens with Geometric Evidence before Scene Reasoning","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22819","citing_title":"Cambrian-P: Pose-Grounded Video Understanding","ref_index":69,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04128","citing_title":"JoyAI-Image: Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation","ref_index":62,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18162","citing_title":"Self-Evolving Spatial Reasoning in Vision Language Models via Geometric Logic Consistency","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20165","citing_title":"CaMo: Camera Motion Grounded Evaluation and Training for Vision-Language Models","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2511.04670","citing_title":"Cambrian-S: Towards Spatial Supersensing in Video","ref_index":99,"is_internal_anchor":true},{"citing_arxiv_id":"2512.03963","citing_title":"TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2512.17012","citing_title":"4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2603.04415","citing_title":"Dual Tuning for Reasoning Efficacy-Driven Data Curation in Multimodal LLM Training","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2603.03944","citing_title":"SCP: Spatial Causal Prediction in Video","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2603.17980","citing_title":"Feeling the Space: Egomotion-Aware Video Representation for Efficient and Accurate 3D Scene Understanding","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2603.18856","citing_title":"Motion-o: Trajectory-Grounded Video Reasoning","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2603.27494","citing_title":"Learning to Focus and Precise Cropping: A Reinforcement Learning Framework with Information Gaps and Grounding Loss for MLLMs","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03318","citing_title":"EgoMind: Activating Spatial Cognition through Linguistic Reasoning in MLLMs","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02870","citing_title":"Token Warping Helps MLLMs Look from Nearby Viewpoints","ref_index":72,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11462","citing_title":"SpatialForge: Bootstrapping 3D-Aware Spatial Reasoning from Open-World 2D Images","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06094","citing_title":"VISD: Enhancing Video Reasoning via Structured Self-Distillation","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10887","citing_title":"Count Anything at Any Granularity","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09449","citing_title":"SpaceMind++: Toward Allocentric Cognitive Maps for Spatially Grounded Video MLLMs","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06094","citing_title":"VISD: Enhancing Video Reasoning via Structured Self-Distillation","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05997","citing_title":"4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02130","citing_title":"From Where Things Are to What They Are For: Benchmarking Spatial-Functional Intelligence in Multimodal LLMs","ref_index":51,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/B4C6YM3XSS3A3KANRUD7FB4JRK","json":"https://pith.science/pith/B4C6YM3XSS3A3KANRUD7FB4JRK.json","graph_json":"https://pith.science/api/pith-number/B4C6YM3XSS3A3KANRUD7FB4JRK/graph.json","events_json":"https://pith.science/api/pith-number/B4C6YM3XSS3A3KANRUD7FB4JRK/events.json","paper":"https://pith.science/paper/B4C6YM3X"},"agent_actions":{"view_html":"https://pith.science/pith/B4C6YM3XSS3A3KANRUD7FB4JRK","download_json":"https://pith.science/pith/B4C6YM3XSS3A3KANRUD7FB4JRK.json","view_paper":"https://pith.science/paper/B4C6YM3X","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2504.01805&json=true","fetch_graph":"https://pith.science/api/pith-number/B4C6YM3XSS3A3KANRUD7FB4JRK/graph.json","fetch_events":"https://pith.science/api/pith-number/B4C6YM3XSS3A3KANRUD7FB4JRK/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/B4C6YM3XSS3A3KANRUD7FB4JRK/action/timestamp_anchor","attest_storage":"https://pith.science/pith/B4C6YM3XSS3A3KANRUD7FB4JRK/action/storage_attestation","attest_author":"https://pith.science/pith/B4C6YM3XSS3A3KANRUD7FB4JRK/action/author_attestation","sign_citation":"https://pith.science/pith/B4C6YM3XSS3A3KANRUD7FB4JRK/action/citation_signature","submit_replication":"https://pith.science/pith/B4C6YM3XSS3A3KANRUD7FB4JRK/action/replication_record"}},"created_at":"2026-05-17T23:38:51.111935+00:00","updated_at":"2026-05-17T23:38:51.111935+00:00"}