{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:LC2EMAER6QLZIBSPQPF7M7YUSU","short_pith_number":"pith:LC2EMAER","schema_version":"1.0","canonical_sha256":"58b4460091f41794064f83cbf67f14950cd0c7e06fadcd306614670051539af6","source":{"kind":"arxiv","id":"2407.04973","version":1},"attestation_state":"computed","paper":{"title":"LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"LogicVista provides a benchmark of 448 visual questions to evaluate logical reasoning in multimodal LLMs across five tasks and nine capabilities.","cross_cats":["cs.CL","cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Edward Sun, Tianyu Liu, Wei Wang, Yijia Xiao","submitted_at":"2024-07-06T06:48:16Z","abstract_excerpt":"We propose LogicVista, an evaluation benchmark that assesses the integrated logical reasoning capabilities of multimodal large language models (MLLMs) in Visual contexts. Recent advancements in MLLMs have demonstrated various fascinating abilities, from crafting poetry based on an image to performing mathematical reasoning. However, there is still a lack of systematic evaluation of MLLMs' proficiency in logical reasoning tasks, which are essential for activities like navigation and puzzle-solving. Thus we evaluate general logical cognition abilities across 5 logical reasoning tasks encompassin"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2407.04973","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2024-07-06T06:48:16Z","cross_cats_sorted":["cs.CL","cs.CV","cs.LG"],"title_canon_sha256":"ea00387c1c41a9eac9493f08e683880dd321e728c00c721a755ec6efd2b5e40c","abstract_canon_sha256":"0ab50ae4f366a54860372ccf4025a2176a88d4c211d7be483104ed2a2994079d"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:49.331555Z","signature_b64":"EmQyv3llCQ6mkAnKMSorB17uDZDuG5Hs24x3Jc7H5z5G3nOT4QL3oKiyKGJ9P+j6+DJyucGhKrR/oR+Nn8cZAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"58b4460091f41794064f83cbf67f14950cd0c7e06fadcd306614670051539af6","last_reissued_at":"2026-05-17T23:38:49.330835Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:49.330835Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"LogicVista provides a benchmark of 448 visual questions to evaluate logical reasoning in multimodal LLMs across five tasks and nine capabilities.","cross_cats":["cs.CL","cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Edward Sun, Tianyu Liu, Wei Wang, Yijia Xiao","submitted_at":"2024-07-06T06:48:16Z","abstract_excerpt":"We propose LogicVista, an evaluation benchmark that assesses the integrated logical reasoning capabilities of multimodal large language models (MLLMs) in Visual contexts. Recent advancements in MLLMs have demonstrated various fascinating abilities, from crafting poetry based on an image to performing mathematical reasoning. However, there is still a lack of systematic evaluation of MLLMs' proficiency in logical reasoning tasks, which are essential for activities like navigation and puzzle-solving. Thus we evaluate general logical cognition abilities across 5 logical reasoning tasks encompassin"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"LogicVista assesses the integrated logical reasoning capabilities of MLLMs in visual contexts across 5 logical reasoning tasks encompassing 9 different capabilities using a sample of 448 multiple-choice questions.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The 448 questions and their human-written reasoning annotations accurately and comprehensively capture general logical cognition abilities in visual contexts without significant selection bias or coverage gaps.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"LogicVista is a new benchmark dataset with 448 visual logic questions that evaluates multimodal LLMs on five reasoning tasks covering nine capabilities.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"LogicVista provides a benchmark of 448 visual questions to evaluate logical reasoning in multimodal LLMs across five tasks and nine capabilities.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"9a8d615392c2366fcfbf8a4db7d8a29a68704551be03e26cb4a19b7e06ece6d1"},"source":{"id":"2407.04973","kind":"arxiv","version":1},"verdict":{"id":"a0dcb68c-2c01-46a4-b86e-130496ff7df5","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T02:42:19.597729Z","strongest_claim":"LogicVista assesses the integrated logical reasoning capabilities of MLLMs in visual contexts across 5 logical reasoning tasks encompassing 9 different capabilities using a sample of 448 multiple-choice questions.","one_line_summary":"LogicVista is a new benchmark dataset with 448 visual logic questions that evaluates multimodal LLMs on five reasoning tasks covering nine capabilities.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The 448 questions and their human-written reasoning annotations accurately and comprehensively capture general logical cognition abilities in visual contexts without significant selection bias or coverage gaps.","pith_extraction_headline":"LogicVista provides a benchmark of 448 visual questions to evaluate logical reasoning in multimodal LLMs across five tasks and nine capabilities."},"references":{"count":58,"sample":[{"doi":"","year":2024,"title":"OpenAI, Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, Red Avila, Igor Babuschkin, Suchir","work_id":"1ac71e56-74d3-4f19-93f1-08ef982c4f0f","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"Flamingo: a visual language model for few-shot learning, 2022","work_id":"e3eae10f-d31c-4158-ae3e-369a6f7bd45a","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Minigpt-4: Enhancing vision-language understanding with advanced large language models, 2023","work_id":"5b194084-17c4-4c1c-a196-e9193f38115a","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"A survey on multimodal large language models, 2023","work_id":"0d4030a2-02b1-4bc0-aae5-bacb80d65117","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Mme: A comprehensive evaluation benchmark for multimodal large language models, 2023","work_id":"29b8caa6-69b1-4988-b0a5-4bd23ea25094","ref_index":6,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":58,"snapshot_sha256":"4fb4525775aecded57b45eef035af53c937aade479f2fc277f2f162072a4252b","internal_anchors":0},"formal_canon":{"evidence_count":2,"snapshot_sha256":"26c8f1bc264591bcf70625c77cccde2a2b226e6cb00892e868a872c1a599d47b"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2407.04973","created_at":"2026-05-17T23:38:49.330947+00:00"},{"alias_kind":"arxiv_version","alias_value":"2407.04973v1","created_at":"2026-05-17T23:38:49.330947+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2407.04973","created_at":"2026-05-17T23:38:49.330947+00:00"},{"alias_kind":"pith_short_12","alias_value":"LC2EMAER6QLZ","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"LC2EMAER6QLZIBSP","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"LC2EMAER","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":36,"internal_anchor_count":36,"sample":[{"citing_arxiv_id":"2604.09349","citing_title":"Visually-Guided Policy Optimization for Multimodal Reasoning","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2505.04638","citing_title":"Advancing AI Research Assistants with Expert-Involved Learning","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2508.03556","citing_title":"VRPRM: Process Reward Modeling via Visual Reasoning","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2602.18600","citing_title":"MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?","ref_index":83,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15792","citing_title":"Reversing the Flow: Generation-to-Understanding Synergy in Large Multimodal Models","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19436","citing_title":"CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19852","citing_title":"Are Tools Always Beneficial? Learning to Invoke Tools Adaptively for Dual-Mode Multimodal LLM Reasoning","ref_index":56,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19461","citing_title":"Beyond Mode Collapse: Distribution Matching for Diverse Reasoning","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2507.06448","citing_title":"Perception-Aware Policy Optimization for Multimodal Reasoning","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2509.23322","citing_title":"Mitigating Visual Context Degradation in Large Multimodal Models: A Training-Free Decoupled Agentic Framework","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2511.19972","citing_title":"Boosting Reasoning in Large Multimodal Models via Activation Replay","ref_index":51,"is_internal_anchor":true},{"citing_arxiv_id":"2511.20814","citing_title":"SPHINX: A Synthetic Environment for Visual Perception and Reasoning","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"2601.13606","citing_title":"ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2411.10442","citing_title":"Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization","ref_index":107,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07026","citing_title":"Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2511.05271","citing_title":"DeepEyesV2: Toward Agentic Multimodal Model","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2602.18600","citing_title":"MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?","ref_index":83,"is_internal_anchor":true},{"citing_arxiv_id":"2509.18154","citing_title":"MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2603.20633","citing_title":"Seed1.8 Model Card: Towards Generalized Real-World Agency","ref_index":80,"is_internal_anchor":true},{"citing_arxiv_id":"2604.01840","citing_title":"Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26752","citing_title":"GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26752","citing_title":"GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09614","citing_title":"Reflection Anchors for Propagation-Aware Visual Retention in Long-Chain Multimodal Reasoning","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09262","citing_title":"Reinforcing Multimodal Reasoning Against Visual Degradation","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03677","citing_title":"Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe","ref_index":42,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/LC2EMAER6QLZIBSPQPF7M7YUSU","json":"https://pith.science/pith/LC2EMAER6QLZIBSPQPF7M7YUSU.json","graph_json":"https://pith.science/api/pith-number/LC2EMAER6QLZIBSPQPF7M7YUSU/graph.json","events_json":"https://pith.science/api/pith-number/LC2EMAER6QLZIBSPQPF7M7YUSU/events.json","paper":"https://pith.science/paper/LC2EMAER"},"agent_actions":{"view_html":"https://pith.science/pith/LC2EMAER6QLZIBSPQPF7M7YUSU","download_json":"https://pith.science/pith/LC2EMAER6QLZIBSPQPF7M7YUSU.json","view_paper":"https://pith.science/paper/LC2EMAER","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2407.04973&json=true","fetch_graph":"https://pith.science/api/pith-number/LC2EMAER6QLZIBSPQPF7M7YUSU/graph.json","fetch_events":"https://pith.science/api/pith-number/LC2EMAER6QLZIBSPQPF7M7YUSU/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/LC2EMAER6QLZIBSPQPF7M7YUSU/action/timestamp_anchor","attest_storage":"https://pith.science/pith/LC2EMAER6QLZIBSPQPF7M7YUSU/action/storage_attestation","attest_author":"https://pith.science/pith/LC2EMAER6QLZIBSPQPF7M7YUSU/action/author_attestation","sign_citation":"https://pith.science/pith/LC2EMAER6QLZIBSPQPF7M7YUSU/action/citation_signature","submit_replication":"https://pith.science/pith/LC2EMAER6QLZIBSPQPF7M7YUSU/action/replication_record"}},"created_at":"2026-05-17T23:38:49.330947+00:00","updated_at":"2026-05-17T23:38:49.330947+00:00"}