{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:3GI7AM4OLOM4VAWUJMNPO3UUPK","short_pith_number":"pith:3GI7AM4O","schema_version":"1.0","canonical_sha256":"d991f0338e5b99ca82d44b1af76e947a9410b5aced7774061bcc00fa4bf4d067","source":{"kind":"arxiv","id":"2501.18362","version":3},"attestation_state":"computed","paper":{"title":"MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding","license":"http://creativecommons.org/licenses/by/4.0/","headline":"MedXpertQA supplies 4,460 expert-reviewed medical questions across 17 specialties to test genuine clinical reasoning in AI systems.","cross_cats":["cs.CL","cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Bowen Zhou, Ermo Hua, Kaiyan Zhang, Ning Ding, Shang Qu, Xuekai Zhu, Yifei Li, Yuxin Zuo, Zhangren Chen","submitted_at":"2025-01-30T14:07:56Z","abstract_excerpt":"We introduce MedXpertQA, a highly challenging and comprehensive benchmark to evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA includes 4,460 questions spanning 17 specialties and 11 body systems. It includes two subsets, Text for text evaluation and MM for multimodal evaluation. Notably, MM introduces expert-level exam questions with diverse images and rich clinical information, including patient records and examination results, setting it apart from traditional medical multimodal benchmarks with simple QA pairs generated from image captions. MedXpertQA applies rigoro"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2501.18362","kind":"arxiv","version":3},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2025-01-30T14:07:56Z","cross_cats_sorted":["cs.CL","cs.CV","cs.LG"],"title_canon_sha256":"1f897365171c0fd28e2297578fe1cdd416da532f3bfddceec8cebec5485dde81","abstract_canon_sha256":"bfe215abe5d4bfad4b0052e221edc2f73a70a1aaa86cf2b7509c431dc793725a"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:47.608979Z","signature_b64":"a6LPpYgpEJY56lXRgPc8WGpyrMM2zi3xMrHYNz6juc8NNQ76aaUqQZqVIY64Z48P30IaGG3VPpIyMHy0UM/iCg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"d991f0338e5b99ca82d44b1af76e947a9410b5aced7774061bcc00fa4bf4d067","last_reissued_at":"2026-05-17T23:38:47.608492Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:47.608492Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding","license":"http://creativecommons.org/licenses/by/4.0/","headline":"MedXpertQA supplies 4,460 expert-reviewed medical questions across 17 specialties to test genuine clinical reasoning in AI systems.","cross_cats":["cs.CL","cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Bowen Zhou, Ermo Hua, Kaiyan Zhang, Ning Ding, Shang Qu, Xuekai Zhu, Yifei Li, Yuxin Zuo, Zhangren Chen","submitted_at":"2025-01-30T14:07:56Z","abstract_excerpt":"We introduce MedXpertQA, a highly challenging and comprehensive benchmark to evaluate expert-level medical knowledge and advanced reasoning. MedXpertQA includes 4,460 questions spanning 17 specialties and 11 body systems. It includes two subsets, Text for text evaluation and MM for multimodal evaluation. Notably, MM introduces expert-level exam questions with diverse images and rich clinical information, including patient records and examination results, setting it apart from traditional medical multimodal benchmarks with simple QA pairs generated from image captions. MedXpertQA applies rigoro"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"MedXpertQA provides a highly challenging and comprehensive benchmark to evaluate expert-level medical knowledge and advanced reasoning, with rigorous filtering, expert reviews, and a multimodal subset that includes diverse images and rich clinical information.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the selected and augmented questions, after expert review and synthesis, accurately represent genuine expert-level clinical reasoning without residual data leakage or selection bias that would inflate model performance.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"MedXpertQA is a new benchmark of 4,460 rigorously filtered expert medical questions, including multimodal cases with patient records and images, designed to evaluate advanced AI reasoning more stringently than prior datasets like MedQA.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"MedXpertQA supplies 4,460 expert-reviewed medical questions across 17 specialties to test genuine clinical reasoning in AI systems.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"3f157058a9f784d3465300c3e4cfaac49c40bca9bc14d34174f0aa89425f642a"},"source":{"id":"2501.18362","kind":"arxiv","version":3},"verdict":{"id":"8e89a3f0-8c2b-40aa-98a4-251b080b0049","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T14:22:43.284471Z","strongest_claim":"MedXpertQA provides a highly challenging and comprehensive benchmark to evaluate expert-level medical knowledge and advanced reasoning, with rigorous filtering, expert reviews, and a multimodal subset that includes diverse images and rich clinical information.","one_line_summary":"MedXpertQA is a new benchmark of 4,460 rigorously filtered expert medical questions, including multimodal cases with patient records and images, designed to evaluate advanced AI reasoning more stringently than prior datasets like MedQA.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the selected and augmented questions, after expert review and synthesis, accurately represent genuine expert-level clinical reasoning without residual data leakage or selection bias that would inflate model performance.","pith_extraction_headline":"MedXpertQA supplies 4,460 expert-reviewed medical questions across 17 specialties to test genuine clinical reasoning in AI systems."},"references":{"count":30,"sample":[{"doi":"","year":null,"title":"org/CorpusID:268232499","work_id":"af9e8a01-2fb0-4264-b572-68c9d9f2b49d","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2019,"title":"HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs","work_id":"56766c95-7f7b-4db7-8563-f6df210ecdd1","ref_index":2,"cited_arxiv_id":"2412.18925","is_internal_anchor":true},{"doi":"","year":null,"title":"The reduction was successful, as indicated by follow-up x-rays","work_id":"d278541d-2d93-4003-9fb5-05601831f070","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Symptoms Post-Reduction: After 10 days, the patient demonstrates an inability to abduct the shoulder","work_id":"7a820355-3386-4e2e-bf30-dfd8a852845c","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Common Cause of Inability to Abduct: Injury to the axillary nerve can cause an inability to abduct the shoulder, as it innervates the deltoid muscle","work_id":"c69bed33-c83b-4fc1-bb04-bab743498255","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":30,"snapshot_sha256":"120e1091248bb0f11e371beb6e4bb8be6dfed0f3b13de8eddc59752ec8b0893e","internal_anchors":1},"formal_canon":{"evidence_count":2,"snapshot_sha256":"34fec7e1387daebf2c5b86a69eabca9b1572d9ce62949ac159b990cd66e5b58d"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2501.18362","created_at":"2026-05-17T23:38:47.608572+00:00"},{"alias_kind":"arxiv_version","alias_value":"2501.18362v3","created_at":"2026-05-17T23:38:47.608572+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2501.18362","created_at":"2026-05-17T23:38:47.608572+00:00"},{"alias_kind":"pith_short_12","alias_value":"3GI7AM4OLOM4","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"3GI7AM4OLOM4VAWU","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"3GI7AM4O","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":20,"internal_anchor_count":20,"sample":[{"citing_arxiv_id":"2605.16679","citing_title":"CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?","ref_index":67,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20176","citing_title":"ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2509.24186","citing_title":"Measuring Competency, Not Performance: Item-Aware Evaluation Across Medical Benchmarks","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07529","citing_title":"MedVerse: Efficient and Reliable Medical Reasoning via DAG-Structured Parallel Execution","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2602.12705","citing_title":"MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs","ref_index":77,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13045","citing_title":"Large Language Models Lack Temporal Awareness of Medical Knowledge","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13542","citing_title":"RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26283","citing_title":"MedSynapse-V: Bridging Visual Perception and Clinical Intuition via Latent Memory Evolution","ref_index":69,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09661","citing_title":"MedMeta: A Benchmark for LLMs in Synthesizing Meta-Analysis Conclusion from Medical Studies","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09584","citing_title":"CLR-voyance: Reinforcing Open-Ended Reasoning for Inpatient Clinical Decision Support with Outcome-Aware Rubrics","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10850","citing_title":"Verification Mirage: Mapping the Reliability Boundary of Self-Verification in Medical VQA","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08704","citing_title":"AgentPSO: Evolving Agent Reasoning Skill via Multi-agent Particle Swarm Optimization","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24700","citing_title":"Green Shielding: A User-Centric Approach Towards Trustworthy AI","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06191","citing_title":"Systematic Evaluation of Large Language Models for Post-Discharge Clinical Action Extraction","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19341","citing_title":"Evaluation-driven Scaling for Scientific Discovery","ref_index":178,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08644","citing_title":"EXAONE 4.5 Technical Report","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2604.09757","citing_title":"MedLVR: Latent Visual Reasoning for Reliable Medical Visual Question Answering","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2604.05081","citing_title":"MedGemma 1.5 Technical Report","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13756","citing_title":"MedRCube: A Multidimensional Framework for Fine-Grained and In-Depth Evaluation of MLLMs in Medical Imaging","ref_index":85,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17928","citing_title":"HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment","ref_index":72,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/3GI7AM4OLOM4VAWUJMNPO3UUPK","json":"https://pith.science/pith/3GI7AM4OLOM4VAWUJMNPO3UUPK.json","graph_json":"https://pith.science/api/pith-number/3GI7AM4OLOM4VAWUJMNPO3UUPK/graph.json","events_json":"https://pith.science/api/pith-number/3GI7AM4OLOM4VAWUJMNPO3UUPK/events.json","paper":"https://pith.science/paper/3GI7AM4O"},"agent_actions":{"view_html":"https://pith.science/pith/3GI7AM4OLOM4VAWUJMNPO3UUPK","download_json":"https://pith.science/pith/3GI7AM4OLOM4VAWUJMNPO3UUPK.json","view_paper":"https://pith.science/paper/3GI7AM4O","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2501.18362&json=true","fetch_graph":"https://pith.science/api/pith-number/3GI7AM4OLOM4VAWUJMNPO3UUPK/graph.json","fetch_events":"https://pith.science/api/pith-number/3GI7AM4OLOM4VAWUJMNPO3UUPK/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/3GI7AM4OLOM4VAWUJMNPO3UUPK/action/timestamp_anchor","attest_storage":"https://pith.science/pith/3GI7AM4OLOM4VAWUJMNPO3UUPK/action/storage_attestation","attest_author":"https://pith.science/pith/3GI7AM4OLOM4VAWUJMNPO3UUPK/action/author_attestation","sign_citation":"https://pith.science/pith/3GI7AM4OLOM4VAWUJMNPO3UUPK/action/citation_signature","submit_replication":"https://pith.science/pith/3GI7AM4OLOM4VAWUJMNPO3UUPK/action/replication_record"}},"created_at":"2026-05-17T23:38:47.608572+00:00","updated_at":"2026-05-17T23:38:47.608572+00:00"}