{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:WQ4LAUPLFPRFVRRWIZYJPI2K3P","short_pith_number":"pith:WQ4LAUPL","schema_version":"1.0","canonical_sha256":"b438b051eb2be25ac636467097a34adbedced59c033e6d0fd399f186c144be97","source":{"kind":"arxiv","id":"2603.02097","version":5},"attestation_state":"computed","paper":{"title":"ClinConsensus: A Physician-Calibrated Benchmark for Evaluating Clinical Rubric Coverage in Chinese Medical LLMs","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Bing Zhao, Chuanmiao Yan, Dayiheng Liu, Han Li, Hu Wei, Kailuan Wu, Kexin Yang, Lin Qu, Ruyi Xu, Sen Yang, Tianyi Tang, Tianyun Lu, Weiqi Zhai, Wenjie Luo, Xiang Zheng, Xue Yang, Yiyuan Li, Yubo Ma","submitted_at":"2026-03-02T17:17:18Z","abstract_excerpt":"Open-ended medical LLM evaluation remains weakly grounded in physician-calibrated coverage of clinically relevant response criteria, especially in localized clinical settings. We introduce \\textsc{ClinConsensus}, a Chinese medical benchmark of 2{,}500 expert-curated cases spanning 36 specialties, 12 task themes, multiple difficulty levels, and lay-facing versus professional-facing settings. Each case is paired with 30 case-specific binary rubric criteria. To evaluate whether responses satisfy enough physician-authored criteria, we propose \\emph{Clinician-Anchored Coverage Score} (CACS), a phys"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2603.02097","kind":"arxiv","version":5},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CL","submitted_at":"2026-03-02T17:17:18Z","cross_cats_sorted":[],"title_canon_sha256":"08e3a99f41b6bf359be569a468c930307f6ec7c3e37a563514ba8b4cf57beaf1","abstract_canon_sha256":"f42536bacac202014d4dcfd864552b651fe0af52bf51a8f96e92746d36302d52"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-28T01:04:37.873476Z","signature_b64":"lH05AmnxW5Ls1leFv3Y1MBWARBKc05KrxrKfWOzJWYxBeceGCLOdmOQ3fUVbSlkMi5nrZgZ5zrq77tfkKiCJBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"b438b051eb2be25ac636467097a34adbedced59c033e6d0fd399f186c144be97","last_reissued_at":"2026-05-28T01:04:37.872980Z","signature_status":"signed_v1","first_computed_at":"2026-05-28T01:04:37.872980Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"ClinConsensus: A Physician-Calibrated Benchmark for Evaluating Clinical Rubric Coverage in Chinese Medical LLMs","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Bing Zhao, Chuanmiao Yan, Dayiheng Liu, Han Li, Hu Wei, Kailuan Wu, Kexin Yang, Lin Qu, Ruyi Xu, Sen Yang, Tianyi Tang, Tianyun Lu, Weiqi Zhai, Wenjie Luo, Xiang Zheng, Xue Yang, Yiyuan Li, Yubo Ma","submitted_at":"2026-03-02T17:17:18Z","abstract_excerpt":"Open-ended medical LLM evaluation remains weakly grounded in physician-calibrated coverage of clinically relevant response criteria, especially in localized clinical settings. We introduce \\textsc{ClinConsensus}, a Chinese medical benchmark of 2{,}500 expert-curated cases spanning 36 specialties, 12 task themes, multiple difficulty levels, and lay-facing versus professional-facing settings. Each case is paired with 30 case-specific binary rubric criteria. To evaluate whether responses satisfy enough physician-authored criteria, we propose \\emph{Clinician-Anchored Coverage Score} (CACS), a phys"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2603.02097","kind":"arxiv","version":5},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2603.02097/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2603.02097","created_at":"2026-05-28T01:04:37.873037+00:00"},{"alias_kind":"arxiv_version","alias_value":"2603.02097v5","created_at":"2026-05-28T01:04:37.873037+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2603.02097","created_at":"2026-05-28T01:04:37.873037+00:00"},{"alias_kind":"pith_short_12","alias_value":"WQ4LAUPLFPRF","created_at":"2026-05-28T01:04:37.873037+00:00"},{"alias_kind":"pith_short_16","alias_value":"WQ4LAUPLFPRFVRRW","created_at":"2026-05-28T01:04:37.873037+00:00"},{"alias_kind":"pith_short_8","alias_value":"WQ4LAUPL","created_at":"2026-05-28T01:04:37.873037+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":1,"internal_anchor_count":1,"sample":[{"citing_arxiv_id":"2605.22612","citing_title":"Healthcare LLM Benchmarks Are Only as Good as Their Explicit Assumptions","ref_index":12,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/WQ4LAUPLFPRFVRRWIZYJPI2K3P","json":"https://pith.science/pith/WQ4LAUPLFPRFVRRWIZYJPI2K3P.json","graph_json":"https://pith.science/api/pith-number/WQ4LAUPLFPRFVRRWIZYJPI2K3P/graph.json","events_json":"https://pith.science/api/pith-number/WQ4LAUPLFPRFVRRWIZYJPI2K3P/events.json","paper":"https://pith.science/paper/WQ4LAUPL"},"agent_actions":{"view_html":"https://pith.science/pith/WQ4LAUPLFPRFVRRWIZYJPI2K3P","download_json":"https://pith.science/pith/WQ4LAUPLFPRFVRRWIZYJPI2K3P.json","view_paper":"https://pith.science/paper/WQ4LAUPL","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2603.02097&json=true","fetch_graph":"https://pith.science/api/pith-number/WQ4LAUPLFPRFVRRWIZYJPI2K3P/graph.json","fetch_events":"https://pith.science/api/pith-number/WQ4LAUPLFPRFVRRWIZYJPI2K3P/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/WQ4LAUPLFPRFVRRWIZYJPI2K3P/action/timestamp_anchor","attest_storage":"https://pith.science/pith/WQ4LAUPLFPRFVRRWIZYJPI2K3P/action/storage_attestation","attest_author":"https://pith.science/pith/WQ4LAUPLFPRFVRRWIZYJPI2K3P/action/author_attestation","sign_citation":"https://pith.science/pith/WQ4LAUPLFPRFVRRWIZYJPI2K3P/action/citation_signature","submit_replication":"https://pith.science/pith/WQ4LAUPLFPRFVRRWIZYJPI2K3P/action/replication_record"}},"created_at":"2026-05-28T01:04:37.873037+00:00","updated_at":"2026-05-28T01:04:37.873037+00:00"}