{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:IGCN6APJHUOLCKCRNAN7D63MG3","short_pith_number":"pith:IGCN6APJ","schema_version":"1.0","canonical_sha256":"4184df01e93d1cb12851681bf1fb6c36c3588806016696bc38b29784da0b7f9d","source":{"kind":"arxiv","id":"2512.01241","version":3},"attestation_state":"computed","paper":{"title":"First, do NOHARM: towards clinically safe large language models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.CY","authors_text":"Adam Rodman, Adi Badhwar, Advait Patil, Allen Shih, Anastasia Perez, Anup Agarwal, April S. Liang, Arjun K. Manrai, Arjun Rustagi, Arnold Milstein, Austin J. Schoeffler, Bassman Tappuni, Brianna French, Chase M. Walton, Christopher V. Cosgriff, Daniel Shirvani, David I. Hong, David J. H. Wu, David J. Iberri, David Wu, Ernest Y. Lee, Ethan Goh, Fateme Nateghi Haredasht, Jacob M. Koshy, Jason Hom, J. Carl Pallais, Jenelle Jindal, Jessica Tran, Jillian Caldwell, Joel Koh, Jonathan H. Chen, Kanav Chopra, Kathleen M. Buchheit, Kevin Schulman, Kira L. Newman, Kristin Galetta, Liam G. McCoy, Mahbuba Tusty, Matthew Gwiazdon, Nancy Wei, Nicholas Marshall, Nigam H. Shah, Priyank Jain, Rahul S. Dalal, Rebanta Chakraborty, Robert Diep, Saloni Kumar Maharaj, Sarita Khemani, Sirus Jesudasen, Sumant Ranji, Susan Ziolkowski, Tamara B. Kaplan, Thomas A. Buckley, Vartan Pahalyants, Vinay Kadiyala, Vishnu Ravi, Yingjie Weng","submitted_at":"2025-12-01T03:33:16Z","abstract_excerpt":"Large language models (LLMs) are routinely used by physicians and patients for medical advice, yet their clinical safety profiles remain poorly characterized. We present NOHARM (Numerous Options Harm Assessment for Risk in Medicine), a 1,100-task benchmark of primary care-to-specialist consultation cases to measure the frequency and severity of harm from LLM-generated medical recommendations. NOHARM covers 10 specialties, with 12,747 expert annotations for 4,249 clinical management options. Across 28 LLMs, recommendations carried the potential for severe harm in up to 22.6% of cases, with erro"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2512.01241","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CY","submitted_at":"2025-12-01T03:33:16Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"90ce7400035a1f007c5d61e12cd8dcb87aea206d86f6cc4b77079a56d4a389a8","abstract_canon_sha256":"bf123b691772ba74898912e08b576410cfe582ae8834341ad10a5ed64b4be96c"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-19T16:09:52.772973Z","signature_b64":"RZozj4FGNOJUE9jb5mS0DoR8wBe74MKRWIXeHzwOUkmTGlLm9CMAnVPKC7tRFdoNU9jr6lMHjrjCH3dl/nw0Dg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"4184df01e93d1cb12851681bf1fb6c36c3588806016696bc38b29784da0b7f9d","last_reissued_at":"2026-06-19T16:09:52.772493Z","signature_status":"signed_v1","first_computed_at":"2026-06-19T16:09:52.772493Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"First, do NOHARM: towards clinically safe large language models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.CY","authors_text":"Adam Rodman, Adi Badhwar, Advait Patil, Allen Shih, Anastasia Perez, Anup Agarwal, April S. Liang, Arjun K. Manrai, Arjun Rustagi, Arnold Milstein, Austin J. Schoeffler, Bassman Tappuni, Brianna French, Chase M. Walton, Christopher V. Cosgriff, Daniel Shirvani, David I. Hong, David J. H. Wu, David J. Iberri, David Wu, Ernest Y. Lee, Ethan Goh, Fateme Nateghi Haredasht, Jacob M. Koshy, Jason Hom, J. Carl Pallais, Jenelle Jindal, Jessica Tran, Jillian Caldwell, Joel Koh, Jonathan H. Chen, Kanav Chopra, Kathleen M. Buchheit, Kevin Schulman, Kira L. Newman, Kristin Galetta, Liam G. McCoy, Mahbuba Tusty, Matthew Gwiazdon, Nancy Wei, Nicholas Marshall, Nigam H. Shah, Priyank Jain, Rahul S. Dalal, Rebanta Chakraborty, Robert Diep, Saloni Kumar Maharaj, Sarita Khemani, Sirus Jesudasen, Sumant Ranji, Susan Ziolkowski, Tamara B. Kaplan, Thomas A. Buckley, Vartan Pahalyants, Vinay Kadiyala, Vishnu Ravi, Yingjie Weng","submitted_at":"2025-12-01T03:33:16Z","abstract_excerpt":"Large language models (LLMs) are routinely used by physicians and patients for medical advice, yet their clinical safety profiles remain poorly characterized. We present NOHARM (Numerous Options Harm Assessment for Risk in Medicine), a 1,100-task benchmark of primary care-to-specialist consultation cases to measure the frequency and severity of harm from LLM-generated medical recommendations. NOHARM covers 10 specialties, with 12,747 expert annotations for 4,249 clinical management options. Across 28 LLMs, recommendations carried the potential for severe harm in up to 22.6% of cases, with erro"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2512.01241","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2512.01241/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2512.01241","created_at":"2026-06-19T16:09:52.772552+00:00"},{"alias_kind":"arxiv_version","alias_value":"2512.01241v3","created_at":"2026-06-19T16:09:52.772552+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2512.01241","created_at":"2026-06-19T16:09:52.772552+00:00"},{"alias_kind":"pith_short_12","alias_value":"IGCN6APJHUOL","created_at":"2026-06-19T16:09:52.772552+00:00"},{"alias_kind":"pith_short_16","alias_value":"IGCN6APJHUOLCKCR","created_at":"2026-06-19T16:09:52.772552+00:00"},{"alias_kind":"pith_short_8","alias_value":"IGCN6APJ","created_at":"2026-06-19T16:09:52.772552+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":3,"internal_anchor_count":3,"sample":[{"citing_arxiv_id":"2605.09584","citing_title":"CLR-voyance: Reinforcing Open-Ended Reasoning for Inpatient Clinical Decision Support with Outcome-Aware Rubrics","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09272","citing_title":"Towards Conversational Medical AI with Eyes, Ears and a Voice","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.07709","citing_title":"IatroBench: Pre-Registered Evidence of Iatrogenic Harm from AI Safety Measures","ref_index":42,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/IGCN6APJHUOLCKCRNAN7D63MG3","json":"https://pith.science/pith/IGCN6APJHUOLCKCRNAN7D63MG3.json","graph_json":"https://pith.science/api/pith-number/IGCN6APJHUOLCKCRNAN7D63MG3/graph.json","events_json":"https://pith.science/api/pith-number/IGCN6APJHUOLCKCRNAN7D63MG3/events.json","paper":"https://pith.science/paper/IGCN6APJ"},"agent_actions":{"view_html":"https://pith.science/pith/IGCN6APJHUOLCKCRNAN7D63MG3","download_json":"https://pith.science/pith/IGCN6APJHUOLCKCRNAN7D63MG3.json","view_paper":"https://pith.science/paper/IGCN6APJ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2512.01241&json=true","fetch_graph":"https://pith.science/api/pith-number/IGCN6APJHUOLCKCRNAN7D63MG3/graph.json","fetch_events":"https://pith.science/api/pith-number/IGCN6APJHUOLCKCRNAN7D63MG3/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/IGCN6APJHUOLCKCRNAN7D63MG3/action/timestamp_anchor","attest_storage":"https://pith.science/pith/IGCN6APJHUOLCKCRNAN7D63MG3/action/storage_attestation","attest_author":"https://pith.science/pith/IGCN6APJHUOLCKCRNAN7D63MG3/action/author_attestation","sign_citation":"https://pith.science/pith/IGCN6APJHUOLCKCRNAN7D63MG3/action/citation_signature","submit_replication":"https://pith.science/pith/IGCN6APJHUOLCKCRNAN7D63MG3/action/replication_record"}},"created_at":"2026-06-19T16:09:52.772552+00:00","updated_at":"2026-06-19T16:09:52.772552+00:00"}