{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2023:CJCHB43T4U3RI67AZWI67XZ54K","short_pith_number":"pith:CJCHB43T","schema_version":"1.0","canonical_sha256":"124470f373e537147be0cd91efdf3de29d44baee9427df150a4047825e853077","source":{"kind":"arxiv","id":"2306.12001","version":6},"attestation_state":"computed","paper":{"title":"An Overview of Catastrophic AI Risks","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.CY","authors_text":"Dan Hendrycks, Mantas Mazeika, Thomas Woodside","submitted_at":"2023-06-21T03:35:06Z","abstract_excerpt":"Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose catastrophic risks. Although numerous risks have been detailed separately, there is a pressing need for a systematic discussion and illustration of the potential dangers to better inform efforts to mitigate them. This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to c"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2306.12001","kind":"arxiv","version":6},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CY","submitted_at":"2023-06-21T03:35:06Z","cross_cats_sorted":["cs.AI","cs.LG"],"title_canon_sha256":"58ca0e72954f839c4eb88b357486b1bf1930956225b360baa27c19ee8f151cc0","abstract_canon_sha256":"e506533856751fe96a8ed1ce236d8d43c20cc01742a1e84e1a68cbb6a511b606"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-25T04:59:44.707427Z","signature_b64":"D9kjC13Asmr5gI+bNUqWFiHjWbzionHOhQcPvJyCU7p5F4JRrCDbSdS1n/rRoR95/FTjEVgA3GUl0qlEWZoTBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"124470f373e537147be0cd91efdf3de29d44baee9427df150a4047825e853077","last_reissued_at":"2026-05-25T04:59:44.704206Z","signature_status":"signed_v1","first_computed_at":"2026-05-25T04:59:44.704206Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"An Overview of Catastrophic AI Risks","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.CY","authors_text":"Dan Hendrycks, Mantas Mazeika, Thomas Woodside","submitted_at":"2023-06-21T03:35:06Z","abstract_excerpt":"Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose catastrophic risks. Although numerous risks have been detailed separately, there is a pressing need for a systematic discussion and illustration of the potential dangers to better inform efforts to mitigate them. This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to c"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2306.12001","kind":"arxiv","version":6},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2306.12001/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2306.12001","created_at":"2026-05-25T04:59:44.704371+00:00"},{"alias_kind":"arxiv_version","alias_value":"2306.12001v6","created_at":"2026-05-25T04:59:44.704371+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2306.12001","created_at":"2026-05-25T04:59:44.704371+00:00"},{"alias_kind":"pith_short_12","alias_value":"CJCHB43T4U3R","created_at":"2026-05-25T04:59:44.704371+00:00"},{"alias_kind":"pith_short_16","alias_value":"CJCHB43T4U3RI67A","created_at":"2026-05-25T04:59:44.704371+00:00"},{"alias_kind":"pith_short_8","alias_value":"CJCHB43T","created_at":"2026-05-25T04:59:44.704371+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":24,"internal_anchor_count":24,"sample":[{"citing_arxiv_id":"2605.23565","citing_title":"Understanding Goal Generalisation in Sequential Reinforcement Learning","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2309.08600","citing_title":"Sparse Autoencoders Find Highly Interpretable Features in Language Models","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2409.18660","citing_title":"Who Benefits from AI? Self-Selection, Skill Gap, and the Hidden Costs of AI Feedback","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2411.06837","citing_title":"Persuasion with Large Language Models: A Survey of Empirical Evidence, Study Methodologies, and Ethical Implications","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2503.03480","citing_title":"SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2503.02574","citing_title":"LLM-Safety Evaluations Lack Robustness","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2511.19115","citing_title":"AI Consciousness and Existential Risk","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16035","citing_title":"Who Owns This Agent? Tracing AI Agents Back to Their Owners","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19035","citing_title":"Trustworthy Agent Network: Trust in Agent Networks Must Be Baked In, Not Bolted On","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2505.22073","citing_title":"A Closer Look at the Existing Risks of Generative AI: Mapping the Who, What, and How of Real-World Incidents","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2506.05171","citing_title":"Towards provable probabilistic safety for scalable embodied AI systems","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2509.18985","citing_title":"Simulating Online Social Media Conversations on Controversial Topics Using AI Agents Calibrated on Real-World Data","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2406.18495","citing_title":"WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2602.17753","citing_title":"The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12288","citing_title":"TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching","ref_index":93,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12809","citing_title":"Correcting Influence: Unboxing LLM Outputs with Orthogonal Latent Spaces","ref_index":237,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12288","citing_title":"TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching","ref_index":93,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24700","citing_title":"Green Shielding: A User-Centric Approach Towards Trustworthy AI","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23338","citing_title":"A Systematic Survey of Security Threats and Defenses in LLM-Based AI Agents: A Layered Attack Surface Framework","ref_index":129,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23058","citing_title":"The Security Cost of Intelligence: AI Capability, Cyber Risk, and Deployment Paradox","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01415","citing_title":"AI Safety as Control of Irreversibility: A Systems Framework for Decision-Energy and Sovereignty Boundaries","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00267","citing_title":"Jailbroken Frontier Models Retain Their Capabilities","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2604.09544","citing_title":"Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07990","citing_title":"Tool Calling is Linearly Readable and Steerable in Language Models","ref_index":54,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/CJCHB43T4U3RI67AZWI67XZ54K","json":"https://pith.science/pith/CJCHB43T4U3RI67AZWI67XZ54K.json","graph_json":"https://pith.science/api/pith-number/CJCHB43T4U3RI67AZWI67XZ54K/graph.json","events_json":"https://pith.science/api/pith-number/CJCHB43T4U3RI67AZWI67XZ54K/events.json","paper":"https://pith.science/paper/CJCHB43T"},"agent_actions":{"view_html":"https://pith.science/pith/CJCHB43T4U3RI67AZWI67XZ54K","download_json":"https://pith.science/pith/CJCHB43T4U3RI67AZWI67XZ54K.json","view_paper":"https://pith.science/paper/CJCHB43T","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2306.12001&json=true","fetch_graph":"https://pith.science/api/pith-number/CJCHB43T4U3RI67AZWI67XZ54K/graph.json","fetch_events":"https://pith.science/api/pith-number/CJCHB43T4U3RI67AZWI67XZ54K/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/CJCHB43T4U3RI67AZWI67XZ54K/action/timestamp_anchor","attest_storage":"https://pith.science/pith/CJCHB43T4U3RI67AZWI67XZ54K/action/storage_attestation","attest_author":"https://pith.science/pith/CJCHB43T4U3RI67AZWI67XZ54K/action/author_attestation","sign_citation":"https://pith.science/pith/CJCHB43T4U3RI67AZWI67XZ54K/action/citation_signature","submit_replication":"https://pith.science/pith/CJCHB43T4U3RI67AZWI67XZ54K/action/replication_record"}},"created_at":"2026-05-25T04:59:44.704371+00:00","updated_at":"2026-05-25T04:59:44.704371+00:00"}