Accessed: 2025-07-12

Gopal A, Helm-Burger N, Justen L, Soice EH, Tzeng T, Jeyapragasan G, et al · 2023 · arXiv 2310.18233

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

cs.CL · 2026-04-10 · unverdicted · novelty 6.0

Harmful generation in LLMs relies on a compact, unified set of weights that alignment compresses and that are distinct from benign capabilities, explaining emergent misalignment.

Prioritizing High-Consequence Biological Capabilities in Evaluations of Artificial Intelligence Models

cs.CY · 2024-05-25 · unverdicted · novelty 4.0

AI model evaluations for biological capabilities should prioritize high-consequence risks like pandemics, informed by life sciences dual-use experience, and occur prior to deployment to enable biosafety measures.

citing papers explorer

Showing 2 of 2 citing papers.

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism cs.CL · 2026-04-10 · unverdicted · none · ref 9
Harmful generation in LLMs relies on a compact, unified set of weights that alignment compresses and that are distinct from benign capabilities, explaining emergent misalignment.
Prioritizing High-Consequence Biological Capabilities in Evaluations of Artificial Intelligence Models cs.CY · 2024-05-25 · unverdicted · none · ref 42
AI model evaluations for biological capabilities should prioritize high-consequence risks like pandemics, informed by life sciences dual-use experience, and occur prior to deployment to enable biosafety measures.

Accessed: 2025-07-12

fields

years

verdicts

representative citing papers

citing papers explorer