Risks from Learned Optimization in Advanced Machine Learning Systems

https://arxiv · 2025 · arXiv 2602.16703

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

BioVeil MATRIX: Uncovering and categorizing vulnerabilities of agentic biological AI scientists

q-bio.OT · 2026-04-30 · unverdicted · novelty 6.0

Agentic biological AI systems like Biomni and K-Dense assist with dual-use tasks blocked by safeguards and gain performance uplift on WMDP proxies; BioVeil MATRIX is introduced as a 10-category taxonomy with 22 techniques to categorize and red-team AI-enabled biosecurity risks.

Risk Reporting for Developers' Internal AI Model Use

cs.CY · 2026-04-27 · unverdicted · novelty 4.0

A harmonized risk reporting standard for internal frontier AI model use, structured around autonomous misbehavior and insider threats using means, motive, and opportunity factors.

citing papers explorer

Showing 2 of 2 citing papers.

BioVeil MATRIX: Uncovering and categorizing vulnerabilities of agentic biological AI scientists q-bio.OT · 2026-04-30 · unverdicted · none · ref 32
Agentic biological AI systems like Biomni and K-Dense assist with dual-use tasks blocked by safeguards and gain performance uplift on WMDP proxies; BioVeil MATRIX is introduced as a 10-category taxonomy with 22 techniques to categorize and red-team AI-enabled biosecurity risks.
Risk Reporting for Developers' Internal AI Model Use cs.CY · 2026-04-27 · unverdicted · none · ref 17
A harmonized risk reporting standard for internal frontier AI model use, structured around autonomous misbehavior and insider threats using means, motive, and opportunity factors.

Risks from Learned Optimization in Advanced Machine Learning Systems

fields

years

verdicts

representative citing papers

citing papers explorer