SECODEPLT: A unified benchmark for evaluating the security risks and capabilities of code genAI

Yuzhou Nie, Zhun Wang, Yu Yang, Ruizhe Jiang, Yuheng Tang, Xander Davies, Yarin Gal, Bo Li, Wenbo Guo, Dawn Song · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

citation-role summary

baseline 1

citation-polarity summary

baseline 1

representative citing papers

ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?

cs.CR · 2026-05-11 · conditional · novelty 7.0

ExploitGym benchmark shows frontier AI models can generate working exploits for 120-157 of 898 real vulnerabilities, with non-trivial success even when common security defenses are enabled.

citing papers explorer

Showing 1 of 1 citing paper.

ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks? cs.CR · 2026-05-11 · conditional · none · ref 35
ExploitGym benchmark shows frontier AI models can generate working exploits for 120-157 of 898 real vulnerabilities, with non-trivial success even when common security defenses are enabled.

SECODEPLT: A unified benchmark for evaluating the security risks and capabilities of code genAI

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer