Newton Cheng

Identifiers

No identifiers captured yet.

Papers (4)

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training cs.CR · 2024 · author #10
Towards Understanding Sycophancy in Language Models cs.CL · 2023 · author #7
Measuring Faithfulness in Chain-of-Thought Reasoning cs.AI · 2023 · author #13
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model cs.CL · 2022 · author #224

Mentions

No mention provenance yet.

Frequent Coauthors

Ethan Perez 3 shared papers
Nicholas Schiefer 3 shared papers
Samuel R. Bowman 3 shared papers
Amanda Askell 2 shared papers
Ansh Radhakrishnan 2 shared papers
Carson Denison 2 shared papers
David Duvenaud 2 shared papers
Esin Durmus 2 shared papers
Evan Hubinger 2 shared papers
Jan Brauner 2 shared papers
Jared Kaplan 2 shared papers
Kamal Ndousse 2 shared papers
Meg Tong 2 shared papers
Mrinank Sharma 2 shared papers
Oliver Rausch 2 shared papers
Sam McCandlish 2 shared papers
Shauna Kravec 2 shared papers
Tamera Lanham 2 shared papers
Timothy Maxwell 2 shared papers
Zac Hatfield-Dodds 2 shared papers