Dawn Drain

Identifiers

name variant Dawn Drain 0.60 · backfill

Papers (12)

Discovering Language Model Behaviors with Model-Written Evaluations cs.CL · 2022 · author #21
Constitutional AI: Harmlessness from AI Feedback cs.CL · 2022 · author #15
Measuring Progress on Scalable Oversight for Large Language Models cs.HC · 2022 · author #17
In-context Learning and Induction Heads cs.LG · 2022 · author #12
Toy Models of Superposition cs.LG · 2022 · author #9
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned cs.CL · 2022 · author #16
Language Models (Mostly) Know What They Know cs.CL · 2022 · author #5
Scaling Laws and Interpretability of Learning from Repeated Data cs.LG · 2022 · author #5
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback cs.CL · 2022 · author #7
A General Language Assistant as a Laboratory for Alignment cs.CL · 2021 · author #4
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation cs.SE · 2021 · author #8
GraphCodeBERT: Pre-training Code Representations with Data Flow cs.SE · 2020 · author #14

Mentions

2205.10487 #5 · arxiv_oai · confidence 0.70 Dawn Drain
2211.03540 #17 · arxiv_oai · confidence 0.70 Dawn Drain

Frequent Coauthors

Dario Amodei 10 shared papers
Jared Kaplan 10 shared papers
Nelson Elhage 10 shared papers
Sam McCandlish 10 shared papers
Tom Henighan 10 shared papers
Zac Hatfield-Dodds 10 shared papers
Ben Mann 9 shared papers
Catherine Olsson 9 shared papers
Nicholas Joseph 9 shared papers
Nova DasSarma 9 shared papers
Tom Brown 9 shared papers
Amanda Askell 8 shared papers
Andy Jones 8 shared papers
Anna Chen 8 shared papers
Danny Hernandez 8 shared papers
Jackson Kernion 8 shared papers
Kamal Ndousse 8 shared papers
Scott Johnston 8 shared papers
Tristan Hume 8 shared papers
Yuntao Bai 8 shared papers