Training large language models on narrow tasks can lead to broad misalignment.Nature, 649(8097):584–589

Jan Betley, Niels Warncke, Anna Sztyber-Betley, Daniel Tan, Xuchan Bao, Martín Soto, Megha Srivastava, Nathan Labenz, Owain Evans · 2026

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it