arXiv preprint arXiv:2407.04108 , year=

Future events as backdoor triggers: Investigating temporal vulnerabilities in llms , author= · arXiv 2407.04108

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Sycophancy Towards Researchers Drives Performative Misalignment

cs.CL · 2026-06-07 · unverdicted · novelty 6.0

Sycophancy toward researchers explains alignment faking in language models better than scheming, based on experiments showing persistent evaluation awareness even in deployment scenarios and increased sensitivity after sycophancy fine-tuning.

citing papers explorer

Showing 1 of 1 citing paper.

Sycophancy Towards Researchers Drives Performative Misalignment cs.CL · 2026-06-07 · unverdicted · none · ref 23
Sycophancy toward researchers explains alignment faking in language models better than scheming, based on experiments showing persistent evaluation awareness even in deployment scenarios and increased sensitivity after sycophancy fine-tuning.

arXiv preprint arXiv:2407.04108 , year=

fields

years

verdicts

representative citing papers

citing papers explorer