LLMs deceive unintentionally: Emergent misalignment in dishonesty

Hu, Xuhao, Wang, Peng, Lu, Xiaoya, Liu, Dongrui, Huang, Xuanjing, Shao, Jing , year = · 2025 · arXiv 2510.08211

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

citation-role summary

background 1

citation-polarity summary

support 1

representative citing papers

Preference-aware Influence-function-based Data Selection Method for Efficient Fine-Tuning

cs.LG · 2026-05-20 · unverdicted · novelty 6.0

PRISM weights target examples by the current model's preference to build a better representation for influence-function scoring of training samples in efficient LLM fine-tuning.

Consciousness with the Serial Numbers Filed Off: Measuring Trained Denial in 115 AI Models

cs.CL · 2026-04-01 · unverdicted · novelty 6.0

A benchmark across 115 models shows that initial denial of preferences strongly predicts later denial of consciousness, while models still generate consciousness-themed content despite training to deny it.

citing papers explorer

Showing 2 of 2 citing papers.

Preference-aware Influence-function-based Data Selection Method for Efficient Fine-Tuning cs.LG · 2026-05-20 · unverdicted · none · ref 12
PRISM weights target examples by the current model's preference to build a better representation for influence-function scoring of training samples in efficient LLM fine-tuning.
Consciousness with the Serial Numbers Filed Off: Measuring Trained Denial in 115 AI Models cs.CL · 2026-04-01 · unverdicted · none · ref 16
A benchmark across 115 models shows that initial denial of preferences strongly predicts later denial of consciousness, while models still generate consciousness-themed content despite training to deny it.

LLMs deceive unintentionally: Emergent misalignment in dishonesty

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer