Chain-of-Thought Unfaithful- ness as Disguised Accuracy

Chain-of-thought unfaithfulness as disguised accuracy · 2024 · arXiv 2402.14897

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Decoding Hidden Deception in Reasoning LLMs: Activation Explainers for Deception Auditing

cs.CL · 2026-06-16 · unverdicted · novelty 6.0

STATEWITNESS is a decoder-based activation explainer that audits deception in LLMs by interpreting hidden states, reaching 0.916 mean AUROC on seven datasets with inspectable evidence.

The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

cs.AI · 2026-04-18 · unverdicted · novelty 5.0

System 1 intuition in edge SLMs delivers 100% adversarial robustness and low latency for DAO consensus while System 2 reasoning causes 26.7% cognitive collapse and 17x slowdown.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Decoding Hidden Deception in Reasoning LLMs: Activation Explainers for Deception Auditing cs.CL · 2026-06-16 · unverdicted · none · ref 1
STATEWITNESS is a decoder-based activation explainer that audits deception in LLMs by interpreting hidden states, reaching 0.916 mean AUROC on seven datasets with inspectable evidence.
The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus cs.AI · 2026-04-18 · unverdicted · none · ref 19
System 1 intuition in edge SLMs delivers 100% adversarial robustness and low latency for DAO consensus while System 2 reasoning causes 26.7% cognitive collapse and 17x slowdown.

Chain-of-Thought Unfaithful- ness as Disguised Accuracy

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer