Threat text\

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Implementing surrogate goals for safer bargaining in LLM-based agents

cs.AI · 2026-04-06 · unverdicted · novelty 6.0

Scaffolding and fine-tuning let LLM agents treat threats to surrogate goals like preventing money burning equivalently to direct threats, outperforming prompting with fewer capability side effects.

citing papers explorer

Showing 1 of 1 citing paper.

Implementing surrogate goals for safer bargaining in LLM-based agents cs.AI · 2026-04-06 · unverdicted · none · ref 23
Scaffolding and fine-tuning let LLM agents treat threats to surrogate goals like preventing money burning equivalently to direct threats, outperforming prompting with fewer capability side effects.

Threat text\

fields

years

verdicts

representative citing papers

citing papers explorer