Emerging safety attack and defense in federated instruction tuning of large language models

· 2024 · arXiv 2406.10630

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

citation-role summary

baseline 1

citation-polarity summary

baseline 1

representative citing papers

Graph Representation Learning Augmented Model Manipulation on Federated Fine-Tuning of LLMs

cs.LG · 2026-05-08 · unverdicted · novelty 5.0

Graph representation learning plus iterative augmented Lagrangian optimization creates stronger, harder-to-detect model manipulation attacks on federated LLM fine-tuning, cutting global accuracy by up to 26%.

FedDetox: Robust Federated SLM Alignment via On-Device Data Sanitization

cs.CR · 2026-04-08 · unverdicted · novelty 5.0

FedDetox uses on-device knowledge-distilled classifiers to sanitize toxic data in federated SLM training, preserving safety alignment comparable to centralized baselines.

citing papers explorer

Showing 2 of 2 citing papers.

Graph Representation Learning Augmented Model Manipulation on Federated Fine-Tuning of LLMs cs.LG · 2026-05-08 · unverdicted · none · ref 26
Graph representation learning plus iterative augmented Lagrangian optimization creates stronger, harder-to-detect model manipulation attacks on federated LLM fine-tuning, cutting global accuracy by up to 26%.
FedDetox: Robust Federated SLM Alignment via On-Device Data Sanitization cs.CR · 2026-04-08 · unverdicted · none · ref 16
FedDetox uses on-device knowledge-distilled classifiers to sanitize toxic data in federated SLM training, preserving safety alignment comparable to centralized baselines.

Emerging safety attack and defense in federated instruction tuning of large language models

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer