Vulnerability- aware alignment: Mitigating uneven forgetting in harmful fine- tuning

Chen, L · arXiv 2506.03850

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection

cs.LG · 2026-05-27 · unverdicted · novelty 5.0

SPARD defends LLMs from harmful fine-tuning attacks via alternating safety projections and relevance-diversity DPP data selection, reporting lowest attack success rates on GSM8K and OpenBookQA while keeping task accuracy.

citing papers explorer

Showing 1 of 1 citing paper.

SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection cs.LG · 2026-05-27 · unverdicted · none · ref 4
SPARD defends LLMs from harmful fine-tuning attacks via alternating safety projections and relevance-diversity DPP data selection, reporting lowest attack success rates on GSM8K and OpenBookQA while keeping task accuracy.

Vulnerability- aware alignment: Mitigating uneven forgetting in harmful fine- tuning

fields

years

verdicts

representative citing papers

citing papers explorer