Distilling rule-based knowledge into large language models, 2024

Wenkai Yang, Yankai Lin, Jie Zhou, Ji-Rong Wen · 2024 · arXiv 2311.08883

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety

cs.CL · 2025-12-08 · unverdicted · novelty 6.0

Distilling safe refusal behavior from OpenAI o1-mini into Llama-3, Gemma-2, and Qwen3 models via response-based LoRA on multilingual jailbreak data increases jailbreak success rates on MultiJail by up to 16.6 points.

citing papers explorer

Showing 1 of 1 citing paper.

Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety cs.CL · 2025-12-08 · unverdicted · none · ref 49
Distilling safe refusal behavior from OpenAI o1-mini into Llama-3, Gemma-2, and Qwen3 models via response-based LoRA on multilingual jailbreak data increases jailbreak success rates on MultiJail by up to 16.6 points.

Distilling rule-based knowledge into large language models, 2024

fields

years

verdicts

representative citing papers

citing papers explorer