Parameter-efficient sparsity crafting from dense to mixture-of-experts for instruction tuning on general tasks.arXiv preprint arXiv: 2401.02731, 2024b

Haoyuan Wu, Haisheng Zheng, Bei Yu · 2024 · arXiv 2401.02731

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Functional-level Uncertainty Quantification for Calibrated Fine-tuning on LLMs

cs.LG · 2024-10-09 · unverdicted · novelty 7.0

UQ4CT integrates functional-level uncertainty calibration into mixture-of-experts LoRA fine-tuning via a dedicated loss, cutting expected calibration error by over 25% on multiple-choice and generative QA tasks.

Analytical FFN-to-MoE Restructuring via Activation Pattern Analysis

cs.LG · 2025-02-06 · unverdicted · novelty 6.0

An analytical post-training method restructures FFNs into MoE by partitioning neurons based on activation patterns and building a router from statistics, achieving 1.17x speedup with minimal resources.

citing papers explorer

Showing 2 of 2 citing papers.

Functional-level Uncertainty Quantification for Calibrated Fine-tuning on LLMs cs.LG · 2024-10-09 · unverdicted · none · ref 19
UQ4CT integrates functional-level uncertainty calibration into mixture-of-experts LoRA fine-tuning via a dedicated loss, cutting expected calibration error by over 25% on multiple-choice and generative QA tasks.
Analytical FFN-to-MoE Restructuring via Activation Pattern Analysis cs.LG · 2025-02-06 · unverdicted · none · ref 19
An analytical post-training method restructures FFNs into MoE by partitioning neurons based on activation patterns and building a router from statistics, achieving 1.17x speedup with minimal resources.

Parameter-efficient sparsity crafting from dense to mixture-of-experts for instruction tuning on general tasks.arXiv preprint arXiv: 2401.02731, 2024b

fields

years

verdicts

representative citing papers

citing papers explorer