Flatquant: Flatness matters for llm quantization, 2025

Yuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization

cs.LG · 2026-05-19 · unverdicted · novelty 5.0

Quant.npu provides a fully static quantization pipeline for on-device LLMs on NPUs by combining rotation matrices, bit-width-aware initialization, two-stage selective optimization, and adaptive mixed precision.

citing papers explorer

Showing 1 of 1 citing paper.

Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization cs.LG · 2026-05-19 · unverdicted · none · ref 36
Quant.npu provides a fully static quantization pipeline for on-device LLMs on NPUs by combining rotation matrices, bit-width-aware initialization, two-stage selective optimization, and adaptive mixed precision.

Flatquant: Flatness matters for llm quantization, 2025

fields

years

verdicts

representative citing papers

citing papers explorer