EfficientQAT: Efficient quantization-aware training for large language models.ACL, 2025

Mengzhao Chen, Wenqi Shao, Peng Xu, et al · 2025

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

cs.LG · 2026-04-22 · conditional · novelty 6.0

FairyFuse enables multiplication-free ternary LLM inference on CPUs via fused AVX-512 kernels, achieving 29.6x kernel speedup and 32.4 tokens/s on Xeon with near-lossless quality.

citing papers explorer

Showing 1 of 1 citing paper.

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels cs.LG · 2026-04-22 · conditional · none · ref 3
FairyFuse enables multiplication-free ternary LLM inference on CPUs via fused AVX-512 kernels, achieving 29.6x kernel speedup and 32.4 tokens/s on Xeon with near-lossless quality.

EfficientQAT: Efficient quantization-aware training for large language models.ACL, 2025

fields

years

verdicts

representative citing papers

citing papers explorer