GPTQ: Accurate post-training quantization for generative pre-trained transformers

Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh · 2023

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

browse 2 citing papers

representative citing papers

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

cs.LG · 2026-04-22 · conditional · novelty 6.0

FairyFuse enables multiplication-free ternary LLM inference on CPUs via fused AVX-512 kernels, achieving 29.6x kernel speedup and 32.4 tokens/s on Xeon with near-lossless quality.

Measuring Maximum Activations in Open Large Language Models

cs.CL · 2026-05-15

citing papers explorer

Showing 2 of 2 citing papers.

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels cs.LG · 2026-04-22 · conditional · none · ref 9
FairyFuse enables multiplication-free ternary LLM inference on CPUs via fused AVX-512 kernels, achieving 29.6x kernel speedup and 32.4 tokens/s on Xeon with near-lossless quality.
Measuring Maximum Activations in Open Large Language Models cs.CL · 2026-05-15 · unreviewed · ref 12

GPTQ: Accurate post-training quantization for generative pre-trained transformers

fields

years

verdicts

representative citing papers

citing papers explorer