Optimal brain compression: A framework for accurate post-training quantization and pruning

Elias Frantar, Sidak Pal Singh, Dan Alistarh · 2022 · arXiv 2208.11580

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

representative citing papers

CORP: Closed-Form One-shot Representation-Preserving Structured Pruning for Transformers

cs.LG · 2026-02-05 · unverdicted · novelty 7.0

CORP performs one-shot structured pruning of Transformers by modeling removed components as affine functions of retained ones and solving closed-form ridge regressions on calibration data to fold compensation into weights, retaining 83.27% Top-1 accuracy on DeiT-Huge after 50% pruning.

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

cs.LG · 2022-10-31 · unverdicted · novelty 7.0

GPTQ quantizes 175B-parameter GPT models to 3-4 bits per weight in one shot using approximate second-order information, achieving negligible accuracy degradation and 3-4x inference speedups.

Motion-Compensated Weight Compression

cs.CV · 2026-05-23 · unverdicted · novelty 6.0

MCWC aligns permutation-symmetric blocks across layers to enable sequential prediction and residual entropy coding, improving rate-accuracy tradeoffs versus quantization and prior codecs on language and vision models.

Diagnostic-Driven Layer-Wise Compensation for Post-Training Quantization of Encoder-Decoder ASR Models

cs.SD · 2026-01-05 · unverdicted · novelty 6.0

FADE adaptively compensates for quantization errors layer-by-layer in ASR models using diagnostic scores from weight geometry and calibration data, yielding lower word error rates at 3- and 4-bit precision.

citing papers explorer

Showing 4 of 4 citing papers.

CORP: Closed-Form One-shot Representation-Preserving Structured Pruning for Transformers cs.LG · 2026-02-05 · unverdicted · none · ref 5
CORP performs one-shot structured pruning of Transformers by modeling removed components as affine functions of retained ones and solving closed-form ridge regressions on calibration data to fold compensation into weights, retaining 83.27% Top-1 accuracy on DeiT-Huge after 50% pruning.
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers cs.LG · 2022-10-31 · unverdicted · none · ref 5
GPTQ quantizes 175B-parameter GPT models to 3-4 bits per weight in one shot using approximate second-order information, achieving negligible accuracy degradation and 3-4x inference speedups.
Motion-Compensated Weight Compression cs.CV · 2026-05-23 · unverdicted · none · ref 15
MCWC aligns permutation-symmetric blocks across layers to enable sequential prediction and residual entropy coding, improving rate-accuracy tradeoffs versus quantization and prior codecs on language and vision models.
Diagnostic-Driven Layer-Wise Compensation for Post-Training Quantization of Encoder-Decoder ASR Models cs.SD · 2026-01-05 · unverdicted · none · ref 16
FADE adaptively compensates for quantization errors layer-by-layer in ASR models using diagnostic scores from weight geometry and calibration data, yielding lower word error rates at 3- and 4-bit precision.

Optimal brain compression: A framework for accurate post-training quantization and pruning

fields

years

verdicts

representative citing papers

citing papers explorer