TurboAttention: Efficient attention approximation for high throughputs LLMs.arXiv preprint arXiv:2412.08585,

Hao Kang, Srikant Bharadwaj, James Hensman, Tushar Krishna, Victor Ruhle, Saravan Rajmohan · arXiv 2412.08585

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

cs.LG · 2026-05-21 · unverdicted · novelty 6.0

ThriftAttention recovers 89.1% of the FP16 quality gap versus pure FP4 attention by running only 5% of query-key blocks in FP16 on long-context benchmarks.

citing papers explorer

Showing 1 of 1 citing paper.

ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention cs.LG · 2026-05-21 · unverdicted · none · ref 8
ThriftAttention recovers 89.1% of the FP16 quality gap versus pure FP4 attention by running only 5% of query-key blocks in FP16 on long-context benchmarks.

TurboAttention: Efficient attention approximation for high throughputs LLMs.arXiv preprint arXiv:2412.08585,

fields

years

verdicts

representative citing papers

citing papers explorer