Efficient memory management for large language model serving with pagedattention

Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph Gonzalez, Hao Zhang, Ion Stoica · 2023

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Diagonal-Tiled Mixed-Precision Attention for Efficient Low-Bit MXFP Inference

cs.LG · 2026-04-05 · unverdicted · novelty 5.0

DMA delivers a fused low-bit MXFP attention kernel with diagonal tiling that achieves significant speedup on B200 GPUs with negligible generation quality loss.

citing papers explorer

Showing 1 of 1 citing paper.

Diagonal-Tiled Mixed-Precision Attention for Efficient Low-Bit MXFP Inference cs.LG · 2026-04-05 · unverdicted · none · ref 11
DMA delivers a fused low-bit MXFP attention kernel with diagonal tiling that achieves significant speedup on B200 GPUs with negligible generation quality loss.

Efficient memory management for large language model serving with pagedattention

fields

years

verdicts

representative citing papers

citing papers explorer