Exploiting sparsity for long context inference: Million token contexts on commodity gpus

Ryan Synk, Monte Hoover, John Kirchenbauer, Neel Jain, Alex Stein, Manli Shu, Josue Melendez Sanchez, Ramani Duraiswami, Tom Goldstein · 2025 · arXiv 2502.06766

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

read on arXiv browse 1 citing papers

representative citing papers

End-to-End Context Compression at Scale

cs.CL · 2026-06-08 · unverdicted · novelty 6.0

LCLMs are scaled 0.6B-encoder 4B-decoder compressors pre-trained on over 350B tokens that improve the Pareto frontier for general-task performance, compression speed, and peak memory in long-context language model inference.

citing papers explorer

Showing 1 of 1 citing paper after filters.

End-to-End Context Compression at Scale cs.CL · 2026-06-08 · unverdicted · none · ref 76
LCLMs are scaled 0.6B-encoder 4B-decoder compressors pre-trained on over 350B tokens that improve the Pareto frontier for general-task performance, compression speed, and peak memory in long-context language model inference.

Exploiting sparsity for long context inference: Million token contexts on commodity gpus

fields

years

verdicts

representative citing papers

citing papers explorer