Pard: Accelerating llm inference with low-cost parallel draft model adaptation

Zihao An, Huajun Bai, Ziqiong Liu, Dong Li, Emad Barsoum · 2026

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration

cs.CL · 2026-05-19 · unverdicted · novelty 6.0

FlexDraft is a lossless speculative decoding framework that adapts to batch sizes via attention tuning on final layers, MLP-based bonus calibration, and dynamic parallel/sequential decoding.

citing papers explorer

Showing 1 of 1 citing paper.

FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration cs.CL · 2026-05-19 · unverdicted · none · ref 1
FlexDraft is a lossless speculative decoding framework that adapts to batch sizes via attention tuning on final layers, MLP-based bonus calibration, and dynamic parallel/sequential decoding.

Pard: Accelerating llm inference with low-cost parallel draft model adaptation

fields

years

verdicts

representative citing papers

citing papers explorer