Fast in- ference from transformers via speculative decoding

· 2023

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Hierarchical vs. Flat Iteration in Shared-Weight Transformers

cs.CL · 2026-04-15 · unverdicted · novelty 4.0

Hierarchical two-speed shared-weight recurrence in Transformers shows a sharp performance gap compared to independent layer stacking in empirical language modeling tests.

citing papers explorer

Showing 1 of 1 citing paper.

Hierarchical vs. Flat Iteration in Shared-Weight Transformers cs.CL · 2026-04-15 · unverdicted · none · ref 28
Hierarchical two-speed shared-weight recurrence in Transformers shows a sharp performance gap compared to independent layer stacking in empirical language modeling tests.

Fast in- ference from transformers via speculative decoding

fields

years

verdicts

representative citing papers

citing papers explorer