Deep equilibrium models

· 2019

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

browse 1 citing papers

representative citing papers

Hierarchical vs. Flat Iteration in Shared-Weight Transformers

cs.CL · 2026-04-15 · unverdicted · novelty 4.0

Hierarchical two-speed shared-weight recurrence in Transformers shows a sharp performance gap compared to independent layer stacking in empirical language modeling tests.

citing papers explorer

Showing 1 of 1 citing paper.

Hierarchical vs. Flat Iteration in Shared-Weight Transformers cs.CL · 2026-04-15 · unverdicted · none · ref 11
Hierarchical two-speed shared-weight recurrence in Transformers shows a sharp performance gap compared to independent layer stacking in empirical language modeling tests.

Deep equilibrium models

fields

years

verdicts

representative citing papers

citing papers explorer