Gomez, Lukasz Kaiser, and Illia Polosukhin

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N · 2017

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

citation-role summary

background 2

citation-polarity summary

background 2

representative citing papers

Twincher: Bijective Representation Learning for Robust Inversion of Continuous Systems

cs.LG · 2026-05-13 · unverdicted · novelty 6.0

Twincher learns bijective representations of observations aligned with continuous system parameters to enable robust iterative inversion, showing better data efficiency and noise tolerance than standard inverse modeling on synthetic systems.

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

cs.LG · 2026-05-07 · unverdicted · novelty 6.0

Mean-Variance Split residuals separate centered variation from mean updates to prevent collapse and enable stable training of 1000-layer Diffusion Transformers.

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

cs.CL · 2020-06-30 · unverdicted · novelty 6.0

GShard supplies automatic sharding and conditional computation support that enabled training a 600-billion-parameter multilingual translation model on thousands of TPUs with superior quality.

citing papers explorer

Showing 3 of 3 citing papers.

Twincher: Bijective Representation Learning for Robust Inversion of Continuous Systems cs.LG · 2026-05-13 · unverdicted · none · ref 3
Twincher learns bijective representations of observations aligned with continuous system parameters to enable robust iterative inversion, showing better data efficiency and noise tolerance than standard inverse modeling on synthetic systems.
Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers cs.LG · 2026-05-07 · unverdicted · none · ref 7
Mean-Variance Split residuals separate centered variation from mean updates to prevent collapse and enable stable training of 1000-layer Diffusion Transformers.
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding cs.CL · 2020-06-30 · unverdicted · none · ref 10
GShard supplies automatic sharding and conditional computation support that enabled training a 600-billion-parameter multilingual translation model on thousands of TPUs with superior quality.

Gomez, Lukasz Kaiser, and Illia Polosukhin

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer