Advances in Neural Information Processing Systems , volume=

PyTorch: An Imperative Style, High-Performance Deep Learning Library , author=

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

browse 4 citing papers

citation-role summary

background 1

citation-polarity summary

unclear 1

representative citing papers

Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes

cs.LG · 2026-05-09 · unverdicted · novelty 7.0 · 2 refs

Apple MPS transformer decoding shows abrupt latency spikes up to 21x in narrow decoding-budget intervals due to KV cache and execution regime shifts, absent on CPU and CUDA.

When Attention Collapses: Residual Evidence Modeling for Compositional Inference

cs.LG · 2026-05-04 · unverdicted · novelty 6.0

Standard attention collapses on additively mixed signals because it is memoryless with respect to explained evidence, but adding multiplicative depletion with an attention bias prevents collapse and enables multi-source inference.

MiniGPT: Rebuilding GPT from First Principles

cs.CL · 2026-05-17 · conditional · novelty 2.0

MiniGPT is a self-contained PyTorch implementation of standard GPT autoregressive modeling that reaches 1.478 validation loss on Tiny Shakespeare with a 10.77M-parameter model and produces recognizable Shakespeare-style text.

HyperBones: Realtime Bone-driven Neural Garment Simulation with Hypernetwork Conditioning

cs.GR · 2026-05-19

citing papers explorer

Showing 4 of 4 citing papers.

Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes cs.LG · 2026-05-09 · unverdicted · none · ref 1 · 2 links
Apple MPS transformer decoding shows abrupt latency spikes up to 21x in narrow decoding-budget intervals due to KV cache and execution regime shifts, absent on CPU and CUDA.
When Attention Collapses: Residual Evidence Modeling for Compositional Inference cs.LG · 2026-05-04 · unverdicted · none · ref 26
Standard attention collapses on additively mixed signals because it is memoryless with respect to explained evidence, but adding multiplicative depletion with an attention bias prevents collapse and enables multi-source inference.
MiniGPT: Rebuilding GPT from First Principles cs.CL · 2026-05-17 · conditional · none · ref 29
MiniGPT is a self-contained PyTorch implementation of standard GPT autoregressive modeling that reaches 1.478 validation loss on Tiny Shakespeare with a 10.77M-parameter model and produces recognizable Shakespeare-style text.
HyperBones: Realtime Bone-driven Neural Garment Simulation with Hypernetwork Conditioning cs.GR · 2026-05-19 · unreviewed · ref 27

Advances in Neural Information Processing Systems , volume=

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer