Pointer sentinel mixture models

Stephen Merity, Caiming Xiong, James Bradbury, Richard Socher · 2017

4 Pith papers cite this work. Polarity classification is still indexing.

4 Pith papers citing it

browse 4 citing papers

representative citing papers

Dynamic Chunking for Diffusion Language Models

cs.CL · 2026-05-15 · unverdicted · novelty 7.0

DCDM replaces positional blocks with learnable semantic chunks via differentiable Chunking Attention, yielding consistent gains over block and unstructured diffusion baselines up to 1.5B parameters.

Jordan-RoPE: Non-Semisimple Relative Positional Encoding via Complex Jordan Blocks

cs.LG · 2026-05-05 · unverdicted · novelty 7.0

Jordan-RoPE realizes a distance-modulated phase basis via non-semisimple Jordan blocks, generating features such as d e^{iωd} for relative positional encoding.

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

cs.LG · 2026-02-25 · unverdicted · novelty 7.0

TRC² is a brain-inspired decoder-only architecture that localizes fast plasticity and uses thalamic and hippocampal pathways to substantially reduce cumulative forgetting in sequential language model training on streams like C4, WikiText-103, and GSM8K.

Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs

cs.LG · 2026-05-15

citing papers explorer

Showing 4 of 4 citing papers.

Dynamic Chunking for Diffusion Language Models cs.CL · 2026-05-15 · unverdicted · none · ref 30
DCDM replaces positional blocks with learnable semantic chunks via differentiable Chunking Attention, yielding consistent gains over block and unstructured diffusion baselines up to 1.5B parameters.
Jordan-RoPE: Non-Semisimple Relative Positional Encoding via Complex Jordan Blocks cs.LG · 2026-05-05 · unverdicted · none · ref 16
Jordan-RoPE realizes a distance-modulated phase basis via non-semisimple Jordan blocks, generating features such as d e^{iωd} for relative positional encoding.
Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns cs.LG · 2026-02-25 · unverdicted · none · ref 21
TRC² is a brain-inspired decoder-only architecture that localizes fast plasticity and uses thalamic and hippocampal pathways to substantially reduce cumulative forgetting in sequential language model training on streams like C4, WikiText-103, and GSM8K.
Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs cs.LG · 2026-05-15 · unreviewed · ref 23

Pointer sentinel mixture models

fields

years

verdicts

representative citing papers

citing papers explorer