System optimizations for enabling training of extreme long sequence transformer models

Jacobs, S · 2024 · arXiv 2158.366280

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention

cs.LG · 2026-04-15 · unverdicted · novelty 5.0

SparseBalance dynamically adjusts sparsity and batches workloads to load-balance sparse attention training, delivering up to 1.33x speedup and 0.46% better long-context performance on LongBench.

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

cs.CL · 2026-04-04 · unverdicted · novelty 4.0

Parallel chunk processing with evidence-anchored consolidation reduces omission errors by 84%, boosts traceability by 130%, and cuts unsupported claims by 91% in LLM long-document analysis.

citing papers explorer

Showing 2 of 2 citing papers.

SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention cs.LG · 2026-04-15 · unverdicted · none · ref 16
SparseBalance dynamically adjusts sparsity and batches workloads to load-balance sparse attention training, delivering up to 1.33x speedup and 0.46% better long-context performance on LongBench.
Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction cs.CL · 2026-04-04 · unverdicted · none · ref 32
Parallel chunk processing with evidence-anchored consolidation reduces omission errors by 84%, boosts traceability by 130%, and cuts unsupported claims by 91% in LLM long-document analysis.

System optimizations for enabling training of extreme long sequence transformer models

fields

years

verdicts

representative citing papers

citing papers explorer