Automated tensor model parallelism with overlapped communication for efficient foundation model training

Shengwei Li, Zhiquan Lai, Yanqi Hao, Weijie Liu, Keshi Ge, Xiaoge Deng, Dongsheng Li, Kai Lu · 2023 · arXiv 2305.16121

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

CommFuse: Hiding Tail Latency via Communication Decomposition and Fusion for Distributed LLM Training

cs.LG · 2026-04-27 · unverdicted · novelty 6.0

CommFuse eliminates tail latency in communication-computation overlap for distributed LLM training by decomposing collective operations into P2P communications and fusing them with fine-grained computation scheduling.

citing papers explorer

Showing 1 of 1 citing paper.

CommFuse: Hiding Tail Latency via Communication Decomposition and Fusion for Distributed LLM Training cs.LG · 2026-04-27 · unverdicted · none · ref 17
CommFuse eliminates tail latency in communication-computation overlap for distributed LLM training by decomposing collective operations into P2P communications and fusing them with fine-grained computation scheduling.

Automated tensor model parallelism with overlapped communication for efficient foundation model training

fields

years

verdicts

representative citing papers

citing papers explorer