{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:WSQP4RCK2AH3TFATZQ23MUUQQK","short_pith_number":"pith:WSQP4RCK","schema_version":"1.0","canonical_sha256":"b4a0fe444ad00fb99413cc35b65290828da1ea0d33ae3182cd84e98914202ccd","source":{"kind":"arxiv","id":"2501.08313","version":1},"attestation_state":"computed","paper":{"title":"MiniMax-01: Scaling Foundation Models with Lightning Attention","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"MiniMax-01 matches GPT-4o and Claude-3.5-Sonnet performance while supporting 20-32 times longer contexts.","cross_cats":["cs.CV"],"primary_cat":"cs.CL","authors_text":"Aonian Li, Bangwei Gong, Boji Shan, Bo Yang, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jingtao Han, Jingyang Li, Jin Zhu, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Linbo Chai, Lin Zheng, Long Xing, Meizhi Ju, Mingyuan Chi, MiniMax, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Qi Yang, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiaodong Han, Xiao Su, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhenhua Fan, Zhen Qin, Zhihang Yu, Zhuo Jiang, Zijia Wu","submitted_at":"2025-01-14T18:50:05Z","abstract_excerpt":"We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This app"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2501.08313","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2025-01-14T18:50:05Z","cross_cats_sorted":["cs.CV"],"title_canon_sha256":"5982cf85dc8f4ced5ffa68d3232fd5356221326bda3570f2e0e5d3a133bcec9a","abstract_canon_sha256":"42614d59c7a60130d5893b48965ded06dc631cde6d350ccbaa9321f080ac4f85"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:48.843003Z","signature_b64":"eWQeRmNDlsN/8D/S3YUfmbTz6wZp/IXp+lkUBKquiGjJVbeX0lB91JaCd+HIDseCZScrDDWlDiMyvQjZYL+hAw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"b4a0fe444ad00fb99413cc35b65290828da1ea0d33ae3182cd84e98914202ccd","last_reissued_at":"2026-05-17T23:38:48.842422Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:48.842422Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"MiniMax-01: Scaling Foundation Models with Lightning Attention","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"MiniMax-01 matches GPT-4o and Claude-3.5-Sonnet performance while supporting 20-32 times longer contexts.","cross_cats":["cs.CV"],"primary_cat":"cs.CL","authors_text":"Aonian Li, Bangwei Gong, Boji Shan, Bo Yang, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jingtao Han, Jingyang Li, Jin Zhu, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Linbo Chai, Lin Zheng, Long Xing, Meizhi Ju, Mingyuan Chi, MiniMax, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Qi Yang, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiaodong Han, Xiao Su, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhenhua Fan, Zhen Qin, Zhihang Yu, Zhuo Jiang, Zijia Wu","submitted_at":"2025-01-14T18:50:05Z","abstract_excerpt":"We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This app"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That lightning attention combined with the described MoE parallel and overlap techniques preserves model quality and training stability at the claimed parameter and context scales without unstated performance trade-offs or instabilities.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"MiniMax-01 models match GPT-4o and Claude-3.5-Sonnet performance while providing 20-32 times longer context windows through lightning attention and MoE scaling.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"MiniMax-01 matches GPT-4o and Claude-3.5-Sonnet performance while supporting 20-32 times longer contexts.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"86b0864d2d1ac549c641ba98c6790c2accc7261d06ccc091cf5b3fa807498d2a"},"source":{"id":"2501.08313","kind":"arxiv","version":1},"verdict":{"id":"b49003b3-012d-445e-9eac-80c9bc1d43b4","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T06:21:57.513106Z","strongest_claim":"Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window.","one_line_summary":"MiniMax-01 models match GPT-4o and Claude-3.5-Sonnet performance while providing 20-32 times longer context windows through lightning attention and MoE scaling.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That lightning attention combined with the described MoE parallel and overlap techniques preserves model quality and training stability at the claimed parameter and context scales without unstated performance trade-offs or instabilities.","pith_extraction_headline":"MiniMax-01 matches GPT-4o and Claude-3.5-Sonnet performance while supporting 20-32 times longer contexts."},"references":{"count":68,"sample":[{"doi":"","year":2020,"title":"MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark","work_id":"19883673-604e-4b58-b036-5a04ec11a6f9","ref_index":1,"cited_arxiv_id":"2409.02813","is_internal_anchor":true},{"doi":"","year":null,"title":"Introduction and Motivation The rapid advancement of large language models (LLMs) has significantly enhanced their capabilities but has also raised concerns about their alignment with human values and","work_id":"867d8b23-3ef8-4fc0-a5df-fab6d2061b82","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"This process repeats iteratively until the response is complete, ensuring that every sentence in the output aligns with human preferences","work_id":"c10721d0-f73c-44f8-b171-d2e0ad18b803","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"The training objective is to mini- mize the negative log-likelihood loss between the model’s output and the corrected answer","work_id":"026f6528-4c9f-4626-9640-19cbbdaca167","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Experimental Results The paper evaluates Stream Aligner on three tasks: helpful and harmless QA, math questions, and sum- mary tasks. The results demonstrate significant im- provements: • Helpfulness ","work_id":"db0f776f-370c-4835-9a2d-30612a6feb19","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":68,"snapshot_sha256":"c0d2aeccf9e27e977caa1153bf4c18dbe899e104070821146cb6c8e4fc990412","internal_anchors":9},"formal_canon":{"evidence_count":3,"snapshot_sha256":"ced8deb1d46680f36d7d5f5c2f2d8acf29b12c64aa18e84260b9709a583c59ee"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2501.08313","created_at":"2026-05-17T23:38:48.842493+00:00"},{"alias_kind":"arxiv_version","alias_value":"2501.08313v1","created_at":"2026-05-17T23:38:48.842493+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2501.08313","created_at":"2026-05-17T23:38:48.842493+00:00"},{"alias_kind":"pith_short_12","alias_value":"WSQP4RCK2AH3","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"WSQP4RCK2AH3TFAT","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"WSQP4RCK","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":33,"internal_anchor_count":33,"sample":[{"citing_arxiv_id":"2410.13846","citing_title":"LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2502.13923","citing_title":"Qwen2.5-VL Technical Report","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18848","citing_title":"Exact Linear Attention","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18848","citing_title":"Exact Linear Attention","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18430","citing_title":"Text2CAD-Bench: A Benchmark for LLM-based Text-to-Parametric CAD Generation","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2507.23386","citing_title":"Causal2Vec: Improving Decoder-only LLMs as Embedding Models through a Contextual Token","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2509.21275","citing_title":"InfiniPipe: Elastic Pipeline Parallelism for Efficient Variable-Length Long-Context LLM Training","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2509.22630","citing_title":"StateX: Enhancing RNN Recall via Post-training State Expansion","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2510.04800","citing_title":"Hybrid Architectures for Language Models: Systematic Analysis and Design Insights","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2510.04595","citing_title":"SpikingMamba: Towards Energy-Efficient Large Language Models via Knowledge Distillation from Mamba","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2511.21471","citing_title":"SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2502.13189","citing_title":"MoBA: Mixture of Block Attention for Long-Context LLMs","ref_index":59,"is_internal_anchor":true},{"citing_arxiv_id":"2507.02259","citing_title":"MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2603.28458","citing_title":"HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09505","citing_title":"EpiGraph: Building Generalists for Evidence-Intensive Epilepsy Reasoning in the Wild","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2510.26692","citing_title":"Kimi Linear: An Expressive, Efficient Attention Architecture","ref_index":67,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11733","citing_title":"Position: LLM Inference Should Be Evaluated as Energy-to-Token Production","ref_index":62,"is_internal_anchor":true},{"citing_arxiv_id":"2506.13585","citing_title":"MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2505.06708","citing_title":"Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09505","citing_title":"EpiGraph: Building Generalists for Evidence-Intensive Epilepsy Reasoning in the Wild","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11790","citing_title":"ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02821","citing_title":"When Is the Same Model Not the Same Service? A Measurement Study of Hosted Open-Weight LLM APIs","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24715","citing_title":"Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06221","citing_title":"UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02821","citing_title":"When Is the Same Model Not the Same Service? A Measurement Study of Hosted Open-Weight LLM APIs","ref_index":8,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":3,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/WSQP4RCK2AH3TFATZQ23MUUQQK","json":"https://pith.science/pith/WSQP4RCK2AH3TFATZQ23MUUQQK.json","graph_json":"https://pith.science/api/pith-number/WSQP4RCK2AH3TFATZQ23MUUQQK/graph.json","events_json":"https://pith.science/api/pith-number/WSQP4RCK2AH3TFATZQ23MUUQQK/events.json","paper":"https://pith.science/paper/WSQP4RCK"},"agent_actions":{"view_html":"https://pith.science/pith/WSQP4RCK2AH3TFATZQ23MUUQQK","download_json":"https://pith.science/pith/WSQP4RCK2AH3TFATZQ23MUUQQK.json","view_paper":"https://pith.science/paper/WSQP4RCK","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2501.08313&json=true","fetch_graph":"https://pith.science/api/pith-number/WSQP4RCK2AH3TFATZQ23MUUQQK/graph.json","fetch_events":"https://pith.science/api/pith-number/WSQP4RCK2AH3TFATZQ23MUUQQK/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/WSQP4RCK2AH3TFATZQ23MUUQQK/action/timestamp_anchor","attest_storage":"https://pith.science/pith/WSQP4RCK2AH3TFATZQ23MUUQQK/action/storage_attestation","attest_author":"https://pith.science/pith/WSQP4RCK2AH3TFATZQ23MUUQQK/action/author_attestation","sign_citation":"https://pith.science/pith/WSQP4RCK2AH3TFATZQ23MUUQQK/action/citation_signature","submit_replication":"https://pith.science/pith/WSQP4RCK2AH3TFATZQ23MUUQQK/action/replication_record"}},"created_at":"2026-05-17T23:38:48.842493+00:00","updated_at":"2026-05-17T23:38:48.842493+00:00"}