{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:YGDLGXJK45MIHSO7LWD27UDDC7","short_pith_number":"pith:YGDLGXJK","schema_version":"1.0","canonical_sha256":"c186b35d2ae75883c9df5d87afd06317d6869061949e4a452da3c46492fb8e26","source":{"kind":"arxiv","id":"2403.17297","version":1},"attestation_state":"computed","paper":{"title":"InternLM2 Technical Report","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"InternLM2 outperforms prior open-source LLMs on 30 benchmarks, long-context tasks up to 200k tokens, and subjective evaluations via staged pre-training and COOL RLHF alignment.","cross_cats":["cs.AI"],"primary_cat":"cs.CL","authors_text":"Aijia Guo, Bin Wang, Chao Xu, Chengqi Lv, Chenya Gu, Chuyu Zhang, Conghui He, Dahua Lin, Demin Song, Fan Wu, Fengzhe Zhou, Fukai Shang, Guoteng Wang, Haijun Lv, Hang Yan, Haochen Ye, Haodong Duan, Haojiong Chen, Hongwei Liu, Huaiyuan Ying, Huanze Tang, Hui Zhao, Jiangning Liu, Jiantao Qiu, Jiaqi Wang, Jiawei Hong, Jiaxing Li, Jiaye Ge, Jia Yu, Jiayu Wang, Jingming Zhuo, Jingwen Li, Jing Yu, Kai Chen, Kai Lv, Kaiwen Liu, Keyu Chen, Kuikun Liu, Li Ma, Linke Ouyang, Linyang Li, Li Zhang, Maosong Cao, Pan Zhang, Pei Chu, Penglong Jiao, Peng Sun, Peng Zhang, Qian Zhao, Qi Fan, Qipeng Guo, Qizhen Weng, Ruijie Zhang, Ruiliang Xu, Rui Wang, Runyuan Ma, Shuaibin Li, Shuo Zhang, Songyang Zhang, Tao Gui, Tao Jiang, Ting Huang, Wei Li, Wenchang Ning, Wenjian Zhang, Wenwei Zhang, Xiaogui Yang, Xiaomeng Zhao, Xiaoran Liu, Xiaoyi Dong, Xin Chen, Xingcheng Zhang, Xingjian Wei, Xinyue Zhang, Xipeng Qiu, Xun Chen, Yang Gao, Yicheng Zou, Yingfan Hu, Yingtong Xiong, Yining Li, Yirong Yan, Yuan Qu, Yudong Wang, Yuhang Zang, Yunfan Shao, Yu Qiao, Yu Sun, Yuzhe Gu, Zaida Zhou, Zehui Chen, Zerun Ma, Zhaoye Fei, Zheng Cai, Zhenjiang Jin, Zhi Chen, Zhihao Sui, Zhikai Lei, Zifan Song, Ziyi Wang","submitted_at":"2024-03-26T00:53:24Z","abstract_excerpt":"The evolution of Large Language Models (LLMs) like ChatGPT and GPT-4 has sparked discussions on the advent of Artificial General Intelligence (AGI). However, replicating such advancements in open-source models has been challenging. This paper introduces InternLM2, an open-source LLM that outperforms its predecessors in comprehensive evaluations across 6 dimensions and 30 benchmarks, long-context modeling, and open-ended subjective evaluations through innovative pre-training and optimization techniques. The pre-training process of InternLM2 is meticulously detailed, highlighting the preparation"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2403.17297","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2024-03-26T00:53:24Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"c68c7b4fd42ce43293000a5c5d0e9f23abf3464ed1e8fcaa1cc85474eded6201","abstract_canon_sha256":"9f17aa486b94980a66d7ee8ea79278476f4545a7dfde7563d75d229fe66a619e"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:52.643367Z","signature_b64":"IqJ/jwah6MrcW0XmzWoF8rMM8U5S7VAfayf98wB417atwoSAO2YE+38nuH4hzdrF1tUzv+xXV2CEPENaFElXDQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"c186b35d2ae75883c9df5d87afd06317d6869061949e4a452da3c46492fb8e26","last_reissued_at":"2026-05-17T23:38:52.642763Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:52.642763Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"InternLM2 Technical Report","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"InternLM2 outperforms prior open-source LLMs on 30 benchmarks, long-context tasks up to 200k tokens, and subjective evaluations via staged pre-training and COOL RLHF alignment.","cross_cats":["cs.AI"],"primary_cat":"cs.CL","authors_text":"Aijia Guo, Bin Wang, Chao Xu, Chengqi Lv, Chenya Gu, Chuyu Zhang, Conghui He, Dahua Lin, Demin Song, Fan Wu, Fengzhe Zhou, Fukai Shang, Guoteng Wang, Haijun Lv, Hang Yan, Haochen Ye, Haodong Duan, Haojiong Chen, Hongwei Liu, Huaiyuan Ying, Huanze Tang, Hui Zhao, Jiangning Liu, Jiantao Qiu, Jiaqi Wang, Jiawei Hong, Jiaxing Li, Jiaye Ge, Jia Yu, Jiayu Wang, Jingming Zhuo, Jingwen Li, Jing Yu, Kai Chen, Kai Lv, Kaiwen Liu, Keyu Chen, Kuikun Liu, Li Ma, Linke Ouyang, Linyang Li, Li Zhang, Maosong Cao, Pan Zhang, Pei Chu, Penglong Jiao, Peng Sun, Peng Zhang, Qian Zhao, Qi Fan, Qipeng Guo, Qizhen Weng, Ruijie Zhang, Ruiliang Xu, Rui Wang, Runyuan Ma, Shuaibin Li, Shuo Zhang, Songyang Zhang, Tao Gui, Tao Jiang, Ting Huang, Wei Li, Wenchang Ning, Wenjian Zhang, Wenwei Zhang, Xiaogui Yang, Xiaomeng Zhao, Xiaoran Liu, Xiaoyi Dong, Xin Chen, Xingcheng Zhang, Xingjian Wei, Xinyue Zhang, Xipeng Qiu, Xun Chen, Yang Gao, Yicheng Zou, Yingfan Hu, Yingtong Xiong, Yining Li, Yirong Yan, Yuan Qu, Yudong Wang, Yuhang Zang, Yunfan Shao, Yu Qiao, Yu Sun, Yuzhe Gu, Zaida Zhou, Zehui Chen, Zerun Ma, Zhaoye Fei, Zheng Cai, Zhenjiang Jin, Zhi Chen, Zhihao Sui, Zhikai Lei, Zifan Song, Ziyi Wang","submitted_at":"2024-03-26T00:53:24Z","abstract_excerpt":"The evolution of Large Language Models (LLMs) like ChatGPT and GPT-4 has sparked discussions on the advent of Artificial General Intelligence (AGI). However, replicating such advancements in open-source models has been challenging. This paper introduces InternLM2, an open-source LLM that outperforms its predecessors in comprehensive evaluations across 6 dimensions and 30 benchmarks, long-context modeling, and open-ended subjective evaluations through innovative pre-training and optimization techniques. The pre-training process of InternLM2 is meticulously detailed, highlighting the preparation"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"InternLM2 outperforms its predecessors in comprehensive evaluations across 6 dimensions and 30 benchmarks, long-context modeling, and open-ended subjective evaluations through innovative pre-training and optimization techniques.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the chosen 30 benchmarks and subjective evaluations fairly measure general capability without hidden selection effects or prompt sensitivity that would change the ranking if different test suites were used.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"InternLM2 is a new open-source LLM that outperforms prior versions on 30 benchmarks and long-context tasks through scaled pre-training to 32k tokens and a conditional online RLHF alignment strategy.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"InternLM2 outperforms prior open-source LLMs on 30 benchmarks, long-context tasks up to 200k tokens, and subjective evaluations via staged pre-training and COOL RLHF alignment.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"16e8e95ae0682d9a89bf489485dacfaf642717b579d779c4139a6733e3b14374"},"source":{"id":"2403.17297","kind":"arxiv","version":1},"verdict":{"id":"33116d7b-f228-468a-8edb-414e97de2a8e","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T11:40:36.165748Z","strongest_claim":"InternLM2 outperforms its predecessors in comprehensive evaluations across 6 dimensions and 30 benchmarks, long-context modeling, and open-ended subjective evaluations through innovative pre-training and optimization techniques.","one_line_summary":"InternLM2 is a new open-source LLM that outperforms prior versions on 30 benchmarks and long-context tasks through scaled pre-training to 32k tokens and a conditional online RLHF alignment strategy.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the chosen 30 benchmarks and subjective evaluations fairly measure general capability without hidden selection effects or prompt sensitivity that would change the ranking if different test suites were used.","pith_extraction_headline":"InternLM2 outperforms prior open-source LLMs on 30 benchmarks, long-context tasks up to 200k tokens, and subjective evaluations via staged pre-training and COOL RLHF alignment."},"references":{"count":172,"sample":[{"doi":"","year":2024,"title":"https://github.com/MicrosoftDocs/azure-docs/blob/main/articles/ai-services/openai/includes/chat-markup-language.md","work_id":"ddc84d2c-1d10-43c7-8407-b56827141116","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"llama.cpp: Port of facebook's llama model in c/c++. https://github.com/ggerganov/llama.cpp, 2023","work_id":"bb6f43fe-680f-452f-9df4-b29c26974610","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"GQA: training generalized multi-query transformer models from multi-head checkpoints","work_id":"37fe73b3-f28c-4784-aa61-462c2c732875","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Cibench: Evaluating your llms with a code interpreter plugin","work_id":"08d988b4-c703-40c0-97a2-50fd55e69f9b","ref_index":6,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Mathbench: Evaluating the theory and application proficiency of llms with a hierarchical mathematics benchmark","work_id":"9fbaeb80-e289-47c4-95cc-21d9641d6bbe","ref_index":7,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":172,"snapshot_sha256":"6e8479c2743ba1128224791740eb89545eab75d970448c68f5dc3443df7aee6b","internal_anchors":32},"formal_canon":{"evidence_count":2,"snapshot_sha256":"aa67b71682c6be8fbc556af10514ed3621dc11c08cc65f91735706cabb334ea8"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2403.17297","created_at":"2026-05-17T23:38:52.642856+00:00"},{"alias_kind":"arxiv_version","alias_value":"2403.17297v1","created_at":"2026-05-17T23:38:52.642856+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2403.17297","created_at":"2026-05-17T23:38:52.642856+00:00"},{"alias_kind":"pith_short_12","alias_value":"YGDLGXJK45MI","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"YGDLGXJK45MIHSO7","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"YGDLGXJK","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":34,"internal_anchor_count":34,"sample":[{"citing_arxiv_id":"2605.23315","citing_title":"Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2401.02458","citing_title":"Data-Centric Foundation Models in Computational Healthcare: A Survey","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2406.11939","citing_title":"From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2507.14200","citing_title":"A Scalable Multi-LLM Collaboration System with Retrieval-based Selection and Exploration-Exploitation-Driven Enhancement","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16770","citing_title":"Exploring Lightweight Large Language Models for Court View Generation","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2505.03233","citing_title":"GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data","ref_index":70,"is_internal_anchor":true},{"citing_arxiv_id":"2410.18451","citing_title":"Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2407.03320","citing_title":"InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2511.23332","citing_title":"UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2501.12386","citing_title":"InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2411.10442","citing_title":"Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07605","citing_title":"Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2602.12125","citing_title":"Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2409.18839","citing_title":"MinerU: An Open-Source Solution for Precise Document Content Extraction","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2602.24273","citing_title":"A Minimal Agent for Automated Theorem Proving","ref_index":57,"is_internal_anchor":true},{"citing_arxiv_id":"2603.13224","citing_title":"Visual-ERM: Reward Modeling for Visual Equivalence","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2503.01785","citing_title":"Visual-RFT: Visual Reinforcement Fine-Tuning","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2404.16821","citing_title":"How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2503.09567","citing_title":"Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models","ref_index":64,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09352","citing_title":"The Wittgensteinian Representation Hypothesis: Is Language the Attractor of Multimodal Convergence?","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08962","citing_title":"MegaScale-Omni: A Hyper-Scale, Workload-Resilient System for MultiModal LLM Training in Production","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04870","citing_title":"VTAgent: Agentic Keyframe Anchoring for Evidence-Aware Video TextVQA","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04495","citing_title":"CAR: Query-Guided Confidence-Aware Reranking for Retrieval-Augmented Generation","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04831","citing_title":"StoryAlign: Evaluating and Training Reward Models for Story Generation","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01448","citing_title":"Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation","ref_index":3,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/YGDLGXJK45MIHSO7LWD27UDDC7","json":"https://pith.science/pith/YGDLGXJK45MIHSO7LWD27UDDC7.json","graph_json":"https://pith.science/api/pith-number/YGDLGXJK45MIHSO7LWD27UDDC7/graph.json","events_json":"https://pith.science/api/pith-number/YGDLGXJK45MIHSO7LWD27UDDC7/events.json","paper":"https://pith.science/paper/YGDLGXJK"},"agent_actions":{"view_html":"https://pith.science/pith/YGDLGXJK45MIHSO7LWD27UDDC7","download_json":"https://pith.science/pith/YGDLGXJK45MIHSO7LWD27UDDC7.json","view_paper":"https://pith.science/paper/YGDLGXJK","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2403.17297&json=true","fetch_graph":"https://pith.science/api/pith-number/YGDLGXJK45MIHSO7LWD27UDDC7/graph.json","fetch_events":"https://pith.science/api/pith-number/YGDLGXJK45MIHSO7LWD27UDDC7/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/YGDLGXJK45MIHSO7LWD27UDDC7/action/timestamp_anchor","attest_storage":"https://pith.science/pith/YGDLGXJK45MIHSO7LWD27UDDC7/action/storage_attestation","attest_author":"https://pith.science/pith/YGDLGXJK45MIHSO7LWD27UDDC7/action/author_attestation","sign_citation":"https://pith.science/pith/YGDLGXJK45MIHSO7LWD27UDDC7/action/citation_signature","submit_replication":"https://pith.science/pith/YGDLGXJK45MIHSO7LWD27UDDC7/action/replication_record"}},"created_at":"2026-05-17T23:38:52.642856+00:00","updated_at":"2026-05-17T23:38:52.642856+00:00"}