{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:RDI4RZGZ2IS7TIMSM7WPIBC4BX","short_pith_number":"pith:RDI4RZGZ","schema_version":"1.0","canonical_sha256":"88d1c8e4d9d225f9a19267ecf4045c0ddf7862abce6668f060d7fca71f012c87","source":{"kind":"arxiv","id":"2501.12386","version":3},"attestation_state":"computed","paper":{"title":"InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"Long and rich context modeling lets video MLLMs process at least six times longer inputs while gaining object tracking and segmentation skills.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Changlian Ma, Chenting Wang, Haian Huang, Jianfei Gao, Jiashuo Yu, Kai Chen, Limin Wang, Min Dou, Wenhai Wang, Xiangyu Zeng, Xinhao Li, Yali Wang, Yinan He, Yi Wang, Yu Qiao, Ziang Yan","submitted_at":"2025-01-21T18:59:00Z","abstract_excerpt":"This paper aims to improve the performance of video multimodal large language models (MLLM) via long and rich context (LRC) modeling. As a result, we develop a new version of InternVideo2.5 with a focus on enhancing the original MLLMs' ability to perceive fine-grained details and capture long-form temporal structure in videos. Specifically, our approach incorporates dense vision task annotations into MLLMs using direct preference optimization and develops compact spatiotemporal representations through adaptive hierarchical token compression. Experimental results demonstrate this unique design "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2501.12386","kind":"arxiv","version":3},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.CV","submitted_at":"2025-01-21T18:59:00Z","cross_cats_sorted":[],"title_canon_sha256":"dde1b16d0f441e24c50b224a891f44b330b55b20a8347dab0577c123db7179f2","abstract_canon_sha256":"8df7b623dddd4a4075d05f7a8df1784604860d9c0984f680b8368e1ffc14d47a"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:15.345519Z","signature_b64":"bPF1S2+dVntQzuvqENyLDCFdlLy6G8DvYg7w/wmVtlMkTgHf44c7nwkhbxE45tKEFcCLO9A1DmgOG1NJhXIrCA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"88d1c8e4d9d225f9a19267ecf4045c0ddf7862abce6668f060d7fca71f012c87","last_reissued_at":"2026-05-17T23:38:15.344963Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:15.344963Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"Long and rich context modeling lets video MLLMs process at least six times longer inputs while gaining object tracking and segmentation skills.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Changlian Ma, Chenting Wang, Haian Huang, Jianfei Gao, Jiashuo Yu, Kai Chen, Limin Wang, Min Dou, Wenhai Wang, Xiangyu Zeng, Xinhao Li, Yali Wang, Yinan He, Yi Wang, Yu Qiao, Ziang Yan","submitted_at":"2025-01-21T18:59:00Z","abstract_excerpt":"This paper aims to improve the performance of video multimodal large language models (MLLM) via long and rich context (LRC) modeling. As a result, we develop a new version of InternVideo2.5 with a focus on enhancing the original MLLMs' ability to perceive fine-grained details and capture long-form temporal structure in videos. Specifically, our approach incorporates dense vision task annotations into MLLMs using direct preference optimization and develops compact spatiotemporal representations through adaptive hierarchical token compression. Experimental results demonstrate this unique design "},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Experimental results demonstrate this unique design of LRC greatly improves the results of video MLLM in mainstream video understanding benchmarks (short & long), enabling the MLLM to memorize significantly longer video inputs (at least 6x longer than the original), and master specialized vision capabilities like object tracking and segmentation.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The reported gains in context length, benchmark scores, and specialized vision tasks are attributable to the long and rich context modeling components rather than differences in training data volume, model scale, or benchmark selection.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"InternVideo2.5 improves video MLLMs by incorporating dense vision task annotations via direct preference optimization and compact spatiotemporal representations via adaptive hierarchical token compression, yielding better benchmark performance, 6x longer video memory, and new capabilities likeobject","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Long and rich context modeling lets video MLLMs process at least six times longer inputs while gaining object tracking and segmentation skills.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"24e1d7d83ef4e036b61f00a07dc07aaa2f66a25da1b818be50d48360e5c0ae1a"},"source":{"id":"2501.12386","kind":"arxiv","version":3},"verdict":{"id":"c5a786dc-626e-4ef8-80e5-fe0d71300634","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-17T02:47:18.187982Z","strongest_claim":"Experimental results demonstrate this unique design of LRC greatly improves the results of video MLLM in mainstream video understanding benchmarks (short & long), enabling the MLLM to memorize significantly longer video inputs (at least 6x longer than the original), and master specialized vision capabilities like object tracking and segmentation.","one_line_summary":"InternVideo2.5 improves video MLLMs by incorporating dense vision task annotations via direct preference optimization and compact spatiotemporal representations via adaptive hierarchical token compression, yielding better benchmark performance, 6x longer video memory, and new capabilities likeobject","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The reported gains in context length, benchmark scores, and specialized vision tasks are attributable to the long and rich context modeling components rather than differences in training data volume, model scale, or benchmark selection.","pith_extraction_headline":"Long and rich context modeling lets video MLLMs process at least six times longer inputs while gaining object tracking and segmentation skills."},"references":{"count":37,"sample":[{"doi":"","year":null,"title":"Cosmos World Foundation Model Platform for Physical AI","work_id":"a2dba24c-318d-476a-8b21-4289c265810c","ref_index":1,"cited_arxiv_id":"2501.03575","is_internal_anchor":true},{"doi":"","year":null,"title":"Qwen Technical Report","work_id":"bb1fd52f-6b2f-437c-9516-37bdf6eb9be8","ref_index":2,"cited_arxiv_id":"2309.16609","is_internal_anchor":true},{"doi":"","year":null,"title":"One token to seg them all: Language instructed reasoning segmentation in videos","work_id":"3968ae62-2a48-4da8-8638-9234980a83dd","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Token Merging: Your ViT But Faster","work_id":"528509bc-2611-4e7f-a772-ea14d25b6dae","ref_index":4,"cited_arxiv_id":"2210.09461","is_internal_anchor":true},{"doi":"","year":null,"title":"InternLM2 Technical Report","work_id":"dfa13e0e-1c3c-4fb6-943d-a19945bacdbe","ref_index":5,"cited_arxiv_id":"2403.17297","is_internal_anchor":true}],"resolved_work":37,"snapshot_sha256":"b621385528647ffa98231a61c588bc3ff5ec6999c9cb8367a04402497dbc9689","internal_anchors":16},"formal_canon":{"evidence_count":2,"snapshot_sha256":"1bee279f6d7aa06c23cc332c99b11764921af6e981a03f17b989cd711387185a"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2501.12386","created_at":"2026-05-17T23:38:15.345070+00:00"},{"alias_kind":"arxiv_version","alias_value":"2501.12386v3","created_at":"2026-05-17T23:38:15.345070+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2501.12386","created_at":"2026-05-17T23:38:15.345070+00:00"},{"alias_kind":"pith_short_12","alias_value":"RDI4RZGZ2IS7","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"RDI4RZGZ2IS7TIMS","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"RDI4RZGZ","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":28,"internal_anchor_count":28,"sample":[{"citing_arxiv_id":"2605.06094","citing_title":"VISD: Enhancing Video Reasoning via Structured Self-Distillation","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22269","citing_title":"MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17260","citing_title":"LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17283","citing_title":"OProver: A Unified Framework for Agentic Formal Theorem Proving","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2509.15602","citing_title":"TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2509.24943","citing_title":"Perceive, Verify and Understand Long Video: Multi-Granular Perception and Active Verification via Interactive Agents","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2505.16933","citing_title":"LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2512.03043","citing_title":"OneThinker: All-in-one Reasoning Model for Image and Video","ref_index":64,"is_internal_anchor":true},{"citing_arxiv_id":"2512.13511","citing_title":"Adapting MLLMs for Nuanced Video Retrieval","ref_index":75,"is_internal_anchor":true},{"citing_arxiv_id":"2512.21334","citing_title":"Streaming Video Instruction Tuning","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2504.06958","citing_title":"VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14310","citing_title":"CoRDS: Coreset-based Representative and Diverse Selection for Streaming Video Understanding","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09904","citing_title":"TOC-Bench: A Temporal Object Consistency Benchmark for Video Large Language Models","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06094","citing_title":"VISD: Enhancing Video Reasoning via Structured Self-Distillation","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09904","citing_title":"TOC-Bench: A Temporal Object Consistency Benchmark for Video Large Language Models","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09874","citing_title":"EgoMemReason: A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding","ref_index":105,"is_internal_anchor":true},{"citing_arxiv_id":"2506.01844","citing_title":"SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06094","citing_title":"VISD: Enhancing Video Reasoning via Structured Self-Distillation","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04515","citing_title":"From Priors to Perception: Grounding Video-LLMs in Physical Reality","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00496","citing_title":"High-Speed Vision Improves Zero-Shot Semantic Understanding of Human Actions","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11240","citing_title":"Decoupled Similarity for Task-Aware Token Pruning in Large Vision-Language Models","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12335","citing_title":"All in One: A Unified Synthetic Data Pipeline for Multimodal Video Understanding","ref_index":91,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08966","citing_title":"How Should Video LLMs Output Time? An Analysis of Efficient Temporal Grounding Paradigms","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08337","citing_title":"InstAP: Instance-Aware Vision-Language Pre-Train for Spatial-Temporal Understanding","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07897","citing_title":"Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding","ref_index":34,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/RDI4RZGZ2IS7TIMSM7WPIBC4BX","json":"https://pith.science/pith/RDI4RZGZ2IS7TIMSM7WPIBC4BX.json","graph_json":"https://pith.science/api/pith-number/RDI4RZGZ2IS7TIMSM7WPIBC4BX/graph.json","events_json":"https://pith.science/api/pith-number/RDI4RZGZ2IS7TIMSM7WPIBC4BX/events.json","paper":"https://pith.science/paper/RDI4RZGZ"},"agent_actions":{"view_html":"https://pith.science/pith/RDI4RZGZ2IS7TIMSM7WPIBC4BX","download_json":"https://pith.science/pith/RDI4RZGZ2IS7TIMSM7WPIBC4BX.json","view_paper":"https://pith.science/paper/RDI4RZGZ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2501.12386&json=true","fetch_graph":"https://pith.science/api/pith-number/RDI4RZGZ2IS7TIMSM7WPIBC4BX/graph.json","fetch_events":"https://pith.science/api/pith-number/RDI4RZGZ2IS7TIMSM7WPIBC4BX/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/RDI4RZGZ2IS7TIMSM7WPIBC4BX/action/timestamp_anchor","attest_storage":"https://pith.science/pith/RDI4RZGZ2IS7TIMSM7WPIBC4BX/action/storage_attestation","attest_author":"https://pith.science/pith/RDI4RZGZ2IS7TIMSM7WPIBC4BX/action/author_attestation","sign_citation":"https://pith.science/pith/RDI4RZGZ2IS7TIMSM7WPIBC4BX/action/citation_signature","submit_replication":"https://pith.science/pith/RDI4RZGZ2IS7TIMSM7WPIBC4BX/action/replication_record"}},"created_at":"2026-05-17T23:38:15.345070+00:00","updated_at":"2026-05-17T23:38:15.345070+00:00"}