{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:Z4MCSTT22SONSD5RF63XZFU5KR","short_pith_number":"pith:Z4MCSTT2","schema_version":"1.0","canonical_sha256":"cf18294e7ad49cd90fb12fb77c969d546152e6907395541ea9180978e50975c1","source":{"kind":"arxiv","id":"2501.00574","version":4},"attestation_state":"computed","paper":{"title":"VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.CV","authors_text":"Chenting Wang, Haian Huang, Jianfei Gao, Jiashuo Yu, Kunchang Li, Limin Wang, Xiangyu Zeng, Xinhao Li, Yali Wang, Yinan He, Yi Wang, Yuhan Zhu, Yu Qiao","submitted_at":"2024-12-31T18:01:23Z","abstract_excerpt":"Long-context video modeling is critical for multimodal large language models (MLLMs), enabling them to process movies, online video streams, and so on. Despite its advances, handling long videos remains challenging due to the difficulty in efficiently understanding the extremely long video context. This paper aims to address this issue from aspects of model architecture, training data, training strategy and evaluation benchmark. First, we propose a novel Hierarchical video token Compression (HiCo) method, which leverages visual redundancy in long videos to compress long video context from Clip"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2501.00574","kind":"arxiv","version":4},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2024-12-31T18:01:23Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"395798686d9037a5397018f4151a520f679975b72a99a4fc23dd0edb5a7b4645","abstract_canon_sha256":"e23fd1e8d2c18894178e01e3eb53572b53f36dd63b4b9b3d47db628c7444ceac"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T03:57:11.983559Z","signature_b64":"FhtiqBD0gLrc8sIVhbED62mwAeH37tI/oLJ/eJMrh+Qm+BjQGPYdTEX2Z/Xs4Vq9AWcVDW8jFifkCRCPw/h+Ag==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"cf18294e7ad49cd90fb12fb77c969d546152e6907395541ea9180978e50975c1","last_reissued_at":"2026-05-18T03:57:11.983097Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T03:57:11.983097Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.CV","authors_text":"Chenting Wang, Haian Huang, Jianfei Gao, Jiashuo Yu, Kunchang Li, Limin Wang, Xiangyu Zeng, Xinhao Li, Yali Wang, Yinan He, Yi Wang, Yuhan Zhu, Yu Qiao","submitted_at":"2024-12-31T18:01:23Z","abstract_excerpt":"Long-context video modeling is critical for multimodal large language models (MLLMs), enabling them to process movies, online video streams, and so on. Despite its advances, handling long videos remains challenging due to the difficulty in efficiently understanding the extremely long video context. This paper aims to address this issue from aspects of model architecture, training data, training strategy and evaluation benchmark. First, we propose a novel Hierarchical video token Compression (HiCo) method, which leverages visual redundancy in long videos to compress long video context from Clip"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2501.00574","kind":"arxiv","version":4},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2501.00574","created_at":"2026-05-18T03:57:11.983154+00:00"},{"alias_kind":"arxiv_version","alias_value":"2501.00574v4","created_at":"2026-05-18T03:57:11.983154+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2501.00574","created_at":"2026-05-18T03:57:11.983154+00:00"},{"alias_kind":"pith_short_12","alias_value":"Z4MCSTT22SON","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"Z4MCSTT22SONSD5R","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"Z4MCSTT2","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":18,"internal_anchor_count":18,"sample":[{"citing_arxiv_id":"2511.04670","citing_title":"Cambrian-S: Towards Spatial Supersensing in Video","ref_index":73,"is_internal_anchor":true},{"citing_arxiv_id":"2503.13377","citing_title":"Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2601.15724","citing_title":"VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2601.10611","citing_title":"Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding","ref_index":79,"is_internal_anchor":true},{"citing_arxiv_id":"2504.06958","citing_title":"VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2602.20913","citing_title":"LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13803","citing_title":"EvoGround: Self-Evolving Video Agents for Video Temporal Grounding","ref_index":51,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09904","citing_title":"TOC-Bench: A Temporal Object Consistency Benchmark for Video Large Language Models","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09904","citing_title":"TOC-Bench: A Temporal Object Consistency Benchmark for Video Large Language Models","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25276","citing_title":"OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2604.24763","citing_title":"Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06537","citing_title":"MedHorizon: Towards Long-context Medical Video Understanding in the Wild","ref_index":97,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05899","citing_title":"VisMMOE: Exploiting Visual-Expert Affinity for Efficient Visual-Language MoE Offloading","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11627","citing_title":"POINTS-Long: Adaptive Dual-Mode Visual Reasoning in MLLMs","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08077","citing_title":"AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08120","citing_title":"Small Vision-Language Models are Smart Compressors for Long Video Understanding","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2604.04372","citing_title":"Graph-to-Frame RAG: Visual-Space Knowledge Fusion for Training-Free and Auditable Video Reasoning","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2604.14149","citing_title":"One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding","ref_index":35,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/Z4MCSTT22SONSD5RF63XZFU5KR","json":"https://pith.science/pith/Z4MCSTT22SONSD5RF63XZFU5KR.json","graph_json":"https://pith.science/api/pith-number/Z4MCSTT22SONSD5RF63XZFU5KR/graph.json","events_json":"https://pith.science/api/pith-number/Z4MCSTT22SONSD5RF63XZFU5KR/events.json","paper":"https://pith.science/paper/Z4MCSTT2"},"agent_actions":{"view_html":"https://pith.science/pith/Z4MCSTT22SONSD5RF63XZFU5KR","download_json":"https://pith.science/pith/Z4MCSTT22SONSD5RF63XZFU5KR.json","view_paper":"https://pith.science/paper/Z4MCSTT2","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2501.00574&json=true","fetch_graph":"https://pith.science/api/pith-number/Z4MCSTT22SONSD5RF63XZFU5KR/graph.json","fetch_events":"https://pith.science/api/pith-number/Z4MCSTT22SONSD5RF63XZFU5KR/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/Z4MCSTT22SONSD5RF63XZFU5KR/action/timestamp_anchor","attest_storage":"https://pith.science/pith/Z4MCSTT22SONSD5RF63XZFU5KR/action/storage_attestation","attest_author":"https://pith.science/pith/Z4MCSTT22SONSD5RF63XZFU5KR/action/author_attestation","sign_citation":"https://pith.science/pith/Z4MCSTT22SONSD5RF63XZFU5KR/action/citation_signature","submit_replication":"https://pith.science/pith/Z4MCSTT22SONSD5RF63XZFU5KR/action/replication_record"}},"created_at":"2026-05-18T03:57:11.983154+00:00","updated_at":"2026-05-18T03:57:11.983154+00:00"}