{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:OB24PFTLDJTXXN5SRDB6TCVQY7","short_pith_number":"pith:OB24PFTL","schema_version":"1.0","canonical_sha256":"7075c7966b1a677bb7b288c3e98ab0c7e08b89cb4ba464e45e93771df872ee2a","source":{"kind":"arxiv","id":"2401.10166","version":4},"attestation_state":"computed","paper":{"title":"VMamba: Visual State Space Model","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"VMamba adapts Mamba's state-space model to vision by scanning 2D images along four fixed routes to reach linear time complexity.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Hongtian Yu, Jianbin Jiao, Lingxi Xie, Qixiang Ye, Yaowei Wang, Yue Liu, Yunfan Liu, Yunjie Tian, Yuzhong Zhao","submitted_at":"2024-01-18T17:55:39Z","abstract_excerpt":"Designing computationally efficient network architectures remains an ongoing necessity in computer vision. In this paper, we adapt Mamba, a state-space language model, into VMamba, a vision backbone with linear time complexity. At the core of VMamba is a stack of Visual State-Space (VSS) blocks with the 2D Selective Scan (SS2D) module. By traversing along four scanning routes, SS2D bridges the gap between the ordered nature of 1D selective scan and the non-sequential structure of 2D vision data, which facilitates the collection of contextual information from various sources and perspectives. B"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2401.10166","kind":"arxiv","version":4},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2024-01-18T17:55:39Z","cross_cats_sorted":[],"title_canon_sha256":"03bf44286ec830754e2d9fbd1ce07ca970a3364b70139e148c255367b9575b0d","abstract_canon_sha256":"d1976141e4bbd82760778fc2d41a1732eb1b3a55c6903af519e0f06de9e5597e"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:46.991111Z","signature_b64":"aRb0sriNpL7NRgNA/NUua2deaoBG/i/j71W6wYH6h/AWRPj3dbDdUETB4eKDYr8c6gVR3JgAOS1DcqGNDAtoBw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7075c7966b1a677bb7b288c3e98ab0c7e08b89cb4ba464e45e93771df872ee2a","last_reissued_at":"2026-05-17T23:38:46.990659Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:46.990659Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"VMamba: Visual State Space Model","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"VMamba adapts Mamba's state-space model to vision by scanning 2D images along four fixed routes to reach linear time complexity.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Hongtian Yu, Jianbin Jiao, Lingxi Xie, Qixiang Ye, Yaowei Wang, Yue Liu, Yunfan Liu, Yunjie Tian, Yuzhong Zhao","submitted_at":"2024-01-18T17:55:39Z","abstract_excerpt":"Designing computationally efficient network architectures remains an ongoing necessity in computer vision. In this paper, we adapt Mamba, a state-space language model, into VMamba, a vision backbone with linear time complexity. At the core of VMamba is a stack of Visual State-Space (VSS) blocks with the 2D Selective Scan (SS2D) module. By traversing along four scanning routes, SS2D bridges the gap between the ordered nature of 1D selective scan and the non-sequential structure of 2D vision data, which facilitates the collection of contextual information from various sources and perspectives. B"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Extensive experiments demonstrate VMamba's promising performance across diverse visual perception tasks, highlighting its superior input scaling efficiency compared to existing benchmark models.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That scanning along exactly four fixed routes in the SS2D module collects sufficient contextual information from 2D data to match or exceed the modeling power of full 2D attention or convolution without missing important spatial relationships.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"VMamba introduces a state-space vision backbone using 2D selective scanning across four routes to achieve linear complexity and strong performance on image tasks.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"VMamba adapts Mamba's state-space model to vision by scanning 2D images along four fixed routes to reach linear time complexity.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"1f2cde7f03a8238c2138a575b5b389b8fb7773ffd4ad26363031821683db39c9"},"source":{"id":"2401.10166","kind":"arxiv","version":4},"verdict":{"id":"7c51fdb6-4d7c-4f45-b11d-b52b5208c139","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T18:19:04.355281Z","strongest_claim":"Extensive experiments demonstrate VMamba's promising performance across diverse visual perception tasks, highlighting its superior input scaling efficiency compared to existing benchmark models.","one_line_summary":"VMamba introduces a state-space vision backbone using 2D selective scanning across four routes to achieve linear complexity and strong performance on image tasks.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That scanning along exactly four fixed routes in the SS2D module collects sufficient contextual information from 2D data to match or exceed the modeling power of full 2D attention or convolution without missing important spatial relationships.","pith_extraction_headline":"VMamba adapts Mamba's state-space model to vision by scanning 2D images along four fixed routes to reach linear time complexity."},"references":{"count":86,"sample":[{"doi":"","year":2021,"title":"Xcit: Cross-covariance image trans- formers","work_id":"5b4b3b64-9af2-4c7a-b3a5-905d48034645","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":1990,"title":"Prefix sums and their applications","work_id":"0a1dea29-0937-468d-b8d6-457aa1163820","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":1906,"title":"MMDetection: Open mmlab detection toolbox and benchmark","work_id":"88b51c19-cd39-43c5-89fe-5c199a74250d","ref_index":3,"cited_arxiv_id":"1906.07155","is_internal_anchor":true},{"doi":"","year":2020,"title":"MMSegmentation: Openmmlab semantic segmentation toolbox and benchmark","work_id":"3c5cee10-0a23-4c51-8b97-76ddc3cff1bc","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2017,"title":"Deformable convolutional networks","work_id":"9784de48-0b3a-4e45-b041-e0e7dc5ed61a","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":86,"snapshot_sha256":"7f84ebd1d8398e505ef24b30fb842083183d7710e2073b5478a24b82348e452f","internal_anchors":7},"formal_canon":{"evidence_count":2,"snapshot_sha256":"a2fb05a5c93cd8a0c420301b3c87c5a1df928f1ee14f21b81f5c3a90280d0de6"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2401.10166","created_at":"2026-05-17T23:38:46.990736+00:00"},{"alias_kind":"arxiv_version","alias_value":"2401.10166v4","created_at":"2026-05-17T23:38:46.990736+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2401.10166","created_at":"2026-05-17T23:38:46.990736+00:00"},{"alias_kind":"pith_short_12","alias_value":"OB24PFTLDJTX","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"OB24PFTLDJTXXN5S","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"OB24PFTL","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":26,"internal_anchor_count":26,"sample":[{"citing_arxiv_id":"2407.03535","citing_title":"BVI-RLV: A Fully Registered Dataset for Low-Light Video Enhancement","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2510.09450","citing_title":"Dynamic Weight-based Temporal Aggregation for Low-light Video Enhancement Under Extreme Noise","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2404.07106","citing_title":"3DMambaComplete: Exploring Structured State Space Model for Point Cloud Completion","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2407.11906","citing_title":"SegSTRONG-C: Segmenting Surgical Tools Robustly On Non-adversarial Generated Corruptions -- An EndoVis'24 Challenge","ref_index":56,"is_internal_anchor":true},{"citing_arxiv_id":"2408.01129","citing_title":"A Survey of Mamba","ref_index":125,"is_internal_anchor":true},{"citing_arxiv_id":"2411.18328","citing_title":"EventCrab: Harnessing Frame and Point Synergy for Event-based Action Recognition and Beyond","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14926","citing_title":"SCRWKV: Ultra-Compact Structure-Calibrated Vision-RWKV for Topological Crack Segmentation","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15880","citing_title":"FSCM: Frequency-Enhanced Spatial-Spectral Coupled Mamba for Infrared Hyperspectral Image Colorization","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14889","citing_title":"SurgicalMamba: Dual-Path SSD with State Regramming for Online Surgical Phase Recognition","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2603.07819","citing_title":"Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14521","citing_title":"Enjoy Your Layer Normalization with the Computational Efficiency of RMSNorm","ref_index":102,"is_internal_anchor":true},{"citing_arxiv_id":"2312.06635","citing_title":"Gated Linear Attention Transformers with Hardware-Efficient Training","ref_index":51,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02930","citing_title":"BEVPredFormer: Spatio-temporal Attention for BEV Instance Prediction in Autonomous Driving","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09575","citing_title":"Annotation-free deep learning for detection and segmentation of fetal germinal matrix-intraventricular hemorrhage in brain MRI","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25545","citing_title":"TopoMamba: Topology-Aware Scanning and Fusion for Segmenting Heterogeneous Medical Visual Media","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2401.09417","citing_title":"Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23655","citing_title":"BVI-Mamba: Video Enhancement Using a Visual State-Space Model for Low-Light and Underwater Environments","ref_index":36,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23399","citing_title":"Breaking the Resource Wall: Geometry-Guided Sequence Modeling for Efficient Semantic Segmentation","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08073","citing_title":"EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2604.14724","citing_title":"HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17306","citing_title":"The First Challenge on Mobile Real-World Image Super-Resolution at NTIRE 2026: Benchmark Results and Method Overview","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17585","citing_title":"DGSSM: Diffusion guided state-space models for multimodal salient object detection","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18721","citing_title":"A Controlled Benchmark of Visual State-Space Backbones with Domain-Shift and Boundary Analysis for Remote-Sensing Segmentation","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.20286","citing_title":"MambaLiteUNet: Cross-Gated Adaptive Feature Fusion for Robust Skin Lesion Segmentation","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2604.20606","citing_title":"Beyond ZOH: Advanced Discretization Strategies for Vision Mamba","ref_index":18,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/OB24PFTLDJTXXN5SRDB6TCVQY7","json":"https://pith.science/pith/OB24PFTLDJTXXN5SRDB6TCVQY7.json","graph_json":"https://pith.science/api/pith-number/OB24PFTLDJTXXN5SRDB6TCVQY7/graph.json","events_json":"https://pith.science/api/pith-number/OB24PFTLDJTXXN5SRDB6TCVQY7/events.json","paper":"https://pith.science/paper/OB24PFTL"},"agent_actions":{"view_html":"https://pith.science/pith/OB24PFTLDJTXXN5SRDB6TCVQY7","download_json":"https://pith.science/pith/OB24PFTLDJTXXN5SRDB6TCVQY7.json","view_paper":"https://pith.science/paper/OB24PFTL","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2401.10166&json=true","fetch_graph":"https://pith.science/api/pith-number/OB24PFTLDJTXXN5SRDB6TCVQY7/graph.json","fetch_events":"https://pith.science/api/pith-number/OB24PFTLDJTXXN5SRDB6TCVQY7/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/OB24PFTLDJTXXN5SRDB6TCVQY7/action/timestamp_anchor","attest_storage":"https://pith.science/pith/OB24PFTLDJTXXN5SRDB6TCVQY7/action/storage_attestation","attest_author":"https://pith.science/pith/OB24PFTLDJTXXN5SRDB6TCVQY7/action/author_attestation","sign_citation":"https://pith.science/pith/OB24PFTLDJTXXN5SRDB6TCVQY7/action/citation_signature","submit_replication":"https://pith.science/pith/OB24PFTLDJTXXN5SRDB6TCVQY7/action/replication_record"}},"created_at":"2026-05-17T23:38:46.990736+00:00","updated_at":"2026-05-17T23:38:46.990736+00:00"}