{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:7XBKXFOJNQIK65MNURDNZ24BKR","short_pith_number":"pith:7XBKXFOJ","schema_version":"1.0","canonical_sha256":"fdc2ab95c96c10af758da446dceb81546e638b1b4574adc6e5c12d464cbabb4e","source":{"kind":"arxiv","id":"2505.12549","version":2},"attestation_state":"computed","paper":{"title":"VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Dominic Maggio, Hyungtae Lim, Luca Carlone","submitted_at":"2025-05-18T21:33:09Z","abstract_excerpt":"We present VGGT-SLAM, a dense RGB SLAM system constructed by incrementally and globally aligning submaps created from the feed-forward scene reconstruction approach VGGT using only uncalibrated monocular cameras. While related works align submaps using similarity transforms (i.e., translation, rotation, and scale), we show that such approaches are inadequate in the case of uncalibrated cameras. In particular, we revisit the idea of reconstruction ambiguity, where given a set of uncalibrated cameras with no assumption on the camera motion or scene structure, the scene can only be reconstructed "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2505.12549","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2025-05-18T21:33:09Z","cross_cats_sorted":[],"title_canon_sha256":"fbe92a4b34e1bee03901ced1cb1f785f6bc918121c9ed98386743d7d2071c69a","abstract_canon_sha256":"0831919b5b0aa0e5046de12c11fe6e59289b37153e1e0b6cc41a6a5ff2017317"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-20T20:55:52.610553Z","signature_b64":"MTds5SVEB1u8Hawzo2svQYDLuSmuCkWwS49A+N5REucsU2Q2Rj4Mu8WgZ0Rn6YxQ73R5sLdeGD2Bp5Z70bNIAw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"fdc2ab95c96c10af758da446dceb81546e638b1b4574adc6e5c12d464cbabb4e","last_reissued_at":"2026-05-20T20:55:52.608837Z","signature_status":"signed_v1","first_computed_at":"2026-05-20T20:55:52.608837Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Dominic Maggio, Hyungtae Lim, Luca Carlone","submitted_at":"2025-05-18T21:33:09Z","abstract_excerpt":"We present VGGT-SLAM, a dense RGB SLAM system constructed by incrementally and globally aligning submaps created from the feed-forward scene reconstruction approach VGGT using only uncalibrated monocular cameras. While related works align submaps using similarity transforms (i.e., translation, rotation, and scale), we show that such approaches are inadequate in the case of uncalibrated cameras. In particular, we revisit the idea of reconstruction ambiguity, where given a set of uncalibrated cameras with no assumption on the camera motion or scene structure, the scene can only be reconstructed "},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2505.12549","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2505.12549/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2505.12549","created_at":"2026-05-20T20:55:52.608911+00:00"},{"alias_kind":"arxiv_version","alias_value":"2505.12549v2","created_at":"2026-05-20T20:55:52.608911+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2505.12549","created_at":"2026-05-20T20:55:52.608911+00:00"},{"alias_kind":"pith_short_12","alias_value":"7XBKXFOJNQIK","created_at":"2026-05-20T20:55:52.608911+00:00"},{"alias_kind":"pith_short_16","alias_value":"7XBKXFOJNQIK65MN","created_at":"2026-05-20T20:55:52.608911+00:00"},{"alias_kind":"pith_short_8","alias_value":"7XBKXFOJ","created_at":"2026-05-20T20:55:52.608911+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":25,"internal_anchor_count":25,"sample":[{"citing_arxiv_id":"2605.23889","citing_title":"HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05749","citing_title":"Ray-Aware Pointer Memory with Adaptive Updates for Streaming 3D Reconstruction","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21472","citing_title":"Stream3D: Sequential Multi-View 3D Generation via Evidential Memory","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15186","citing_title":"VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17478","citing_title":"Mamba-VGGT: Persistent Long-Sequence Video Geometry Grounded Transformer via External Sliding Window Mamba Memory","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17327","citing_title":"Efficient Feature-Free Initialization for Monocular Visual-Inertial Systems Using a Feed-Forward 3D Model","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19257","citing_title":"PRISM-SLAM: Probabilistic Ray-Grounded Inference for Scale-aware Metric SLAM","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2507.07982","citing_title":"Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2507.17596","citing_title":"PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2511.17207","citing_title":"SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2507.16443","citing_title":"VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2509.26645","citing_title":"TTT3R: 3D Reconstruction as Test-Time Training","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2511.20496","citing_title":"Metric, inertially aligned monocular state estimation via kinetodynamic priors","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2508.10934","citing_title":"ViPE: Video Pose Engine for 3D Geometric Perception","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2604.04667","citing_title":"ZeD-MAP: Bundle Adjustment Guided Zero-Shot Depth Maps for Real-Time Aerial Imaging","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05749","citing_title":"Ray-Aware Pointer Memory with Adaptive Updates for Streaming 3D Reconstruction","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26567","citing_title":"AirZoo: A Unified Large-Scale Dataset for Grounding Aerial Geometric 3D Vision","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26067","citing_title":"RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05749","citing_title":"Ray-Aware Pointer Memory with Adaptive Updates for Streaming 3D Reconstruction","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.10593","citing_title":"MonoEM-GS: Monocular Expectation-Maximization Gaussian Splatting SLAM","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08542","citing_title":"Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06830","citing_title":"VGGT-SLAM++","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2511.10647","citing_title":"Depth Anything 3: Recovering the Visual Space from Any Views","ref_index":54,"is_internal_anchor":true},{"citing_arxiv_id":"2604.04667","citing_title":"ZeD-MAP: Bundle Adjustment Guided Zero-Shot Depth Maps for Real-Time Aerial Imaging","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.14795","citing_title":"Keep It CALM: Toward Calibration-Free Kilometer-Level SLAM with Visual Geometry Foundation Models via an Assistant Eye","ref_index":18,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/7XBKXFOJNQIK65MNURDNZ24BKR","json":"https://pith.science/pith/7XBKXFOJNQIK65MNURDNZ24BKR.json","graph_json":"https://pith.science/api/pith-number/7XBKXFOJNQIK65MNURDNZ24BKR/graph.json","events_json":"https://pith.science/api/pith-number/7XBKXFOJNQIK65MNURDNZ24BKR/events.json","paper":"https://pith.science/paper/7XBKXFOJ"},"agent_actions":{"view_html":"https://pith.science/pith/7XBKXFOJNQIK65MNURDNZ24BKR","download_json":"https://pith.science/pith/7XBKXFOJNQIK65MNURDNZ24BKR.json","view_paper":"https://pith.science/paper/7XBKXFOJ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2505.12549&json=true","fetch_graph":"https://pith.science/api/pith-number/7XBKXFOJNQIK65MNURDNZ24BKR/graph.json","fetch_events":"https://pith.science/api/pith-number/7XBKXFOJNQIK65MNURDNZ24BKR/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/7XBKXFOJNQIK65MNURDNZ24BKR/action/timestamp_anchor","attest_storage":"https://pith.science/pith/7XBKXFOJNQIK65MNURDNZ24BKR/action/storage_attestation","attest_author":"https://pith.science/pith/7XBKXFOJNQIK65MNURDNZ24BKR/action/author_attestation","sign_citation":"https://pith.science/pith/7XBKXFOJNQIK65MNURDNZ24BKR/action/citation_signature","submit_replication":"https://pith.science/pith/7XBKXFOJNQIK65MNURDNZ24BKR/action/replication_record"}},"created_at":"2026-05-20T20:55:52.608911+00:00","updated_at":"2026-05-20T20:55:52.608911+00:00"}