{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2024:P4KL45MZHTYCWF6VQIQW3PQDWV","short_pith_number":"pith:P4KL45MZ","schema_version":"1.0","canonical_sha256":"7f14be75993cf02b17d582216dbe03b5642e447c32af17337aa20574e8bcd085","source":{"kind":"arxiv","id":"2410.22313","version":1},"attestation_state":"computed","paper":{"title":"Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"Senna uses a large vision-language model for natural language driving plans that an end-to-end model converts into precise trajectories.","cross_cats":["cs.RO"],"primary_cat":"cs.CV","authors_text":"Bencheng Liao, Bo Jiang, Chang Huang, Qian Zhang, Shaoyu Chen, Wei Yin, Wenyu Liu, Xinggang Wang, Xingyu Zhang","submitted_at":"2024-10-29T17:53:56Z","abstract_excerpt":"End-to-end autonomous driving demonstrates strong planning capabilities with large-scale data but still struggles in complex, rare scenarios due to limited commonsense. In contrast, Large Vision-Language Models (LVLMs) excel in scene understanding and reasoning. The path forward lies in merging the strengths of both approaches. Previous methods using LVLMs to predict trajectories or control signals yield suboptimal results, as LVLMs are not well-suited for precise numerical predictions. This paper presents Senna, an autonomous driving system combining an LVLM (Senna-VLM) with an end-to-end mod"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2410.22313","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.CV","submitted_at":"2024-10-29T17:53:56Z","cross_cats_sorted":["cs.RO"],"title_canon_sha256":"ae2cf11612e74b8675dfee265a59fcc34206c63f3a805027932443606d76fa4d","abstract_canon_sha256":"4db2bef8e97b5fbee9ad57a0aa57ecbe04b66fad10f3907cac3add794caeb3b9"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:51.102398Z","signature_b64":"X5hm6B5rq/3sTHurfb4fUnY0n0bdFbqrc8GZp6XRzVP52dtr+YWHw79yc4nrmgB5RSfDgr3iCkh51HfDb3/7AQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7f14be75993cf02b17d582216dbe03b5642e447c32af17337aa20574e8bcd085","last_reissued_at":"2026-05-17T23:38:51.101947Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:51.101947Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"Senna uses a large vision-language model for natural language driving plans that an end-to-end model converts into precise trajectories.","cross_cats":["cs.RO"],"primary_cat":"cs.CV","authors_text":"Bencheng Liao, Bo Jiang, Chang Huang, Qian Zhang, Shaoyu Chen, Wei Yin, Wenyu Liu, Xinggang Wang, Xingyu Zhang","submitted_at":"2024-10-29T17:53:56Z","abstract_excerpt":"End-to-end autonomous driving demonstrates strong planning capabilities with large-scale data but still struggles in complex, rare scenarios due to limited commonsense. In contrast, Large Vision-Language Models (LVLMs) excel in scene understanding and reasoning. The path forward lies in merging the strengths of both approaches. Previous methods using LVLMs to predict trajectories or control signals yield suboptimal results, as LVLMs are not well-suited for precise numerical predictions. This paper presents Senna, an autonomous driving system combining an LVLM (Senna-VLM) with an end-to-end mod"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Senna achieves state-of-the-art planning performance. Notably, with pre-training on a large-scale dataset DriveX and fine-tuning on nuScenes, Senna significantly reduces average planning error by 27.12% and collision rate by 33.33% over model without pre-training.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That natural-language planning outputs from the LVLM can be translated into low-level trajectories by the E2E model without introducing critical errors or losing necessary detail in complex or rare scenarios.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Senna decouples language-based high-level planning from an LVLM with low-level trajectory prediction from an E2E model, reporting 27% lower planning error and 33% lower collisions after pre-training on DriveX and fine-tuning on nuScenes.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Senna uses a large vision-language model for natural language driving plans that an end-to-end model converts into precise trajectories.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"44eca63ca804d8e916c3308e194805b8be6e1dce2a17651cae3fcbe4b027deb6"},"source":{"id":"2410.22313","kind":"arxiv","version":1},"verdict":{"id":"7946fc83-b532-4654-b34d-c33174394eaf","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T15:19:50.878304Z","strongest_claim":"Senna achieves state-of-the-art planning performance. Notably, with pre-training on a large-scale dataset DriveX and fine-tuning on nuScenes, Senna significantly reduces average planning error by 27.12% and collision rate by 33.33% over model without pre-training.","one_line_summary":"Senna decouples language-based high-level planning from an LVLM with low-level trajectory prediction from an E2E model, reporting 27% lower planning error and 33% lower collisions after pre-training on DriveX and fine-tuning on nuScenes.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That natural-language planning outputs from the LVLM can be translated into low-level trajectories by the E2E model without introducing critical errors or losing necessary detail in complex or rare scenarios.","pith_extraction_headline":"Senna uses a large vision-language model for natural language driving plans that an end-to-end model converts into precise trajectories."},"references":{"count":73,"sample":[{"doi":"","year":2022,"title":"Detr3d: 3d object detection from multi-view images via 3d-to-2d queries,","work_id":"0b78527b-7dcb-4a11-a7ff-861bbafb5d54","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Y . Hu, J. Yang, L. Chen, K. Li, C. Sima, X. Zhu, S. Chai, S. Du, T. Lin, W. Wang et al., “Planning-oriented autonomous driving,” in CVPR, 2023","work_id":"2c9e1c5b-2400-4ab1-a5ea-9c0fbb17099a","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"Vad: Vectorized scene representation for efficient autonomous driving,","work_id":"732a1c3d-0c3a-465c-8c7c-46ff24852f6e","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2020,"title":"Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d,","work_id":"9e1067db-f398-40c3-9bd3-99f858c0e73d","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"arXiv preprint arXiv:2203.17270 (2022)","work_id":"107ceb33-47b0-4f30-bab3-36a44b3c77e3","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":73,"snapshot_sha256":"4c728b57d6b142bf5799ff1c26c99990dd1cf7063faa3a4466312ef60cc992db","internal_anchors":12},"formal_canon":{"evidence_count":3,"snapshot_sha256":"575564e6eedc3fe4bcad57cafbd57e501dbd67687fe6f5a55ae30f27d6be644a"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2410.22313","created_at":"2026-05-17T23:38:51.102015+00:00"},{"alias_kind":"arxiv_version","alias_value":"2410.22313v1","created_at":"2026-05-17T23:38:51.102015+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2410.22313","created_at":"2026-05-17T23:38:51.102015+00:00"},{"alias_kind":"pith_short_12","alias_value":"P4KL45MZHTYC","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"P4KL45MZHTYCWF6V","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"P4KL45MZ","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":36,"internal_anchor_count":36,"sample":[{"citing_arxiv_id":"2605.21139","citing_title":"Distill to Think, Foresee to Act: Cognitive-Physical Reinforcement Learning for Autonomous Driving","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2512.10719","citing_title":"SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22089","citing_title":"LVDrive: Latent Visual Representation Enhanced Vision-Language-Action Autonomous Driving Model","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2506.05442","citing_title":"Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14201","citing_title":"MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21139","citing_title":"Distill to Think, Foresee to Act: Cognitive-Physical Reinforcement Learning for Autonomous Driving","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08830","citing_title":"VECTOR-Drive: Tightly Coupled Vision-Language and Trajectory Expert Routing for End-to-End Autonomous Driving","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18074","citing_title":"4DLidarOpen: An Open 4D FMCW Lidar Dataset for Motion-Aware Autonomous Driving","ref_index":59,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19524","citing_title":"SafeAlign-VLA: A Negative-Enhanced Safe Alignment Framework for Risk-Aware Autonomous Driving","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2509.00789","citing_title":"CogDriver: Integrating Cognitive Inertia for Temporally Coherent Planning in Autonomous Driving","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2511.00088","citing_title":"Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2503.19755","citing_title":"ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2512.18662","citing_title":"Pseudo-Expert Regularized Offline RL for End-to-End Autonomous Driving in Photorealistic Closed-Loop Environments","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2503.07608","citing_title":"AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2603.18561","citing_title":"CausalVAD: De-confounding End-to-End Autonomous Driving via Causal Intervention","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2506.08052","citing_title":"ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12624","citing_title":"MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14201","citing_title":"MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2506.13757","citing_title":"AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10426","citing_title":"CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12624","citing_title":"MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.00813","citing_title":"DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08133","citing_title":"VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08133","citing_title":"VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08830","citing_title":"VECTOR-Drive: Tightly Coupled Vision-Language and Trajectory Expert Routing for End-to-End Autonomous Driving","ref_index":14,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":3,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/P4KL45MZHTYCWF6VQIQW3PQDWV","json":"https://pith.science/pith/P4KL45MZHTYCWF6VQIQW3PQDWV.json","graph_json":"https://pith.science/api/pith-number/P4KL45MZHTYCWF6VQIQW3PQDWV/graph.json","events_json":"https://pith.science/api/pith-number/P4KL45MZHTYCWF6VQIQW3PQDWV/events.json","paper":"https://pith.science/paper/P4KL45MZ"},"agent_actions":{"view_html":"https://pith.science/pith/P4KL45MZHTYCWF6VQIQW3PQDWV","download_json":"https://pith.science/pith/P4KL45MZHTYCWF6VQIQW3PQDWV.json","view_paper":"https://pith.science/paper/P4KL45MZ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2410.22313&json=true","fetch_graph":"https://pith.science/api/pith-number/P4KL45MZHTYCWF6VQIQW3PQDWV/graph.json","fetch_events":"https://pith.science/api/pith-number/P4KL45MZHTYCWF6VQIQW3PQDWV/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/P4KL45MZHTYCWF6VQIQW3PQDWV/action/timestamp_anchor","attest_storage":"https://pith.science/pith/P4KL45MZHTYCWF6VQIQW3PQDWV/action/storage_attestation","attest_author":"https://pith.science/pith/P4KL45MZHTYCWF6VQIQW3PQDWV/action/author_attestation","sign_citation":"https://pith.science/pith/P4KL45MZHTYCWF6VQIQW3PQDWV/action/citation_signature","submit_replication":"https://pith.science/pith/P4KL45MZHTYCWF6VQIQW3PQDWV/action/replication_record"}},"created_at":"2026-05-17T23:38:51.102015+00:00","updated_at":"2026-05-17T23:38:51.102015+00:00"}