{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:VFRBDQCOQYO33TYOOTL5AVJWZJ","short_pith_number":"pith:VFRBDQCO","schema_version":"1.0","canonical_sha256":"a96211c04e861dbdcf0e74d7d05536ca4ea4bbc13e430411e89cb8f369a35575","source":{"kind":"arxiv","id":"2506.13757","version":3},"attestation_state":"computed","paper":{"title":"AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"AutoVLA unifies semantic reasoning and trajectory planning inside one autoregressive model that reads raw images and language instructions for end-to-end driving.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Bolei Zhou, Jiaqi Ma, Seth Z. Zhao, Tianhui Cai, Yun Zhang, Zewei Zhou, Zhiyu Huang","submitted_at":"2025-06-16T17:58:50Z","abstract_excerpt":"Recent advancements in Vision-Language-Action (VLA) models have shown promise for end-to-end autonomous driving by leveraging world knowledge and reasoning capabilities. However, current VLA models often struggle with physically infeasible action outputs, complex model structures, or unnecessarily long reasoning. In this paper, we propose AutoVLA, a novel VLA model that unifies reasoning and action generation within a single autoregressive generation model for end-to-end autonomous driving. AutoVLA performs semantic reasoning and trajectory planning directly from raw visual inputs and language"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2506.13757","kind":"arxiv","version":3},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.CV","submitted_at":"2025-06-16T17:58:50Z","cross_cats_sorted":[],"title_canon_sha256":"ca090c459a0f88849e29ba22c06c394d862e227e03ca8396b152bffd666d68e6","abstract_canon_sha256":"9a36de3787df00219683c404cc33cbbae62d8ec50651aadc0f9f1572c2193769"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:39:21.583429Z","signature_b64":"LfyyZ/+ACUVAwmFIbgdjno5X0mb9s6lLW8dJy19q42GHxfTcD4kcclKzWt/AduE2tKIGIKNWJq0/iILWjVEPDg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"a96211c04e861dbdcf0e74d7d05536ca4ea4bbc13e430411e89cb8f369a35575","last_reissued_at":"2026-05-17T23:39:21.582612Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:39:21.582612Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"AutoVLA unifies semantic reasoning and trajectory planning inside one autoregressive model that reads raw images and language instructions for end-to-end driving.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Bolei Zhou, Jiaqi Ma, Seth Z. Zhao, Tianhui Cai, Yun Zhang, Zewei Zhou, Zhiyu Huang","submitted_at":"2025-06-16T17:58:50Z","abstract_excerpt":"Recent advancements in Vision-Language-Action (VLA) models have shown promise for end-to-end autonomous driving by leveraging world knowledge and reasoning capabilities. However, current VLA models often struggle with physically infeasible action outputs, complex model structures, or unnecessarily long reasoning. In this paper, we propose AutoVLA, a novel VLA model that unifies reasoning and action generation within a single autoregressive generation model for end-to-end autonomous driving. AutoVLA performs semantic reasoning and trajectory planning directly from raw visual inputs and language"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"AutoVLA performs semantic reasoning and trajectory planning directly from raw visual inputs and language instructions, achieving competitive performance across real-world and simulated datasets in both open-loop and closed-loop settings.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That discretizing continuous trajectories into a fixed vocabulary of feasible actions preserves sufficient information for safe and precise control without introducing unacceptable discretization errors or limiting expressiveness.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"AutoVLA unifies semantic reasoning and trajectory planning in one autoregressive VLA model for end-to-end autonomous driving by tokenizing trajectories into discrete actions and using GRPO reinforcement fine-tuning to adaptively reduce unnecessary reasoning.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"AutoVLA unifies semantic reasoning and trajectory planning inside one autoregressive model that reads raw images and language instructions for end-to-end driving.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"d231abd2a76f5a0db821eed0ef6f89c9efc98bef8b002d45da9ca673d3e95e77"},"source":{"id":"2506.13757","kind":"arxiv","version":3},"verdict":{"id":"66d94d78-9221-4f77-817e-764d95abf420","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-14T21:41:29.409994Z","strongest_claim":"AutoVLA performs semantic reasoning and trajectory planning directly from raw visual inputs and language instructions, achieving competitive performance across real-world and simulated datasets in both open-loop and closed-loop settings.","one_line_summary":"AutoVLA unifies semantic reasoning and trajectory planning in one autoregressive VLA model for end-to-end autonomous driving by tokenizing trajectories into discrete actions and using GRPO reinforcement fine-tuning to adaptively reduce unnecessary reasoning.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That discretizing continuous trajectories into a fixed vocabulary of feasible actions preserves sufficient information for safe and precise control without introducing unacceptable discretization errors or limiting expressiveness.","pith_extraction_headline":"AutoVLA unifies semantic reasoning and trajectory planning inside one autoregressive model that reads raw images and language instructions for end-to-end driving."},"references":{"count":104,"sample":[{"doi":"","year":2024,"title":"Bevformer: learning bird’s-eye-view representation from lidar-camera via spa- tiotemporal transformers.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024","work_id":"241d7c7b-4a08-488e-9717-32ecb11e16b1","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"Detr3d: 3d object detection from multi-view images via 3d-to-2d queries","work_id":"836b88cf-3d82-456b-8613-7802d949c92a","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"Bevfusion: A simple and robust lidar-camera fusion framework.Advances in Neural Information Processing Systems, 35:10421–10434, 2022","work_id":"66bf3e64-91ed-49ff-aa17-3be1708fed7c","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2023,"title":"QCNeXt: A Next-Generation Framework For Joint Multi-Agent Trajectory Prediction","work_id":"f09e4a57-219b-4042-b057-92c3fcfb9122","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Shaoshuai Shi, Li Jiang, Dengxin Dai, and Bernt Schiele. Mtr++: Multi-agent motion prediction with symmetric scene modeling and guided intention querying.IEEE Transactions on Pattern Analysis and Mach","work_id":"a4d606f3-df98-46ac-b7fe-834f4d1722e9","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":104,"snapshot_sha256":"9cf3e57ae45a5ae335eea4f161d46b2454ba2b7cc48619c234da546bf8838bd8","internal_anchors":17},"formal_canon":{"evidence_count":3,"snapshot_sha256":"c35ff908631c86f1cfe4598a569361ae2e554709694fe8aa7bde32c305c1114f"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2506.13757","created_at":"2026-05-17T23:39:21.582748+00:00"},{"alias_kind":"arxiv_version","alias_value":"2506.13757v3","created_at":"2026-05-17T23:39:21.582748+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2506.13757","created_at":"2026-05-17T23:39:21.582748+00:00"},{"alias_kind":"pith_short_12","alias_value":"VFRBDQCOQYO3","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"VFRBDQCOQYO33TYO","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"VFRBDQCO","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":42,"internal_anchor_count":42,"sample":[{"citing_arxiv_id":"2605.23270","citing_title":"ChainFlow-VLA: Causal Flow Planning with Vision-Language Models","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2512.10719","citing_title":"SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving","ref_index":82,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22089","citing_title":"LVDrive: Latent Visual Representation Enhanced Vision-Language-Action Autonomous Driving Model","ref_index":67,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14201","citing_title":"MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21061","citing_title":"Grounding Driving VLA via Inverse Kinematics","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08830","citing_title":"VECTOR-Drive: Tightly Coupled Vision-Language and Trajectory Expert Routing for End-to-End Autonomous Driving","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15120","citing_title":"CLOVER: Closed-Loop Value Estimation and Ranking for End-to-End Autonomous Driving Planning","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17284","citing_title":"CLAP: Contrastive Latent-space Prompt Optimization for End-to-end Autonomous Driving","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18074","citing_title":"4DLidarOpen: An Open 4D FMCW Lidar Dataset for Motion-Aware Autonomous Driving","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16737","citing_title":"DriveSafer: End-to-End Autonomous Driving with Safety Guidance","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2511.00088","citing_title":"Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail","ref_index":113,"is_internal_anchor":true},{"citing_arxiv_id":"2512.10226","citing_title":"Latent Chain-of-Thought World Modeling for End-to-End Driving","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2603.13842","citing_title":"Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving","ref_index":57,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12622","citing_title":"Action Emergence from Streaming Intent","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14696","citing_title":"EponaV2: Driving World Model with Comprehensive Future Reasoning","ref_index":98,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12624","citing_title":"MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12625","citing_title":"Driving Intents Amplify Planning-Oriented Reinforcement Learning","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14201","citing_title":"MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10426","citing_title":"CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12622","citing_title":"Action Emergence from Streaming Intent","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12624","citing_title":"MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12625","citing_title":"Driving Intents Amplify Planning-Oriented Reinforcement Learning","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2604.00813","citing_title":"DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03497","citing_title":"Sim2Real-AD: A Modular Sim-to-Real Framework for Deploying VLM-Guided Reinforcement Learning in Real-World Autonomous Driving","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04647","citing_title":"ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving","ref_index":130,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":3,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/VFRBDQCOQYO33TYOOTL5AVJWZJ","json":"https://pith.science/pith/VFRBDQCOQYO33TYOOTL5AVJWZJ.json","graph_json":"https://pith.science/api/pith-number/VFRBDQCOQYO33TYOOTL5AVJWZJ/graph.json","events_json":"https://pith.science/api/pith-number/VFRBDQCOQYO33TYOOTL5AVJWZJ/events.json","paper":"https://pith.science/paper/VFRBDQCO"},"agent_actions":{"view_html":"https://pith.science/pith/VFRBDQCOQYO33TYOOTL5AVJWZJ","download_json":"https://pith.science/pith/VFRBDQCOQYO33TYOOTL5AVJWZJ.json","view_paper":"https://pith.science/paper/VFRBDQCO","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2506.13757&json=true","fetch_graph":"https://pith.science/api/pith-number/VFRBDQCOQYO33TYOOTL5AVJWZJ/graph.json","fetch_events":"https://pith.science/api/pith-number/VFRBDQCOQYO33TYOOTL5AVJWZJ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/VFRBDQCOQYO33TYOOTL5AVJWZJ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/VFRBDQCOQYO33TYOOTL5AVJWZJ/action/storage_attestation","attest_author":"https://pith.science/pith/VFRBDQCOQYO33TYOOTL5AVJWZJ/action/author_attestation","sign_citation":"https://pith.science/pith/VFRBDQCOQYO33TYOOTL5AVJWZJ/action/citation_signature","submit_replication":"https://pith.science/pith/VFRBDQCOQYO33TYOOTL5AVJWZJ/action/replication_record"}},"created_at":"2026-05-17T23:39:21.582748+00:00","updated_at":"2026-05-17T23:39:21.582748+00:00"}