{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:6PODWBQ66NHPHH4P2YAGBWZZOJ","short_pith_number":"pith:6PODWBQ6","schema_version":"1.0","canonical_sha256":"f3dc3b061ef34ef39f8fd60060db39726382cb3b3c9ae9854e9305501446d3b6","source":{"kind":"arxiv","id":"2504.19854","version":1},"attestation_state":"computed","paper":{"title":"NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks","license":"http://creativecommons.org/licenses/by-sa/4.0/","headline":"A 3B-parameter vision-language-action model outperforms larger ones on robotic tasks with far less computation.","cross_cats":["cs.AI","cs.CV"],"primary_cat":"cs.RO","authors_text":"Amir Zadeh, Chia-Yu Hung, Chuan Li, Navonil Majumder, Pengfei Hong, Qi Sun, Soujanya Poria, U-Xuan Tan","submitted_at":"2025-04-28T14:47:34Z","abstract_excerpt":"Existing Visual-Language-Action (VLA) models have shown promising performance in zero-shot scenarios, demonstrating impressive task execution and reasoning capabilities. However, a significant challenge arises from the limitations of visual encoding, which can result in failures during tasks such as object grasping. Moreover, these models typically suffer from high computational overhead due to their large sizes, often exceeding 7B parameters. While these models excel in reasoning and task planning, the substantial computational overhead they incur makes them impractical for real-time robotic "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2504.19854","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by-sa/4.0/","primary_cat":"cs.RO","submitted_at":"2025-04-28T14:47:34Z","cross_cats_sorted":["cs.AI","cs.CV"],"title_canon_sha256":"5a390a6e64ecfb8fabe23d1f69197cd49ca6c9544d82162d63a710c7e40e70a9","abstract_canon_sha256":"7716eaf2f5ee9b037088608ffdf6d906d146c65ade6c3f590ef9fba649d57556"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:47.387644Z","signature_b64":"t0gVArWx2xHF2MC//SQIjH2ygNFBX2lk75fOOn5i6zn3ou85TTNcSzLQcJ/E4NSA3Z5jku3sryv9BvmCvWaJAg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"f3dc3b061ef34ef39f8fd60060db39726382cb3b3c9ae9854e9305501446d3b6","last_reissued_at":"2026-05-17T23:38:47.387149Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:47.387149Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks","license":"http://creativecommons.org/licenses/by-sa/4.0/","headline":"A 3B-parameter vision-language-action model outperforms larger ones on robotic tasks with far less computation.","cross_cats":["cs.AI","cs.CV"],"primary_cat":"cs.RO","authors_text":"Amir Zadeh, Chia-Yu Hung, Chuan Li, Navonil Majumder, Pengfei Hong, Qi Sun, Soujanya Poria, U-Xuan Tan","submitted_at":"2025-04-28T14:47:34Z","abstract_excerpt":"Existing Visual-Language-Action (VLA) models have shown promising performance in zero-shot scenarios, demonstrating impressive task execution and reasoning capabilities. However, a significant challenge arises from the limitations of visual encoding, which can result in failures during tasks such as object grasping. Moreover, these models typically suffer from high computational overhead due to their large sizes, often exceeding 7B parameters. While these models excel in reasoning and task planning, the substantial computational overhead they incur makes them impractical for real-time robotic "},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Experimental results demonstrate that NORA outperforms existing large-scale VLA models, achieving better task performance with significantly reduced computational overhead, making it a more practical solution for real-time robotic autonomy.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"The assumption that using the Qwen-2.5-VL-3B as backbone and FAST+ tokenizer will overcome the visual encoding limitations leading to failures in tasks like object grasping, without new issues arising from the reduced model size.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"NORA is a compact 3B-parameter VLA model trained on 970k robot demonstrations that outperforms larger VLA models in embodied tasks while using significantly less computational resources.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"A 3B-parameter vision-language-action model outperforms larger ones on robotic tasks with far less computation.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"a236f8cd7f9e0571303bf4f47edcdba5bad87bf5cacea023ba40c3e47f00ea8b"},"source":{"id":"2504.19854","kind":"arxiv","version":1},"verdict":{"id":"a861a0c9-4c1e-4a55-806c-664f92005997","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T15:49:35.980619Z","strongest_claim":"Experimental results demonstrate that NORA outperforms existing large-scale VLA models, achieving better task performance with significantly reduced computational overhead, making it a more practical solution for real-time robotic autonomy.","one_line_summary":"NORA is a compact 3B-parameter VLA model trained on 970k robot demonstrations that outperforms larger VLA models in embodied tasks while using significantly less computational resources.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"The assumption that using the Qwen-2.5-VL-3B as backbone and FAST+ tokenizer will overcome the visual encoding limitations leading to failures in tasks like object grasping, without new issues arising from the reduced model size.","pith_extraction_headline":"A 3B-parameter vision-language-action model outperforms larger ones on robotic tasks with far less computation."},"references":{"count":16,"sample":[{"doi":"","year":null,"title":"Qwen2.5-VL Technical Report","work_id":"69dffacb-bfe8-442d-be86-48624c60426f","ref_index":1,"cited_arxiv_id":"2502.13923","is_internal_anchor":true},{"doi":"","year":null,"title":"$\\pi_0$: A Vision-Language-Action Flow Model for General Robot Control","work_id":"f790abdc-a796-482f-a40d-f8ee035ecfc2","ref_index":2,"cited_arxiv_id":"2410.24164","is_internal_anchor":true},{"doi":"","year":null,"title":"RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control","work_id":"ff438a8a-8003-4fae-9131-acd418b3597b","ref_index":3,"cited_arxiv_id":"2307.15818","is_internal_anchor":true},{"doi":"","year":null,"title":"Diffusion Policy: Visuomotor Policy Learning via Action Diffusion","work_id":"2dce18e6-f07a-4f57-8a81-e71c3e6a293c","ref_index":4,"cited_arxiv_id":"2303.04137","is_internal_anchor":true},{"doi":"","year":null,"title":"PaLM-E: An Embodied Multimodal Language Model","work_id":"5b99811a-1d93-47e2-9d59-f4045a0b74a2","ref_index":5,"cited_arxiv_id":"2303.03378","is_internal_anchor":true}],"resolved_work":16,"snapshot_sha256":"af1b206254e9d24fc4dc7fdf5b923867c8a42b6819e974c0c876c8bb15b31a62","internal_anchors":14},"formal_canon":{"evidence_count":2,"snapshot_sha256":"d29dfbdb2fa74751b13007efd57825e1669a8e477915c895ca890c6e7d8d99d6"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2504.19854","created_at":"2026-05-17T23:38:47.387226+00:00"},{"alias_kind":"arxiv_version","alias_value":"2504.19854v1","created_at":"2026-05-17T23:38:47.387226+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2504.19854","created_at":"2026-05-17T23:38:47.387226+00:00"},{"alias_kind":"pith_short_12","alias_value":"6PODWBQ66NHP","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"6PODWBQ66NHPHH4P","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"6PODWBQ6","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":24,"internal_anchor_count":24,"sample":[{"citing_arxiv_id":"2602.10503","citing_title":"Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2602.18532","citing_title":"VLANeXt: Recipes for Building Strong VLA Models","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19580","citing_title":"PAPO-VLA: Planning-Aware Policy Optimization for Vision-Language-Action Models","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2511.15669","citing_title":"DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2508.13073","citing_title":"Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2511.18960","citing_title":"AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2602.11236","citing_title":"ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2509.09674","citing_title":"SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2506.13757","citing_title":"AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13548","citing_title":"AttenA+: Rectifying Action Inequality in Robotic Foundation Models","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11809","citing_title":"Beyond World-Frame Action Heads: Motion-Centric Action Frames for Vision-Language-Action Models","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11832","citing_title":"Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation","ref_index":75,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12167","citing_title":"From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12369","citing_title":"GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27472","citing_title":"PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06481","citing_title":"OA-WAM: Object-Addressable World Action Model for Robust Robot Manipulation","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02881","citing_title":"MolmoAct2: Action Reasoning Models for Real-world Deployment","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21924","citing_title":"Long-Horizon Manipulation via Trace-Conditioned VLA Planning","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21241","citing_title":"CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2604.20472","citing_title":"Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12447","citing_title":"HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02881","citing_title":"MolmoAct2: Action Reasoning Models for Real-world Deployment","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06175","citing_title":"VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17876","citing_title":"OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation","ref_index":27,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/6PODWBQ66NHPHH4P2YAGBWZZOJ","json":"https://pith.science/pith/6PODWBQ66NHPHH4P2YAGBWZZOJ.json","graph_json":"https://pith.science/api/pith-number/6PODWBQ66NHPHH4P2YAGBWZZOJ/graph.json","events_json":"https://pith.science/api/pith-number/6PODWBQ66NHPHH4P2YAGBWZZOJ/events.json","paper":"https://pith.science/paper/6PODWBQ6"},"agent_actions":{"view_html":"https://pith.science/pith/6PODWBQ66NHPHH4P2YAGBWZZOJ","download_json":"https://pith.science/pith/6PODWBQ66NHPHH4P2YAGBWZZOJ.json","view_paper":"https://pith.science/paper/6PODWBQ6","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2504.19854&json=true","fetch_graph":"https://pith.science/api/pith-number/6PODWBQ66NHPHH4P2YAGBWZZOJ/graph.json","fetch_events":"https://pith.science/api/pith-number/6PODWBQ66NHPHH4P2YAGBWZZOJ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/6PODWBQ66NHPHH4P2YAGBWZZOJ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/6PODWBQ66NHPHH4P2YAGBWZZOJ/action/storage_attestation","attest_author":"https://pith.science/pith/6PODWBQ66NHPHH4P2YAGBWZZOJ/action/author_attestation","sign_citation":"https://pith.science/pith/6PODWBQ66NHPHH4P2YAGBWZZOJ/action/citation_signature","submit_replication":"https://pith.science/pith/6PODWBQ66NHPHH4P2YAGBWZZOJ/action/replication_record"}},"created_at":"2026-05-17T23:38:47.387226+00:00","updated_at":"2026-05-17T23:38:47.387226+00:00"}