{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:OCCWOOYXI766AV6QO6JEUL4QAH","short_pith_number":"pith:OCCWOOYX","schema_version":"1.0","canonical_sha256":"7085673b1747fde057d077924a2f9001fdd867ceb0215ddc24e8cbccd1d53a5f","source":{"kind":"arxiv","id":"2507.05791","version":5},"attestation_state":"computed","paper":{"title":"GTA1: GUI Test-time Scaling Agent","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"GTA1 uses test-time scaling to select optimal action proposals and reinforcement learning to enhance visual grounding for GUI agents.","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Amrita Saha, Caiming Xiong, Dongxu Li, Junnan Li, Junzhe Huang, Liyuan Pan, Ran Xu, Silvio Savarese, Yan Yang, Yuhao Yang, Yutong Dai, Zeyuan Chen, Zhiyuan Hu, Zirui Zhao, Ziyang Luo","submitted_at":"2025-07-08T08:52:18Z","abstract_excerpt":"Graphical user interface (GUI) agents autonomously complete tasks across platforms (\\eg, Linux) by sequentially decomposing user instructions into action proposals that iteratively interact with visual elements in the evolving environment. However, two main challenges arise: i) planning (\\ie, the action proposal sequence) under expansive action space, where selecting an appropriate plan is non-trivial, as many valid ones may exist; ii) accurately grounding actions in complex and high-resolution interfaces, \\ie, precisely interacting with visual targets. This paper investigates the aforemention"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2507.05791","kind":"arxiv","version":5},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2025-07-08T08:52:18Z","cross_cats_sorted":[],"title_canon_sha256":"d43367af695db65a4d1a5833e0216bd06fe05d9ab9e715e5b69b51fc453af1b3","abstract_canon_sha256":"721ce7dfa5e9d17b05a9e709d15219d1ea0c55acc4df42941349a814e2152ec5"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:13.906463Z","signature_b64":"KSBmJopFo4WiefBW5eWSHEcZTnd7TGEcem2d6mUI+hp9GakToDcbu0gX5/3Bvcaad07w04qyDcYwzdOe7rf3Bw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7085673b1747fde057d077924a2f9001fdd867ceb0215ddc24e8cbccd1d53a5f","last_reissued_at":"2026-05-17T23:38:13.905780Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:13.905780Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"GTA1: GUI Test-time Scaling Agent","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"GTA1 uses test-time scaling to select optimal action proposals and reinforcement learning to enhance visual grounding for GUI agents.","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Amrita Saha, Caiming Xiong, Dongxu Li, Junnan Li, Junzhe Huang, Liyuan Pan, Ran Xu, Silvio Savarese, Yan Yang, Yuhao Yang, Yutong Dai, Zeyuan Chen, Zhiyuan Hu, Zirui Zhao, Ziyang Luo","submitted_at":"2025-07-08T08:52:18Z","abstract_excerpt":"Graphical user interface (GUI) agents autonomously complete tasks across platforms (\\eg, Linux) by sequentially decomposing user instructions into action proposals that iteratively interact with visual elements in the evolving environment. However, two main challenges arise: i) planning (\\ie, the action proposal sequence) under expansive action space, where selecting an appropriate plan is non-trivial, as many valid ones may exist; ii) accurately grounding actions in complex and high-resolution interfaces, \\ie, precisely interacting with visual targets. This paper investigates the aforemention"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"GTA1 achieves state-of-the-art performance on both grounding and agent task execution benchmarks.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"A judge model can reliably identify the best action proposal among multiple samples without introducing systematic errors or bias.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"GTA1 combines test-time scaling for action plan selection with RL-based grounding to achieve SOTA results on GUI agent benchmarks.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"GTA1 uses test-time scaling to select optimal action proposals and reinforcement learning to enhance visual grounding for GUI agents.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"d922dea575d2a47ed05ddaee6cc04bb78f1ca28afcb1813a1a808335b6e3aa83"},"source":{"id":"2507.05791","kind":"arxiv","version":5},"verdict":{"id":"00d967e9-ef12-4245-ad95-308d41c6191d","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-17T13:49:50.823266Z","strongest_claim":"GTA1 achieves state-of-the-art performance on both grounding and agent task execution benchmarks.","one_line_summary":"GTA1 combines test-time scaling for action plan selection with RL-based grounding to achieve SOTA results on GUI agent benchmarks.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"A judge model can reliably identify the best action proposal among multiple samples without introducing systematic errors or bias.","pith_extraction_headline":"GTA1 uses test-time scaling to select optimal action proposals and reinforcement learning to enhance visual grounding for GUI agents."},"references":{"count":46,"sample":[{"doi":"","year":2024,"title":"Aria-ui: Visual grounding for gui instruc- tions","work_id":"c8c5855d-0bc7-4633-9657-01ee8050d81b","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents","work_id":"9def1724-6fd2-4d5b-8339-4c1ee76e62f8","ref_index":2,"cited_arxiv_id":"2410.05243","is_internal_anchor":true},{"doi":"","year":2025,"title":"Screenspot-pro: Gui grounding for professional high- resolution computer use.arXiv, abs/2504.07981","work_id":"013f64c6-243e-4f27-82e1-75d82d566552","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"OS-ATLAS: A Foundation Action Model for Generalist GUI Agents","work_id":"16e00be2-1641-403c-8835-c50a6628f483","ref_index":4,"cited_arxiv_id":"2410.23218","is_internal_anchor":true},{"doi":"","year":2024,"title":"SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents","work_id":"8fe50425-9d6d-4080-bd43-51b3d0d0e5f6","ref_index":5,"cited_arxiv_id":"2401.10935","is_internal_anchor":true}],"resolved_work":46,"snapshot_sha256":"5784d51e294067447834388dec7de7ccbe9148a0ad45cb9c690220945858497c","internal_anchors":12},"formal_canon":{"evidence_count":2,"snapshot_sha256":"33f98ca9a9b8e25eeb0e9002590de99626964040c14f12692c49f06a40da860a"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2507.05791","created_at":"2026-05-17T23:38:13.905914+00:00"},{"alias_kind":"arxiv_version","alias_value":"2507.05791v5","created_at":"2026-05-17T23:38:13.905914+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2507.05791","created_at":"2026-05-17T23:38:13.905914+00:00"},{"alias_kind":"pith_short_12","alias_value":"OCCWOOYXI766","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"OCCWOOYXI766AV6Q","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"OCCWOOYX","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":23,"internal_anchor_count":23,"sample":[{"citing_arxiv_id":"2604.05157","citing_title":"IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14311","citing_title":"Beyond Binary: Reframing GUI Critique as Continuous Semantic Alignment","ref_index":126,"is_internal_anchor":true},{"citing_arxiv_id":"2509.07553","citing_title":"VeriOS: Query-Driven Proactive Human-Agent-GUI Interaction for Trustworthy OS Agents","ref_index":63,"is_internal_anchor":true},{"citing_arxiv_id":"2510.24168","citing_title":"MGA: Memory-Driven GUI Agent for Observation-Centric Interaction","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19750","citing_title":"Coding with Eyes: Visual Feedback Unlocks Reliable GUI Code Generating and Debugging","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14311","citing_title":"Beyond Binary: Reframing GUI Critique as Continuous Semantic Alignment","ref_index":126,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12501","citing_title":"Covering Human Action Space for Computer Use: Data Synthesis and Benchmark","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12481","citing_title":"ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08978","citing_title":"Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27955","citing_title":"GUI Agents with Reinforcement Learning: Toward Digital Inhabitants","ref_index":77,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00642","citing_title":"Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08978","citing_title":"Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25380","citing_title":"Benchmarking and Improving GUI Agents in High-Dynamic Environments","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00642","citing_title":"Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21268","citing_title":"Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding","ref_index":84,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13019","citing_title":"PrecisionCUA: Iterative Visual Refinement for Pixel-Precise Cursor Grounding in Code Editors","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25380","citing_title":"Benchmarking and Improving GUI Agents in High-Dynamic Environments","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2604.05157","citing_title":"IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2604.14262","citing_title":"GUI-Perturbed: Domain Randomization Reveals Systematic Brittleness in GUI Grounding Models","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2508.18265","citing_title":"InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency","ref_index":163,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17284","citing_title":"HalluClear: Diagnosing, Evaluating and Mitigating Hallucinations in GUI Agents","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2604.21375","citing_title":"VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation","ref_index":73,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02630","citing_title":"AutoFocus: Uncertainty-Aware Active Visual Search for GUI Grounding","ref_index":38,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/OCCWOOYXI766AV6QO6JEUL4QAH","json":"https://pith.science/pith/OCCWOOYXI766AV6QO6JEUL4QAH.json","graph_json":"https://pith.science/api/pith-number/OCCWOOYXI766AV6QO6JEUL4QAH/graph.json","events_json":"https://pith.science/api/pith-number/OCCWOOYXI766AV6QO6JEUL4QAH/events.json","paper":"https://pith.science/paper/OCCWOOYX"},"agent_actions":{"view_html":"https://pith.science/pith/OCCWOOYXI766AV6QO6JEUL4QAH","download_json":"https://pith.science/pith/OCCWOOYXI766AV6QO6JEUL4QAH.json","view_paper":"https://pith.science/paper/OCCWOOYX","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2507.05791&json=true","fetch_graph":"https://pith.science/api/pith-number/OCCWOOYXI766AV6QO6JEUL4QAH/graph.json","fetch_events":"https://pith.science/api/pith-number/OCCWOOYXI766AV6QO6JEUL4QAH/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/OCCWOOYXI766AV6QO6JEUL4QAH/action/timestamp_anchor","attest_storage":"https://pith.science/pith/OCCWOOYXI766AV6QO6JEUL4QAH/action/storage_attestation","attest_author":"https://pith.science/pith/OCCWOOYXI766AV6QO6JEUL4QAH/action/author_attestation","sign_citation":"https://pith.science/pith/OCCWOOYXI766AV6QO6JEUL4QAH/action/citation_signature","submit_replication":"https://pith.science/pith/OCCWOOYXI766AV6QO6JEUL4QAH/action/replication_record"}},"created_at":"2026-05-17T23:38:13.905914+00:00","updated_at":"2026-05-17T23:38:13.905914+00:00"}