{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:JCLACOT4H752THHZGZBPH56C7M","short_pith_number":"pith:JCLACOT4","schema_version":"1.0","canonical_sha256":"4896013a7c3ffba99cf93642f3f7c2fb1da7d8a2f4c806767987ec27b4300166","source":{"kind":"arxiv","id":"2605.25624","version":1},"attestation_state":"computed","paper":{"title":"CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.AI","authors_text":"Bowen Wang, Dayiheng Liu, Dunjie Lu, HaiQuan Wang, Hao Hu, Junli Wang, Junyang Lin, Que Shen, Shixuan Liu, Shuai Bai, Tao Yu, Tianbao Xie, Tianyi Bai, Zhipeng Zhang","submitted_at":"2026-05-25T09:28:03Z","abstract_excerpt":"Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipel"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2605.25624","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2026-05-25T09:28:03Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"c5f0704cd886df5c67682dc6f04f432d30c3d53ab148f00d420db97724115254","abstract_canon_sha256":"1127a300440b722ae726d336e5aef77fe1ab87d56c49e00e4bd12d0dda027442"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-26T02:04:47.037900Z","signature_b64":"N0B1PBMWovUlyamJ77qtbyOzdrBpM0/R5Pa0sMXQaWha+RNHHu+HZdSzSpUNzOrizZ78iVryC5uAtQhUop9CBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"4896013a7c3ffba99cf93642f3f7c2fb1da7d8a2f4c806767987ec27b4300166","last_reissued_at":"2026-05-26T02:04:47.037161Z","signature_status":"signed_v1","first_computed_at":"2026-05-26T02:04:47.037161Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.AI","authors_text":"Bowen Wang, Dayiheng Liu, Dunjie Lu, HaiQuan Wang, Hao Hu, Junli Wang, Junyang Lin, Que Shen, Shixuan Liu, Shuai Bai, Tao Yu, Tianbao Xie, Tianyi Bai, Zhipeng Zhang","submitted_at":"2026-05-25T09:28:03Z","abstract_excerpt":"Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipel"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.25624","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.25624/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.25624","created_at":"2026-05-26T02:04:47.037298+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.25624v1","created_at":"2026-05-26T02:04:47.037298+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.25624","created_at":"2026-05-26T02:04:47.037298+00:00"},{"alias_kind":"pith_short_12","alias_value":"JCLACOT4H752","created_at":"2026-05-26T02:04:47.037298+00:00"},{"alias_kind":"pith_short_16","alias_value":"JCLACOT4H752THHZ","created_at":"2026-05-26T02:04:47.037298+00:00"},{"alias_kind":"pith_short_8","alias_value":"JCLACOT4","created_at":"2026-05-26T02:04:47.037298+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/JCLACOT4H752THHZGZBPH56C7M","json":"https://pith.science/pith/JCLACOT4H752THHZGZBPH56C7M.json","graph_json":"https://pith.science/api/pith-number/JCLACOT4H752THHZGZBPH56C7M/graph.json","events_json":"https://pith.science/api/pith-number/JCLACOT4H752THHZGZBPH56C7M/events.json","paper":"https://pith.science/paper/JCLACOT4"},"agent_actions":{"view_html":"https://pith.science/pith/JCLACOT4H752THHZGZBPH56C7M","download_json":"https://pith.science/pith/JCLACOT4H752THHZGZBPH56C7M.json","view_paper":"https://pith.science/paper/JCLACOT4","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.25624&json=true","fetch_graph":"https://pith.science/api/pith-number/JCLACOT4H752THHZGZBPH56C7M/graph.json","fetch_events":"https://pith.science/api/pith-number/JCLACOT4H752THHZGZBPH56C7M/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/JCLACOT4H752THHZGZBPH56C7M/action/timestamp_anchor","attest_storage":"https://pith.science/pith/JCLACOT4H752THHZGZBPH56C7M/action/storage_attestation","attest_author":"https://pith.science/pith/JCLACOT4H752THHZGZBPH56C7M/action/author_attestation","sign_citation":"https://pith.science/pith/JCLACOT4H752THHZGZBPH56C7M/action/citation_signature","submit_replication":"https://pith.science/pith/JCLACOT4H752THHZGZBPH56C7M/action/replication_record"}},"created_at":"2026-05-26T02:04:47.037298+00:00","updated_at":"2026-05-26T02:04:47.037298+00:00"}