{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:S2OTNWDETCSRW45CY65R2ACJOD","short_pith_number":"pith:S2OTNWDE","schema_version":"1.0","canonical_sha256":"969d36d86498a51b73a2c7bb1d004970d08a4d0412d59dc27473af0fbafe6bcb","source":{"kind":"arxiv","id":"2512.04123","version":4},"attestation_state":"computed","paper":{"title":"Measuring Agents in Production","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI","cs.LG","cs.SE"],"primary_cat":"cs.CY","authors_text":"Alessandro Basile, Alexander Xiong, Daniel Kang, Dawn Song, Emmanuele Lacavalla, Emma Shen, Huanzhi Mao, Ion Stoica, Jared Quincy Davis, Joseph E. Gonzalez, Koushik Sen, Lakshya A Agrawal, Liana Patel, Marquita Ellis, Matei Zaharia, Melissa Z. Pan, Negar Arabzadeh, Paul Castro, Riccardo Cogo, Shu Liu, Shuyi Yang, Sid Pallerla, Tianneng Shi, Xiaoyuan Liu, Yuxuan Zhu","submitted_at":"2025-12-02T16:45:10Z","abstract_excerpt":"LLM-based agents already operate in production across many industries, yet we lack an understanding of what technical methods make deployments successful. We present the first systematic study of Measuring Agents in Production, MAP, using first-hand data from agent developers. We conducted 20 case studies via in-depth interviews and surveyed 86 deployed systems practitioners across 26 domains. We investigate why organizations build agents, how they build them, how they evaluate them, and their top development challenges. Our study finds that production agents are built using simple, controllab"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2512.04123","kind":"arxiv","version":4},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CY","submitted_at":"2025-12-02T16:45:10Z","cross_cats_sorted":["cs.AI","cs.LG","cs.SE"],"title_canon_sha256":"e4fcc51746da153cb68bfaa2f15a89ecc2275088c243b086d36b0731affa7f62","abstract_canon_sha256":"a8baf21b9d58efcd2bf5fdb5950f9ab4e56263d765e94f11896085aa812bd788"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-08T01:03:52.394566Z","signature_b64":"ODJeRgMH3V0Kx19us+f9DdbpAtPsNswMjQNcImGc+z1CEqSYzzZGLzW4QkqvYir51wmIM24QmYdHp4WgHB3mAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"969d36d86498a51b73a2c7bb1d004970d08a4d0412d59dc27473af0fbafe6bcb","last_reissued_at":"2026-06-08T01:03:52.393604Z","signature_status":"signed_v1","first_computed_at":"2026-06-08T01:03:52.393604Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Measuring Agents in Production","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI","cs.LG","cs.SE"],"primary_cat":"cs.CY","authors_text":"Alessandro Basile, Alexander Xiong, Daniel Kang, Dawn Song, Emmanuele Lacavalla, Emma Shen, Huanzhi Mao, Ion Stoica, Jared Quincy Davis, Joseph E. Gonzalez, Koushik Sen, Lakshya A Agrawal, Liana Patel, Marquita Ellis, Matei Zaharia, Melissa Z. Pan, Negar Arabzadeh, Paul Castro, Riccardo Cogo, Shu Liu, Shuyi Yang, Sid Pallerla, Tianneng Shi, Xiaoyuan Liu, Yuxuan Zhu","submitted_at":"2025-12-02T16:45:10Z","abstract_excerpt":"LLM-based agents already operate in production across many industries, yet we lack an understanding of what technical methods make deployments successful. We present the first systematic study of Measuring Agents in Production, MAP, using first-hand data from agent developers. We conducted 20 case studies via in-depth interviews and surveyed 86 deployed systems practitioners across 26 domains. We investigate why organizations build agents, how they build them, how they evaluate them, and their top development challenges. Our study finds that production agents are built using simple, controllab"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2512.04123","kind":"arxiv","version":4},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2512.04123/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2512.04123","created_at":"2026-06-08T01:03:52.393754+00:00"},{"alias_kind":"arxiv_version","alias_value":"2512.04123v4","created_at":"2026-06-08T01:03:52.393754+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2512.04123","created_at":"2026-06-08T01:03:52.393754+00:00"},{"alias_kind":"pith_short_12","alias_value":"S2OTNWDETCSR","created_at":"2026-06-08T01:03:52.393754+00:00"},{"alias_kind":"pith_short_16","alias_value":"S2OTNWDETCSRW45C","created_at":"2026-06-08T01:03:52.393754+00:00"},{"alias_kind":"pith_short_8","alias_value":"S2OTNWDE","created_at":"2026-06-08T01:03:52.393754+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":11,"internal_anchor_count":11,"sample":[{"citing_arxiv_id":"2605.21984","citing_title":"Echo: Learning from Experience Data via User-Driven Refinement","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22564","citing_title":"SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03409","citing_title":"Robust Agent Compensation (RAC): Teaching AI Agents to Compensate","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20086","citing_title":"What Do Evolutionary Coding Agents Evolve?","ref_index":63,"is_internal_anchor":true},{"citing_arxiv_id":"2603.09002","citing_title":"Security Considerations for Multi-agent Systems","ref_index":129,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03409","citing_title":"Robust Agent Compensation (RAC): Teaching AI Agents to Compensate","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2604.08956","citing_title":"Low-Data Supervised Adaptation Outperforms Prompting for Cloud Segmentation Under Domain Shift","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06802","citing_title":"Riemann-Bench: A Benchmark for Moonshot Mathematics","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2604.05150","citing_title":"Compiled AI: Deterministic Code Generation for LLM-Based Workflow Automation","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13536","citing_title":"Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy","ref_index":70,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17817","citing_title":"Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots","ref_index":44,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/S2OTNWDETCSRW45CY65R2ACJOD","json":"https://pith.science/pith/S2OTNWDETCSRW45CY65R2ACJOD.json","graph_json":"https://pith.science/api/pith-number/S2OTNWDETCSRW45CY65R2ACJOD/graph.json","events_json":"https://pith.science/api/pith-number/S2OTNWDETCSRW45CY65R2ACJOD/events.json","paper":"https://pith.science/paper/S2OTNWDE"},"agent_actions":{"view_html":"https://pith.science/pith/S2OTNWDETCSRW45CY65R2ACJOD","download_json":"https://pith.science/pith/S2OTNWDETCSRW45CY65R2ACJOD.json","view_paper":"https://pith.science/paper/S2OTNWDE","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2512.04123&json=true","fetch_graph":"https://pith.science/api/pith-number/S2OTNWDETCSRW45CY65R2ACJOD/graph.json","fetch_events":"https://pith.science/api/pith-number/S2OTNWDETCSRW45CY65R2ACJOD/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/S2OTNWDETCSRW45CY65R2ACJOD/action/timestamp_anchor","attest_storage":"https://pith.science/pith/S2OTNWDETCSRW45CY65R2ACJOD/action/storage_attestation","attest_author":"https://pith.science/pith/S2OTNWDETCSRW45CY65R2ACJOD/action/author_attestation","sign_citation":"https://pith.science/pith/S2OTNWDETCSRW45CY65R2ACJOD/action/citation_signature","submit_replication":"https://pith.science/pith/S2OTNWDETCSRW45CY65R2ACJOD/action/replication_record"}},"created_at":"2026-06-08T01:03:52.393754+00:00","updated_at":"2026-06-08T01:03:52.393754+00:00"}