{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2025:FEB6QFFTRDQKX5RSDAAB5MODZL","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"60c9c44a3ac8bee3645aa18c38296122a0252a61c6f42dcfb7d6f74ddfe56a75","cross_cats_sorted":["cs.AI","cs.CL"],"license":"http://creativecommons.org/licenses/by-sa/4.0/","primary_cat":"cs.SE","submitted_at":"2025-04-30T16:56:06Z","title_canon_sha256":"74e623afc4099bc2c0a46366219227b6101d99254dc432c65c1d7065bdfed02f"},"schema_version":"1.0","source":{"id":"2504.21798","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2504.21798","created_at":"2026-05-17T23:38:52Z"},{"alias_kind":"arxiv_version","alias_value":"2504.21798v2","created_at":"2026-05-17T23:38:52Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2504.21798","created_at":"2026-05-17T23:38:52Z"},{"alias_kind":"pith_short_12","alias_value":"FEB6QFFTRDQK","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_16","alias_value":"FEB6QFFTRDQKX5RS","created_at":"2026-05-18T12:33:37Z"},{"alias_kind":"pith_short_8","alias_value":"FEB6QFFT","created_at":"2026-05-18T12:33:37Z"}],"graph_snapshots":[{"event_id":"sha256:a0bcbbf7ede7b4eeb4c32f3b184df12e5eb304fd57f70a118d34f47d0e01945d","target":"graph","created_at":"2026-05-17T23:38:52Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"Using SWE-smith, we create a dataset of 50k instances sourced from 128 GitHub repositories, an order of magnitude larger than all previous works. We train SWE-agent-LM-32B, achieving 40.2% Pass@1 resolve rate on the SWE-bench Verified benchmark, state of the art among open source models."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"The automatically synthesized task instances that break tests are of sufficient quality, diversity, and realism to train models that generalize to real software engineering tasks, without requiring extensive human validation or filtering."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"SWE-smith scales software engineering training data to 50k instances across 128 repositories, enabling SWE-agent-LM-32B to achieve 40.2% Pass@1 on SWE-bench Verified, state of the art among open-source models."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"SWE-smith automatically synthesizes 50k task instances from 128 Python repositories to train an open-source agent that resolves 40.2 percent of SWE-bench Verified issues."}],"snapshot_sha256":"3a5b743b32f898c00aafd23b74343fcb9d4df8142e7c2a063dd79c048bd6ae83"},"formal_canon":{"evidence_count":2,"snapshot_sha256":"76ae2518a190d1b2d9ffb5d4245c21bbc3618400b384f7070c2390b818b797a9"},"paper":{"abstract_excerpt":"Despite recent progress in Language Models (LMs) for software engineering, collecting training data remains a significant pain point. Existing datasets are small, with at most 1,000s of training instances from 11 or fewer GitHub repositories. The procedures to curate such datasets are often complex, necessitating hundreds of hours of human labor; companion execution environments also take up several terabytes of storage, severely limiting their scalability and usability. To address this pain point, we introduce SWE-smith, a novel pipeline for generating software engineering training data at sc","authors_text":"Alexander Wettig, Binyuan Hui, Carlos E. Jimenez, Diyi Yang, John Yang, Kabir Khandpur, Kilian Lieret, Ludwig Schmidt, Ofir Press, Yanzhe Zhang","cross_cats":["cs.AI","cs.CL"],"headline":"SWE-smith automatically synthesizes 50k task instances from 128 Python repositories to train an open-source agent that resolves 40.2 percent of SWE-bench Verified issues.","license":"http://creativecommons.org/licenses/by-sa/4.0/","primary_cat":"cs.SE","submitted_at":"2025-04-30T16:56:06Z","title":"SWE-smith: Scaling Data for Software Engineering Agents"},"references":{"count":32,"internal_anchors":1,"resolved_work":32,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"Huatong Song, Lisheng Huang, Shuang Sun, Jinhao Jiang, Ran Le, Daixuan Cheng, Guoxin Chen, Yiwen Hu, Zongchao Chen, Wayne Xin Zhao, and 1 oth- ers","work_id":"17189f19-7774-4b97-ab44-9966bf5d6d48","year":2024},{"cited_arxiv_id":"2404.07972","doi":"","is_internal_anchor":true,"ref_index":2,"title":"OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments","work_id":"793d9419-734d-45fe-9f51-d4c5a3a57cf8","year":2024},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":3,"title":"Occasionally, the README.md file may also contain installation instructions","work_id":"58d4d9c4-9e78-488f-99b7-d81cb063f85f","year":null},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":4,"title":"pip install -e","work_id":"2068f316-7eba-42fd-8a18-c3d6c69098c6","year":null},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":5,"title":"You can usually find tests in a tests/ or test/ directory","work_id":"b236117d-9753-48f0-bd1e-5f499c7c32ca","year":null}],"snapshot_sha256":"2bd0ee4ccc404cecfed9e0e5f9f9c7ca5106986dd6e0770773bea07b851f38a6"},"source":{"id":"2504.21798","kind":"arxiv","version":2},"verdict":{"created_at":"2026-05-15T10:16:25.188487Z","id":"f16725fd-9f69-4fc6-8868-8d93d3507e6c","model_set":{"reader":"grok-4.3"},"one_line_summary":"SWE-smith scales software engineering training data to 50k instances across 128 repositories, enabling SWE-agent-LM-32B to achieve 40.2% Pass@1 on SWE-bench Verified, state of the art among open-source models.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"SWE-smith automatically synthesizes 50k task instances from 128 Python repositories to train an open-source agent that resolves 40.2 percent of SWE-bench Verified issues.","strongest_claim":"Using SWE-smith, we create a dataset of 50k instances sourced from 128 GitHub repositories, an order of magnitude larger than all previous works. We train SWE-agent-LM-32B, achieving 40.2% Pass@1 resolve rate on the SWE-bench Verified benchmark, state of the art among open source models.","weakest_assumption":"The automatically synthesized task instances that break tests are of sufficient quality, diversity, and realism to train models that generalize to real software engineering tasks, without requiring extensive human validation or filtering."}},"verdict_id":"f16725fd-9f69-4fc6-8868-8d93d3507e6c"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:28b9c79191cb9b6f24c07f3feb071d8834a444e1102672b3ecea5d96f816c876","target":"record","created_at":"2026-05-17T23:38:52Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"60c9c44a3ac8bee3645aa18c38296122a0252a61c6f42dcfb7d6f74ddfe56a75","cross_cats_sorted":["cs.AI","cs.CL"],"license":"http://creativecommons.org/licenses/by-sa/4.0/","primary_cat":"cs.SE","submitted_at":"2025-04-30T16:56:06Z","title_canon_sha256":"74e623afc4099bc2c0a46366219227b6101d99254dc432c65c1d7065bdfed02f"},"schema_version":"1.0","source":{"id":"2504.21798","kind":"arxiv","version":2}},"canonical_sha256":"2903e814b388e0abf63218001eb1c3cadd13fc958cdc3344c85f333878871b2d","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"2903e814b388e0abf63218001eb1c3cadd13fc958cdc3344c85f333878871b2d","first_computed_at":"2026-05-17T23:38:52.791429Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:38:52.791429Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"AGH5B9mc/4CcQdVtj+phEsoLoVmWrEoTwpbnqieHDPLutqmECJdbHsW4OYAqhk7y/9qKkx2TbQC5lXoQroxpBA==","signature_status":"signed_v1","signed_at":"2026-05-17T23:38:52.792007Z","signed_message":"canonical_sha256_bytes"},"source_id":"2504.21798","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:28b9c79191cb9b6f24c07f3feb071d8834a444e1102672b3ecea5d96f816c876","sha256:a0bcbbf7ede7b4eeb4c32f3b184df12e5eb304fd57f70a118d34f47d0e01945d"],"state_sha256":"fff54eb7f1e5e2f32403824daaa3d54d63e61b12201d056a5b705a6aa1a69635"}