{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:D75WCTB2CP474E6L4EUUYGZAON","short_pith_number":"pith:D75WCTB2","schema_version":"1.0","canonical_sha256":"1ffb614c3a13f9fe13cbe1294c1b20736893b91e031adc8ea7abc4af6b4b6062","source":{"kind":"arxiv","id":"2509.19349","version":1},"attestation_state":"computed","paper":{"title":"ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution","license":"http://creativecommons.org/licenses/by/4.0/","headline":"ShinkaEvolve evolves programs with far fewer samples by balancing exploration, rejecting non-novel code, and dynamically choosing which LLM to use for mutations.","cross_cats":["cs.LG"],"primary_cat":"cs.CL","authors_text":"Edoardo Cetin, Robert Tjarko Lange, Yuki Imajuku","submitted_at":"2025-09-17T17:49:02Z","abstract_excerpt":"We introduce ShinkaEvolve: a new open-source framework leveraging large language models (LLMs) to advance scientific discovery with state-of-the-art performance and unprecedented efficiency. Recent advances in scaling inference time compute of LLMs have enabled significant progress in generalized scientific discovery. These approaches rely on evolutionary agentic harnesses that leverage LLMs as mutation operators to generate candidate solutions. However, current code evolution methods suffer from critical limitations: they are sample inefficient, requiring thousands of samples to identify effe"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2509.19349","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CL","submitted_at":"2025-09-17T17:49:02Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"a5885ffdc658a1f4228115a196e2dc48bd0bc60296caaf90a3bdf356b0af778b","abstract_canon_sha256":"82b9818d0590bdbd8c1078ef5b31b91b1624d25d9cf1282acd50cff1c28183f2"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:47.679914Z","signature_b64":"Znbshm5YKkddVG8GM5Xp2BhSpshd58/VWvskC7QkrMr/EHGekglvwV11fGSts0fji/MMfObunaVvJGHbvPB+DQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"1ffb614c3a13f9fe13cbe1294c1b20736893b91e031adc8ea7abc4af6b4b6062","last_reissued_at":"2026-05-17T23:38:47.679435Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:47.679435Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution","license":"http://creativecommons.org/licenses/by/4.0/","headline":"ShinkaEvolve evolves programs with far fewer samples by balancing exploration, rejecting non-novel code, and dynamically choosing which LLM to use for mutations.","cross_cats":["cs.LG"],"primary_cat":"cs.CL","authors_text":"Edoardo Cetin, Robert Tjarko Lange, Yuki Imajuku","submitted_at":"2025-09-17T17:49:02Z","abstract_excerpt":"We introduce ShinkaEvolve: a new open-source framework leveraging large language models (LLMs) to advance scientific discovery with state-of-the-art performance and unprecedented efficiency. Recent advances in scaling inference time compute of LLMs have enabled significant progress in generalized scientific discovery. These approaches rely on evolutionary agentic harnesses that leverage LLMs as mutation operators to generate candidate solutions. However, current code evolution methods suffer from critical limitations: they are sample inefficient, requiring thousands of samples to identify effe"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"ShinkaEvolve discovers a new state-of-the-art circle packing solution using only 150 samples, designs high-performing agentic harnesses for AIME mathematical reasoning tasks, identifies improvements to ALE-Bench competitive programming solutions, and discovers novel mixture-of-expert load balancing loss functions that illuminate the space of optimization strategies.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the three innovations (parent sampling balancing exploration/exploitation, code novelty rejection-sampling, and bandit-based LLM ensemble selection) are the primary drivers of the reported gains in sample efficiency and solution quality rather than other unstated factors such as the choice of base LLMs or task-specific tuning.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"ShinkaEvolve improves sample efficiency in LLM-driven program evolution via parent sampling, code novelty rejection-sampling, and bandit LLM ensemble selection, achieving new SOTA circle packing with 150 samples and gains on math reasoning and competitive programming tasks.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"ShinkaEvolve evolves programs with far fewer samples by balancing exploration, rejecting non-novel code, and dynamically choosing which LLM to use for mutations.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"4e27b3544942607cccfa18c0df2c1e38bb7f1302c82a28a5f7cab2926920406d"},"source":{"id":"2509.19349","kind":"arxiv","version":1},"verdict":{"id":"f765b8de-321c-493e-94e0-34ec2236d50e","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T13:54:37.423622Z","strongest_claim":"ShinkaEvolve discovers a new state-of-the-art circle packing solution using only 150 samples, designs high-performing agentic harnesses for AIME mathematical reasoning tasks, identifies improvements to ALE-Bench competitive programming solutions, and discovers novel mixture-of-expert load balancing loss functions that illuminate the space of optimization strategies.","one_line_summary":"ShinkaEvolve improves sample efficiency in LLM-driven program evolution via parent sampling, code novelty rejection-sampling, and bandit LLM ensemble selection, achieving new SOTA circle packing with 150 samples and gains on math reasoning and competitive programming tasks.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the three innovations (parent sampling balancing exploration/exploitation, code novelty rejection-sampling, and bandit-based LLM ensemble selection) are the primary drivers of the reported gains in sample efficiency and solution quality rather than other unstated factors such as the choice of base LLMs or task-specific tuning.","pith_extraction_headline":"ShinkaEvolve evolves programs with far fewer samples by balancing exploration, rejecting non-novel code, and dynamically choosing which LLM to use for mutations."},"references":{"count":234,"sample":[{"doi":"","year":2023,"title":"American Invitational Mathematics Examination, 2023 , year =","work_id":"8a7f9ca6-0ca5-461b-8095-319fce5c3f8a","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"American Invitational Mathematics Examination, 2024 , year =","work_id":"e52e8601-482c-410f-82c2-a30fedd8694c","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"American Invitational Mathematics Examination, 2025 , year =","work_id":"8e23daf2-17b3-4b7f-bd8c-804e8f1fe775","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"2025 , publisher =","work_id":"941249b3-4bf1-4f51-9e93-d1403be41727","ref_index":8,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"The AI CUDA engineer: Agentic CUDA kernel discovery, optimization and composition , author=. 2025 , institution=","work_id":"739fc27b-e97a-43ff-a310-08cae82d915d","ref_index":10,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":234,"snapshot_sha256":"057e9377cc8eb165a58883597125d503d7b65d4ff384a5617d8d7806d0e6fef4","internal_anchors":51},"formal_canon":{"evidence_count":2,"snapshot_sha256":"081fe5f379419543f5a14ce0a3076796d3ac70872a68a850aa944671e5ca7710"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2509.19349","created_at":"2026-05-17T23:38:47.679520+00:00"},{"alias_kind":"arxiv_version","alias_value":"2509.19349v1","created_at":"2026-05-17T23:38:47.679520+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2509.19349","created_at":"2026-05-17T23:38:47.679520+00:00"},{"alias_kind":"pith_short_12","alias_value":"D75WCTB2CP47","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"D75WCTB2CP474E6L","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"D75WCTB2","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":28,"internal_anchor_count":28,"sample":[{"citing_arxiv_id":"2605.20690","citing_title":"Declarative Data Services: Structured Agentic Discovery for Composing Data Systems","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18661","citing_title":"AI for Auto-Research: Roadmap & User Guide","ref_index":95,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19633","citing_title":"optimize_anything: A Universal API for Optimizing any Text Parameter","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15221","citing_title":"Effective Harness Engineering for Algorithm Discovery with Coding Agents","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15308","citing_title":"SMCEvolve: Principled Scientific Discovery via Sequential Monte Carlo Evolution","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15461","citing_title":"DrugSAGE:Self-evolving Agent Experience for Efficient State-of-the-Art Drug Discovery","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2510.27176","citing_title":"Glia: A Human-Inspired AI for Automated Systems Design and Optimization","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2511.02864","citing_title":"Mathematical exploration and discovery at scale","ref_index":193,"is_internal_anchor":true},{"citing_arxiv_id":"2601.13209","citing_title":"AI for Mathematics: Progress, Challenges, and Prospects","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2601.16175","citing_title":"Learning to Discover at Test Time","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2604.09590","citing_title":"DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13874","citing_title":"GEAR: Genetic AutoResearch for Agentic Code Evolution","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09018","citing_title":"Evolutionary Ensemble of Agents","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12784","citing_title":"ToolMol: Evolutionary Agentic Framework for Multi-objective Drug Discovery","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12784","citing_title":"ToolMol: Evolutionary Agentic Framework for Multi-objective Drug Discovery","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08678","citing_title":"MLS-Bench: A Holistic and Rigorous Assessment of AI Systems on Building Better AI","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08520","citing_title":"FlashEvolve: Accelerating Agent Self-Evolution with Asynchronous Stage Orchestration","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09018","citing_title":"Evolutionary Ensemble of Agents","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25083","citing_title":"Agentic Architect: An Agentic AI Framework for Architecture Design Exploration and Optimization","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06341","citing_title":"CoupleEvo: Evolving Heuristics for Coupled Optimization Problems Using Large Language Models","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18607","citing_title":"TurboEvolve: Towards Fast and Robust LLM-Driven Program Evolution","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19803","citing_title":"The AI Telco Engineer: Toward Autonomous Discovery of Wireless Communications Algorithms","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2604.07240","citing_title":"$k$-server-bench: Automating Potential Discovery for the $k$-Server Conjecture","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06566","citing_title":"AI-Driven Research for Databases","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07039","citing_title":"PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents","ref_index":19,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/D75WCTB2CP474E6L4EUUYGZAON","json":"https://pith.science/pith/D75WCTB2CP474E6L4EUUYGZAON.json","graph_json":"https://pith.science/api/pith-number/D75WCTB2CP474E6L4EUUYGZAON/graph.json","events_json":"https://pith.science/api/pith-number/D75WCTB2CP474E6L4EUUYGZAON/events.json","paper":"https://pith.science/paper/D75WCTB2"},"agent_actions":{"view_html":"https://pith.science/pith/D75WCTB2CP474E6L4EUUYGZAON","download_json":"https://pith.science/pith/D75WCTB2CP474E6L4EUUYGZAON.json","view_paper":"https://pith.science/paper/D75WCTB2","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2509.19349&json=true","fetch_graph":"https://pith.science/api/pith-number/D75WCTB2CP474E6L4EUUYGZAON/graph.json","fetch_events":"https://pith.science/api/pith-number/D75WCTB2CP474E6L4EUUYGZAON/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/D75WCTB2CP474E6L4EUUYGZAON/action/timestamp_anchor","attest_storage":"https://pith.science/pith/D75WCTB2CP474E6L4EUUYGZAON/action/storage_attestation","attest_author":"https://pith.science/pith/D75WCTB2CP474E6L4EUUYGZAON/action/author_attestation","sign_citation":"https://pith.science/pith/D75WCTB2CP474E6L4EUUYGZAON/action/citation_signature","submit_replication":"https://pith.science/pith/D75WCTB2CP474E6L4EUUYGZAON/action/replication_record"}},"created_at":"2026-05-17T23:38:47.679520+00:00","updated_at":"2026-05-17T23:38:47.679520+00:00"}