{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:2LM7DJDEYTMMXBDHWCTPR2RQK2","short_pith_number":"pith:2LM7DJDE","schema_version":"1.0","canonical_sha256":"d2d9f1a464c4d8cb8467b0a6f8ea305696999db0620761966731b8ed3fa2b765","source":{"kind":"arxiv","id":"2601.16175","version":2},"attestation_state":"computed","paper":{"title":"Learning to Discover at Test Time","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Reinforcement learning at test time on one problem lets an open LLM produce new state-of-the-art solutions for math, coding, and biology tasks.","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Carlos Guestrin, Daniel Koceja, Federico Bianchi, James Zou, Jan Kautz, Jed McCaleb, Mert Yuksekgonul, Xiaolong Wang, Xinhao Li, Yejin Choi, Yu Sun","submitted_at":"2026-01-22T18:24:00Z","abstract_excerpt":"How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prio"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2601.16175","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-01-22T18:24:00Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"7587786623f1ad2c01aed29c22cd254350e74707b5534f6ee5a0516e002af5dd","abstract_canon_sha256":"018aacb15b77bd0cc7c39fd5e7744db849fd223296029b78d39b08bc85643f40"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:48.999928Z","signature_b64":"1aAoFsXWMg1rCkJks2LTfYUNnFY3gwc4Y1C7/z04dlJwTqLo8gUZFnpO5xRZbZKUmvOgopkNXEK9lGzB4i15BA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"d2d9f1a464c4d8cb8467b0a6f8ea305696999db0620761966731b8ed3fa2b765","last_reissued_at":"2026-05-17T23:38:48.999463Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:48.999463Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Learning to Discover at Test Time","license":"http://creativecommons.org/licenses/by/4.0/","headline":"Reinforcement learning at test time on one problem lets an open LLM produce new state-of-the-art solutions for math, coding, and biology tasks.","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Carlos Guestrin, Daniel Koceja, Federico Bianchi, James Zou, Jan Kautz, Jed McCaleb, Mert Yuksekgonul, Xiaolong Wang, Xinhao Li, Yejin Choi, Yu Sun","submitted_at":"2026-01-22T18:24:00Z","abstract_excerpt":"How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prio"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to 2× faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That reinforcement learning performed at test time on experience specific to one problem will reliably produce a single superior solution rather than overfitting or failing to improve over frozen-model search.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"TTT-Discover applies test-time RL to set new state-of-the-art results on math inequalities, GPU kernels, algorithm contests, and single-cell denoising using an open model and public code.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Reinforcement learning at test time on one problem lets an open LLM produce new state-of-the-art solutions for math, coding, and biology tasks.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"ce9d57fb032374b186648ea895e4d4bfafd7e918695aa3cbe5a86d51e7d2b78a"},"source":{"id":"2601.16175","kind":"arxiv","version":2},"verdict":{"id":"1bb148d5-4a0d-490c-8a1a-80a299e5c884","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T05:11:47.328644Z","strongest_claim":"TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to 2× faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis.","one_line_summary":"TTT-Discover applies test-time RL to set new state-of-the-art results on math inequalities, GPU kernels, algorithm contests, and single-cell denoising using an open model and public code.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That reinforcement learning performed at test time on experience specific to one problem will reliably produce a single superior solution rather than overfitting or failing to improve over frozen-model search.","pith_extraction_headline":"Reinforcement learning at test time on one problem lets an open LLM produce new state-of-the-art solutions for math, coding, and biology tasks."},"references":{"count":102,"sample":[{"doi":"","year":2025,"title":"gpt-oss-120b & gpt-oss-20b Model Card","work_id":"178c1f7e-4f19-4392-a45d-45a6dfa88ead","ref_index":1,"cited_arxiv_id":"2508.10925","is_internal_anchor":true},{"doi":"","year":2024,"title":"The surprising effectiveness of test-time training for few-shot learning.arXiv preprint arXiv:2411.07279","work_id":"e3b25df0-6672-4538-9b16-9887c089a5ef","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"AtCoder Inc. AtCoder.https://atcoder.jp, 2025","work_id":"bc423b80-1605-4d2b-8727-1b71d88009b1","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2025,"title":"Test-time Offline Reinforcement Learning on Goal-related Experience","work_id":"ddd653d1-bc8c-44c2-b0cb-051a7b495f0b","ref_index":4,"cited_arxiv_id":"2507.18809","is_internal_anchor":true},{"doi":"","year":2020,"title":"Three convolution inequalities on the real line with connections to additive combinatorics.Journal of Number Theory, 207:42–55, 2020","work_id":"9146008a-1aea-46ab-a01e-008cf03416aa","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":102,"snapshot_sha256":"3e996ce19bfd24e4f633c785897c287e223fb5637b68acd4c987191580a27fd0","internal_anchors":17},"formal_canon":{"evidence_count":3,"snapshot_sha256":"5b4573c7f2f0d66996bff9ae8c61996aab758770a3c980035c944f3e3d6af6bf"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2601.16175","created_at":"2026-05-17T23:38:48.999544+00:00"},{"alias_kind":"arxiv_version","alias_value":"2601.16175v2","created_at":"2026-05-17T23:38:48.999544+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2601.16175","created_at":"2026-05-17T23:38:48.999544+00:00"},{"alias_kind":"pith_short_12","alias_value":"2LM7DJDEYTMM","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"2LM7DJDEYTMMXBDH","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"2LM7DJDE","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":22,"internal_anchor_count":22,"sample":[{"citing_arxiv_id":"2605.18661","citing_title":"AI for Auto-Research: Roadmap & User Guide","ref_index":246,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19269","citing_title":"CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20086","citing_title":"What Do Evolutionary Coding Agents Evolve?","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14477","citing_title":"Test-Time Learning with an Evolving Library","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2603.28342","citing_title":"Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13037","citing_title":"MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13821","citing_title":"Harnessing Agentic Evolution","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02721","citing_title":"GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2603.28052","citing_title":"Meta-Harness: End-to-End Optimization of Model Harnesses","ref_index":57,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08083","citing_title":"LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11328","citing_title":"Epistemic Uncertainty for Test-Time Discovery","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08678","citing_title":"MLS-Bench: A Holistic and Rigorous Assessment of AI Systems on Building Better AI","ref_index":116,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10716","citing_title":"What should post-training optimize? A test-time scaling law perspective","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03808","citing_title":"Agentic-imodels: Evolving agentic interpretability tools via autoresearch","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05193","citing_title":"Grokability in five inequalities","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01120","citing_title":"New Bounds for Zarankiewicz Numbers via Reinforced LLM Evolutionary Search","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19341","citing_title":"Evaluation-driven Scaling for Scientific Discovery","ref_index":167,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12965","citing_title":"Efficient Retrieval Scaling with Hierarchical Indexing for Large Scale Recommendation","ref_index":67,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12290","citing_title":"Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07039","citing_title":"PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08083","citing_title":"LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18607","citing_title":"TurboEvolve: Towards Fast and Robust LLM-Driven Program Evolution","ref_index":21,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":3,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/2LM7DJDEYTMMXBDHWCTPR2RQK2","json":"https://pith.science/pith/2LM7DJDEYTMMXBDHWCTPR2RQK2.json","graph_json":"https://pith.science/api/pith-number/2LM7DJDEYTMMXBDHWCTPR2RQK2/graph.json","events_json":"https://pith.science/api/pith-number/2LM7DJDEYTMMXBDHWCTPR2RQK2/events.json","paper":"https://pith.science/paper/2LM7DJDE"},"agent_actions":{"view_html":"https://pith.science/pith/2LM7DJDEYTMMXBDHWCTPR2RQK2","download_json":"https://pith.science/pith/2LM7DJDEYTMMXBDHWCTPR2RQK2.json","view_paper":"https://pith.science/paper/2LM7DJDE","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2601.16175&json=true","fetch_graph":"https://pith.science/api/pith-number/2LM7DJDEYTMMXBDHWCTPR2RQK2/graph.json","fetch_events":"https://pith.science/api/pith-number/2LM7DJDEYTMMXBDHWCTPR2RQK2/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/2LM7DJDEYTMMXBDHWCTPR2RQK2/action/timestamp_anchor","attest_storage":"https://pith.science/pith/2LM7DJDEYTMMXBDHWCTPR2RQK2/action/storage_attestation","attest_author":"https://pith.science/pith/2LM7DJDEYTMMXBDHWCTPR2RQK2/action/author_attestation","sign_citation":"https://pith.science/pith/2LM7DJDEYTMMXBDHWCTPR2RQK2/action/citation_signature","submit_replication":"https://pith.science/pith/2LM7DJDEYTMMXBDHWCTPR2RQK2/action/replication_record"}},"created_at":"2026-05-17T23:38:48.999544+00:00","updated_at":"2026-05-17T23:38:48.999544+00:00"}