{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:KATRKKFLRXSSKV4IGUQUS2OXEN","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"0050df30ec955b63eaddfad66649b248143a5f57d70eadcc71fe842a910bd4a3","cross_cats_sorted":["cs.AI","cs.CL"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CE","submitted_at":"2026-05-14T20:54:40Z","title_canon_sha256":"d1e0186de0a1193da710b18dcf521f68e6ae266dea061730c86d009283934046"},"schema_version":"1.0","source":{"id":"2605.15412","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.15412","created_at":"2026-05-20T00:00:57Z"},{"alias_kind":"arxiv_version","alias_value":"2605.15412v1","created_at":"2026-05-20T00:00:57Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.15412","created_at":"2026-05-20T00:00:57Z"},{"alias_kind":"pith_short_12","alias_value":"KATRKKFLRXSS","created_at":"2026-05-20T00:00:57Z"},{"alias_kind":"pith_short_16","alias_value":"KATRKKFLRXSSKV4I","created_at":"2026-05-20T00:00:57Z"},{"alias_kind":"pith_short_8","alias_value":"KATRKKFL","created_at":"2026-05-20T00:00:57Z"}],"graph_snapshots":[{"event_id":"sha256:cf561d9cfded55b4001ce2dff6af892e93d665860ba29f2550f5ea0e651a6f68","target":"graph","created_at":"2026-05-20T00:00:57Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"QuantEvolver consistently improves the primary evaluation metric of each task over existing LLM-based alpha factor discovery baselines, produces higher-quality and more complementary factor pools."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That converting executable quantitative evaluation results into reinforcement policy updates allows the Miner LLM to internalize historical optimization experience without introducing new biases or failing to generalize beyond the regime backtests used during training."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"QuantEvolver applies reinforcement fine-tuning to evolve an LLM policy for generating executable alpha factor expressions, yielding higher-quality and more complementary factors than prompt-based baselines on market benchmarks."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"Reinforcement fine-tuning converts quantitative evaluations into policy updates so an LLM internalizes alpha factor optimization experience instead of accumulating prompt feedback."}],"snapshot_sha256":"2edc854ed96efe95f34bc9c3516446bf82cbe82e0607045ae4eec22ff8332c65"},"formal_canon":{"evidence_count":2,"snapshot_sha256":"2bca2e2d172b640d648c98f9cb58277eaa6072135c47a0b785c5c19068c9725a"},"integrity":{"available":true,"clean":true,"detectors_run":[{"findings_count":0,"name":"cited_work_retraction","ran_at":"2026-05-19T16:23:38.023042Z","status":"completed","version":"1.0.0"},{"findings_count":0,"name":"citation_quote_validity","ran_at":"2026-05-19T15:50:45.316438Z","status":"completed","version":"0.1.0"},{"findings_count":0,"name":"doi_title_agreement","ran_at":"2026-05-19T15:01:17.695826Z","status":"completed","version":"1.0.0"},{"findings_count":0,"name":"doi_compliance","ran_at":"2026-05-19T14:50:24.787281Z","status":"completed","version":"1.0.0"},{"findings_count":0,"name":"claim_evidence","ran_at":"2026-05-19T14:21:54.150771Z","status":"completed","version":"1.0.0"},{"findings_count":0,"name":"ai_meta_artifact","ran_at":"2026-05-19T13:33:22.709955Z","status":"skipped","version":"1.0.0"}],"endpoint":"/pith/2605.15412/integrity.json","findings":[],"snapshot_sha256":"d1884910ff0ad22d646a1a7d68dda4d903e2cbe418d8b4e39587e81cbdc2afc2","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Modern quantitative trading increasingly relies on systematic models to extract predictive signals from large-scale financial data, where alpha factor discovery plays a central role in transforming market observations into tradable signals. Recent LLM-based methods have shown promise in automating factor generation, but most of them still rely on prompt-level generation--evaluation--feedback loops for iterative optimization. As the loop becomes longer, repeatedly appended historical candidates and feedback can cause context explosion, increase inference cost, dilute useful information, and int","authors_text":"Chiming Duan, Lingzhe Zhang, Minghua He, Philip S. Yu, Tong Jia, Ying Li, Yunpeng Zhai, Zixuan Xie","cross_cats":["cs.AI","cs.CL"],"headline":"Reinforcement fine-tuning converts quantitative evaluations into policy updates so an LLM internalizes alpha factor optimization experience instead of accumulating prompt feedback.","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CE","submitted_at":"2026-05-14T20:54:40Z","title":"From Feedback Loops to Policy Updates: Reinforcement Fine-Tuning for LLM-Based Alpha Factor Discovery"},"references":{"count":85,"internal_anchors":9,"resolved_work":85,"sample":[{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":1,"title":"Autoalpha: an efficient hierarchical evolutionary algorithm for mining alpha factors in quantitative invest- ment,","work_id":"2532e1ad-4506-417d-a899-78b46ee21b47","year":2002},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":2,"title":"Alpha mining and enhancing via warm start genetic programming for quantitative investment,","work_id":"cdd0fd0e-7e06-4c7f-bce8-5a83aea938ea","year":2024},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":3,"title":"Z. Kakushadze, “101 formulaic alphas,” Wilmott, vol. 2016, no. 84, pp. 72–81, 2016","work_id":"34c9c44d-62fd-4b59-bd2e-7a7dcd962d36","year":2016},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":4,"title":"Multiple regression genetic programming,","work_id":"77642bbd-60fa-44eb-ac5a-7206585cc499","year":2014},{"cited_arxiv_id":"","doi":"","is_internal_anchor":false,"ref_index":5,"title":"Alpha discovery via grammar-guided learning and search,","work_id":"cc15f612-d5ff-44bc-b244-150ad397b99c","year":2026}],"snapshot_sha256":"03edae30ddb6a6e8e4c4741055c7dd9a4a47fa000a55b1a158238dd4317da394"},"source":{"id":"2605.15412","kind":"arxiv","version":1},"verdict":{"created_at":"2026-05-19T14:39:02.202456Z","id":"9afe3c72-9165-4739-af19-c694bab472d0","model_set":{"reader":"grok-4.3"},"one_line_summary":"QuantEvolver applies reinforcement fine-tuning to evolve an LLM policy for generating executable alpha factor expressions, yielding higher-quality and more complementary factors than prompt-based baselines on market benchmarks.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"Reinforcement fine-tuning converts quantitative evaluations into policy updates so an LLM internalizes alpha factor optimization experience instead of accumulating prompt feedback.","strongest_claim":"QuantEvolver consistently improves the primary evaluation metric of each task over existing LLM-based alpha factor discovery baselines, produces higher-quality and more complementary factor pools.","weakest_assumption":"That converting executable quantitative evaluation results into reinforcement policy updates allows the Miner LLM to internalize historical optimization experience without introducing new biases or failing to generalize beyond the regime backtests used during training."}},"verdict_id":"9afe3c72-9165-4739-af19-c694bab472d0"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:c0e40c30b87ced79a0b5392d1508498cd312999e0b2f7ae980f3a75a55379f8f","target":"record","created_at":"2026-05-20T00:00:57Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"0050df30ec955b63eaddfad66649b248143a5f57d70eadcc71fe842a910bd4a3","cross_cats_sorted":["cs.AI","cs.CL"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CE","submitted_at":"2026-05-14T20:54:40Z","title_canon_sha256":"d1e0186de0a1193da710b18dcf521f68e6ae266dea061730c86d009283934046"},"schema_version":"1.0","source":{"id":"2605.15412","kind":"arxiv","version":1}},"canonical_sha256":"50271528ab8de525578835214969d7237388e4425fe23cc0362480fae7afa191","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"50271528ab8de525578835214969d7237388e4425fe23cc0362480fae7afa191","first_computed_at":"2026-05-20T00:00:57.298359Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-20T00:00:57.298359Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"qXdMJfWWTjW+rrxFpOhwII/eUDf/7rOPPDmOKoJUFOJFiKBeLVMPr2KI6SaJtd2cA+LwmJwRYpqJ2pBIaxoEDQ==","signature_status":"signed_v1","signed_at":"2026-05-20T00:00:57.299169Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.15412","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:c0e40c30b87ced79a0b5392d1508498cd312999e0b2f7ae980f3a75a55379f8f","sha256:cf561d9cfded55b4001ce2dff6af892e93d665860ba29f2550f5ea0e651a6f68"],"state_sha256":"ba8d138e1a9ffca757f0e5c433d297edb47104bdcf9a75cc7d132ef6241c2000"}