{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:DGUU7JQN3PALDNWOJKNRATEKIL","short_pith_number":"pith:DGUU7JQN","schema_version":"1.0","canonical_sha256":"19a94fa60ddbc0b1b6ce4a9b104c8a42e0728b0105de5d127e3695ba2b910e45","source":{"kind":"arxiv","id":"2512.17102","version":2},"attestation_state":"computed","paper":{"title":"Reinforcement Learning for Self-Improving Agent with Skill Library","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"A reinforcement learning method lets LLM agents accumulate skills across task chains to improve accuracy and efficiency without retraining.","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Jiongxiao Wang, Lin Lee Cheong, Megha Gandhi, Panpan Xu, Qiaojing Yan, Soumya Smruti Mishra, Yawei Wang, Yijun Tian, Zhichao Xu","submitted_at":"2025-12-18T21:58:19Z","abstract_excerpt":"Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities wi"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2512.17102","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2025-12-18T21:58:19Z","cross_cats_sorted":[],"title_canon_sha256":"035f1e969de9e82bc99e6bd287691bd16c98e1658801ee9673817d4dac7f2104","abstract_canon_sha256":"ed42ae9780a8415ab89f8a1815bd287f58e88011fc99816db90d034fb5cc9a89"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:13.223808Z","signature_b64":"QWb232Arokyc72iZUUem6AelShvh3ApEpkHczAY0EkjTMLq4uezAORkk4DfKmq1PS0b88REm6SJTBzRp65giBQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"19a94fa60ddbc0b1b6ce4a9b104c8a42e0728b0105de5d127e3695ba2b910e45","last_reissued_at":"2026-05-17T23:38:13.223167Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:13.223167Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Reinforcement Learning for Self-Improving Agent with Skill Library","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"A reinforcement learning method lets LLM agents accumulate skills across task chains to improve accuracy and efficiency without retraining.","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Jiongxiao Wang, Lin Lee Cheong, Megha Gandhi, Panpan Xu, Qiaojing Yan, Soumya Smruti Mishra, Yawei Wang, Yijun Tian, Zhichao Xu","submitted_at":"2025-12-18T21:58:19Z","abstract_excerpt":"Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities wi"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That skills generated and stored during sequential rollouts remain accurate and relevant when reused on later tasks without introducing compounding errors or requiring expensive validation.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"SAGE combines sequential rollouts across task chains with skill-integrated rewards inside a GRPO RL loop so agents accumulate and reuse skills, yielding 8.9% higher goal completion, 26% fewer steps, and 59% fewer tokens on AppWorld.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"A reinforcement learning method lets LLM agents accumulate skills across task chains to improve accuracy and efficiency without retraining.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"3ab7283ffb05bd966f255f5caa1258261018e5a2364eb02b2b44e120dd5f2c81"},"source":{"id":"2512.17102","kind":"arxiv","version":2},"verdict":{"id":"65bdc090-d099-4cff-b0d6-d1e7528b712a","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-17T20:01:16.035981Z","strongest_claim":"Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.","one_line_summary":"SAGE combines sequential rollouts across task chains with skill-integrated rewards inside a GRPO RL loop so agents accumulate and reuse skills, yielding 8.9% higher goal completion, 26% fewer steps, and 59% fewer tokens on AppWorld.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That skills generated and stored during sequential rollouts remain accurate and relevant when reused on later tasks without introducing compounding errors or requiring expensive validation.","pith_extraction_headline":"A reinforcement learning method lets LLM agents accumulate skills across task chains to improve accuracy and efficiency without retraining."},"references":{"count":3,"sample":[{"doi":"","year":2025,"title":"Rossi, Handong Zhao, Ruiyi Zhang, Puneet Mathur, Nedim Lipka, Yu Wang, Trung Bui, Franck Dernoncourt, and Tianyi Zhou","work_id":"7798ac7c-cce5-40ab-9024-2635dc2ad381","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning","work_id":"b96383ee-f8dc-471f-aba4-bc5ce9b0b632","ref_index":2,"cited_arxiv_id":"2504.20073","is_internal_anchor":true},{"doi":"","year":null,"title":"as our retrieval model and keep the top 5 retrieved skills for usage. This model differs from the general text-embedding model used for Query Embedding because it is specifically trained for document ","work_id":"6ff374be-4287-4810-bb05-6f7cc80bedf9","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":3,"snapshot_sha256":"0e3ef61ad3c8fba2a94465bfff36b9ef3497b026a395225d9c107da4df8d07fd","internal_anchors":1},"formal_canon":{"evidence_count":2,"snapshot_sha256":"cc5380a8f62bd25a826d72eca507be8051a03f7a9db5ea22cc47da551e938262"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2512.17102","created_at":"2026-05-17T23:38:13.223282+00:00"},{"alias_kind":"arxiv_version","alias_value":"2512.17102v2","created_at":"2026-05-17T23:38:13.223282+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2512.17102","created_at":"2026-05-17T23:38:13.223282+00:00"},{"alias_kind":"pith_short_12","alias_value":"DGUU7JQN3PAL","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"DGUU7JQN3PALDNWO","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"DGUU7JQN","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":25,"internal_anchor_count":25,"sample":[{"citing_arxiv_id":"2605.23904","citing_title":"SkillOpt: Executive Strategy for Self-Evolving Agent Skills","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2605.23899","citing_title":"From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07358","citing_title":"A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications","ref_index":85,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18401","citing_title":"SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution","ref_index":59,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15384","citing_title":"Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09038","citing_title":"SearchSkill: Teaching LLMs to Use Search Tools with Evolving Skill Banks","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2603.25111","citing_title":"SEVerA: Verified Synthesis of Self-Evolving Agents","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13716","citing_title":"SkillOps: Managing LLM Agent Skill Libraries as Self-Maintaining Software Ecosystems","ref_index":51,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03964","citing_title":"SKILLFOUNDRY: Building Self-Evolving Agent Skill Libraries from Heterogeneous Scientific Resources","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2602.12430","citing_title":"Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08693","citing_title":"SkillMaster: Toward Autonomous Skill Mastery in LLM Agents","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06130","citing_title":"Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11169","citing_title":"OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27221","citing_title":"Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08693","citing_title":"SkillMaster: Toward Autonomous Skill Mastery in LLM Agents","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08526","citing_title":"Skill-CMIB: Multimodal Agent Skill for Consistent Action via Conditional Multimodal Information Bottleneck","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09038","citing_title":"SearchSkill: Teaching LLMs to Use Search Tools with Evolving Skill Banks","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09359","citing_title":"Skill-R1: Agent Skill Evolution via Reinforcement Learning","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06130","citing_title":"Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07358","citing_title":"A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications","ref_index":85,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06130","citing_title":"Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning","ref_index":44,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02913","citing_title":"Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning","ref_index":117,"is_internal_anchor":true},{"citing_arxiv_id":"2604.15709","citing_title":"Bilevel Optimization of Agent Skills via Monte Carlo Tree Search","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17503","citing_title":"SkillGraph: Self-Evolving Multi-Agent Collaboration with Multimodal Graph Topology","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2604.20987","citing_title":"Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks","ref_index":26,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/DGUU7JQN3PALDNWOJKNRATEKIL","json":"https://pith.science/pith/DGUU7JQN3PALDNWOJKNRATEKIL.json","graph_json":"https://pith.science/api/pith-number/DGUU7JQN3PALDNWOJKNRATEKIL/graph.json","events_json":"https://pith.science/api/pith-number/DGUU7JQN3PALDNWOJKNRATEKIL/events.json","paper":"https://pith.science/paper/DGUU7JQN"},"agent_actions":{"view_html":"https://pith.science/pith/DGUU7JQN3PALDNWOJKNRATEKIL","download_json":"https://pith.science/pith/DGUU7JQN3PALDNWOJKNRATEKIL.json","view_paper":"https://pith.science/paper/DGUU7JQN","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2512.17102&json=true","fetch_graph":"https://pith.science/api/pith-number/DGUU7JQN3PALDNWOJKNRATEKIL/graph.json","fetch_events":"https://pith.science/api/pith-number/DGUU7JQN3PALDNWOJKNRATEKIL/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/DGUU7JQN3PALDNWOJKNRATEKIL/action/timestamp_anchor","attest_storage":"https://pith.science/pith/DGUU7JQN3PALDNWOJKNRATEKIL/action/storage_attestation","attest_author":"https://pith.science/pith/DGUU7JQN3PALDNWOJKNRATEKIL/action/author_attestation","sign_citation":"https://pith.science/pith/DGUU7JQN3PALDNWOJKNRATEKIL/action/citation_signature","submit_replication":"https://pith.science/pith/DGUU7JQN3PALDNWOJKNRATEKIL/action/replication_record"}},"created_at":"2026-05-17T23:38:13.223282+00:00","updated_at":"2026-05-17T23:38:13.223282+00:00"}