{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2023:C6B2FLJULQKLHSMSXNPRFRM77J","short_pith_number":"pith:C6B2FLJU","schema_version":"1.0","canonical_sha256":"1783a2ad345c14b3c992bb5f12c59ffa7cee2cda1ebb054c2be66e353db4a3b9","source":{"kind":"arxiv","id":"2305.17493","version":3},"attestation_state":"computed","paper":{"title":"The Curse of Recursion: Training on Generated Data Makes Models Forget","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"","cross_cats":["cs.AI","cs.CL","cs.CR","cs.CV"],"primary_cat":"cs.LG","authors_text":"Ilia Shumailov, Nicolas Papernot, Ross Anderson, Yarin Gal, Yiren Zhao, Zakhar Shumaylov","submitted_at":"2023-05-27T15:10:41Z","abstract_excerpt":"Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2305.17493","kind":"arxiv","version":3},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","primary_cat":"cs.LG","submitted_at":"2023-05-27T15:10:41Z","cross_cats_sorted":["cs.AI","cs.CL","cs.CR","cs.CV"],"title_canon_sha256":"365ba14c4f705e4e6f4680d6766548161cfaaf034e8bcafa978e49f5d0792bd2","abstract_canon_sha256":"fc49ff636770aef80d79f2e212084a855bf301d8290422893f64311bfff54482"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-20T13:58:04.600956Z","signature_b64":"hiaCGkKCY6ivK8ZJTvOZ1boBXyFAxOcuTz8SofJiRVS5LD1Nw0795gsDGchRB8OzcCkuKlkTSkgjNt79FG8PAg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"1783a2ad345c14b3c992bb5f12c59ffa7cee2cda1ebb054c2be66e353db4a3b9","last_reissued_at":"2026-05-20T13:58:04.599220Z","signature_status":"signed_v1","first_computed_at":"2026-05-20T13:58:04.599220Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"The Curse of Recursion: Training on Generated Data Makes Models Forget","license":"http://creativecommons.org/licenses/by-nc-sa/4.0/","headline":"","cross_cats":["cs.AI","cs.CL","cs.CR","cs.CV"],"primary_cat":"cs.LG","authors_text":"Ilia Shumailov, Nicolas Papernot, Ross Anderson, Yarin Gal, Yiren Zhao, Zakhar Shumaylov","submitted_at":"2023-05-27T15:10:41Z","abstract_excerpt":"Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2305.17493","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2305.17493/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2305.17493","created_at":"2026-05-20T13:58:04.599294+00:00"},{"alias_kind":"arxiv_version","alias_value":"2305.17493v3","created_at":"2026-05-20T13:58:04.599294+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2305.17493","created_at":"2026-05-20T13:58:04.599294+00:00"},{"alias_kind":"pith_short_12","alias_value":"C6B2FLJULQKL","created_at":"2026-05-20T13:58:04.599294+00:00"},{"alias_kind":"pith_short_16","alias_value":"C6B2FLJULQKLHSMS","created_at":"2026-05-20T13:58:04.599294+00:00"},{"alias_kind":"pith_short_8","alias_value":"C6B2FLJU","created_at":"2026-05-20T13:58:04.599294+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":20,"internal_anchor_count":20,"sample":[{"citing_arxiv_id":"2603.03140","citing_title":"How to Model AI Agents as Personas?: Applying the Persona Ecosystem Playground to 41,300 Posts on Moltbook for Behavioral Insights","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19394","citing_title":"EmbGen: Teaching with Reassembled Corpora","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20151","citing_title":"When Does Model Collapse Occur in Structured Interactive Learning?","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19516","citing_title":"Base Models Look Human To AI Detectors","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2507.03933","citing_title":"Losing our Tail, Again: (Un)Natural Selection & Multilingual LLMs","ref_index":48,"is_internal_anchor":true},{"citing_arxiv_id":"2506.08872","citing_title":"Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task","ref_index":116,"is_internal_anchor":true},{"citing_arxiv_id":"2406.20094","citing_title":"Scaling Synthetic Data Creation with 1,000,000,000 Personas","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2412.18925","citing_title":"HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs","ref_index":66,"is_internal_anchor":true},{"citing_arxiv_id":"2604.06194","citing_title":"Content Platform GenAI Regulation via Compensation","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2603.18361","citing_title":"Synthetic Data Generation for Training Diversified Commonsense Reasoning Models","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03647","citing_title":"Stabilizing Unsupervised Self-Evolution of MLLMs via Continuous Softened Retracing reSampling","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2308.08998","citing_title":"Reinforced Self-Training (ReST) for Language Modeling","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2306.11644","citing_title":"Textbooks Are All You Need","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26653","citing_title":"AgentSim: A Platform for Verifiable Agent-Trace Simulation","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2402.17753","citing_title":"Evaluating Very Long-Term Conversational Memory of LLM Agents","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09995","citing_title":"Annotations Mitigate Post-Training Mode Collapse","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11546","citing_title":"RLSpoofer: A Lightweight Evaluator for LLM Watermark Spoofing Resilience","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07724","citing_title":"Curated Synthetic Data Doesn't Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences","ref_index":120,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18649","citing_title":"Position: No Retroactive Cure for Infringement during Training","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02236","citing_title":"Perturbation Dose Responses in Recursive LLM Loops: Raw Switching, Stochastic Floors, and Persistent Escape under Append, Replace, and Dialog Updates","ref_index":3,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/C6B2FLJULQKLHSMSXNPRFRM77J","json":"https://pith.science/pith/C6B2FLJULQKLHSMSXNPRFRM77J.json","graph_json":"https://pith.science/api/pith-number/C6B2FLJULQKLHSMSXNPRFRM77J/graph.json","events_json":"https://pith.science/api/pith-number/C6B2FLJULQKLHSMSXNPRFRM77J/events.json","paper":"https://pith.science/paper/C6B2FLJU"},"agent_actions":{"view_html":"https://pith.science/pith/C6B2FLJULQKLHSMSXNPRFRM77J","download_json":"https://pith.science/pith/C6B2FLJULQKLHSMSXNPRFRM77J.json","view_paper":"https://pith.science/paper/C6B2FLJU","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2305.17493&json=true","fetch_graph":"https://pith.science/api/pith-number/C6B2FLJULQKLHSMSXNPRFRM77J/graph.json","fetch_events":"https://pith.science/api/pith-number/C6B2FLJULQKLHSMSXNPRFRM77J/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/C6B2FLJULQKLHSMSXNPRFRM77J/action/timestamp_anchor","attest_storage":"https://pith.science/pith/C6B2FLJULQKLHSMSXNPRFRM77J/action/storage_attestation","attest_author":"https://pith.science/pith/C6B2FLJULQKLHSMSXNPRFRM77J/action/author_attestation","sign_citation":"https://pith.science/pith/C6B2FLJULQKLHSMSXNPRFRM77J/action/citation_signature","submit_replication":"https://pith.science/pith/C6B2FLJULQKLHSMSXNPRFRM77J/action/replication_record"}},"created_at":"2026-05-20T13:58:04.599294+00:00","updated_at":"2026-05-20T13:58:04.599294+00:00"}