{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2022:X37K2SZTINTS73PEDCULW2JAAQ","short_pith_number":"pith:X37K2SZT","schema_version":"1.0","canonical_sha256":"befead4b3343672fede418a8bb69200411c9639ef98b50f57d7ebcd975c9de30","source":{"kind":"arxiv","id":"2202.07646","version":3},"attestation_state":"computed","paper":{"title":"Quantifying Memorization Across Neural Language Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Memorization in language models increases log-linearly with model size, data duplication, and prompt length.","cross_cats":["cs.CL"],"primary_cat":"cs.LG","authors_text":"Chiyuan Zhang, Daphne Ippolito, Florian Tramer, Katherine Lee, Matthew Jagielski, Nicholas Carlini","submitted_at":"2022-02-15T18:48:31Z","abstract_excerpt":"Large language models (LMs) have been shown to memorize parts of their training data, and when prompted appropriately, they will emit the memorized training data verbatim. This is undesirable because memorization violates privacy (exposing user data), degrades utility (repeated easy-to-memorize text is often low quality), and hurts fairness (some texts are memorized over others).\n  We describe three log-linear relationships that quantify the degree to which LMs emit memorized training data. Memorization significantly grows as we increase (1) the capacity of a model, (2) the number of times an "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":false},"canonical_record":{"source":{"id":"2202.07646","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2022-02-15T18:48:31Z","cross_cats_sorted":["cs.CL"],"title_canon_sha256":"b45340bfac6354acfb42d31e8b2975ff2334898c8cb111664e76c5a5e77fe631","abstract_canon_sha256":"b5230ec6f01517894ba4f3fdb0c814e278571fab1daf3260f6f00ccb1142f847"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T04:38:57.963852Z","signature_b64":"ctVAtXcr916BzpCQL8WGyAV+fR5HT0AYcl0vMiiwa8Ax2j/rx2FC+37LWsNX/w3Q5AviQ/PieHjynjgSG6svAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"befead4b3343672fede418a8bb69200411c9639ef98b50f57d7ebcd975c9de30","last_reissued_at":"2026-05-18T04:38:57.963093Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T04:38:57.963093Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Quantifying Memorization Across Neural Language Models","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Memorization in language models increases log-linearly with model size, data duplication, and prompt length.","cross_cats":["cs.CL"],"primary_cat":"cs.LG","authors_text":"Chiyuan Zhang, Daphne Ippolito, Florian Tramer, Katherine Lee, Matthew Jagielski, Nicholas Carlini","submitted_at":"2022-02-15T18:48:31Z","abstract_excerpt":"Large language models (LMs) have been shown to memorize parts of their training data, and when prompted appropriately, they will emit the memorized training data verbatim. This is undesirable because memorization violates privacy (exposing user data), degrades utility (repeated easy-to-memorize text is often low quality), and hurts fairness (some texts are memorized over others).\n  We describe three log-linear relationships that quantify the degree to which LMs emit memorized training data. Memorization significantly grows as we increase (1) the capacity of a model, (2) the number of times an "},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"We describe three log-linear relationships that quantify the degree to which LMs emit memorized training data. Memorization significantly grows as we increase (1) the capacity of a model, (2) the number of times an example has been duplicated, and (3) the number of tokens of context used to prompt the model.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That verbatim emission under the chosen prompting and matching criteria accurately captures the privacy, utility, and fairness harms, and that the log-linear trends will continue to hold at larger scales without additional confounding factors.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Memorization in language models increases log-linearly with model capacity, data duplication count, and prompt context length.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Memorization in language models increases log-linearly with model size, data duplication, and prompt length.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"b3391e8a7b2018e1aefc71d1c567ae5da8efaa7a15ce3e56a2307429380c90e2"},"source":{"id":"2202.07646","kind":"arxiv","version":3},"verdict":{"id":"ff8e1c9c-dfb3-46f7-9ca6-b355cc20cdd3","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-13T22:00:04.860007Z","strongest_claim":"We describe three log-linear relationships that quantify the degree to which LMs emit memorized training data. Memorization significantly grows as we increase (1) the capacity of a model, (2) the number of times an example has been duplicated, and (3) the number of tokens of context used to prompt the model.","one_line_summary":"Memorization in language models increases log-linearly with model capacity, data duplication count, and prompt context length.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That verbatim emission under the chosen prompting and matching criteria accurately captures the privacy, utility, and fairness harms, and that the log-linear trends will continue to hold at larger scales without additional confounding factors.","pith_extraction_headline":"Memorization in language models increases log-linearly with model size, data duplication, and prompt length."},"references":{"count":25,"sample":[{"doi":"","year":2016,"title":"Deep learning with differential privacy","work_id":"c00396ae-c1af-430f-9810-bb5aba9fa3ab","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Large-scale differen- tially private BERT","work_id":"42d46873-b36f-49fe-bd2b-e2fee8d02f56","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"10.5281/zenodo.5297715","year":null,"title":"GPT-Neo: Large Scale Autoregressive Language Modeling with Mesh-Tensorflow , March 2021","work_id":"6c7f8a44-6f52-448c-b819-5ba82a7bbc59","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2012,"title":"Extracting training data from large language models","work_id":"25b490c3-532b-40ec-b8ce-05fef84201d4","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Evaluating Large Language Models Trained on Code","work_id":"042493e9-b26f-4b4e-bbde-382072ca9b08","ref_index":5,"cited_arxiv_id":"2107.03374","is_internal_anchor":true}],"resolved_work":25,"snapshot_sha256":"aa521d1fe9ae2871c69a3d7b4087d48b4af30f6193bcad5d56055bfced409441","internal_anchors":4},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2202.07646","created_at":"2026-05-18T04:38:57.963224+00:00"},{"alias_kind":"arxiv_version","alias_value":"2202.07646v3","created_at":"2026-05-18T04:38:57.963224+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2202.07646","created_at":"2026-05-18T04:38:57.963224+00:00"},{"alias_kind":"pith_short_12","alias_value":"X37K2SZTINTS","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_16","alias_value":"X37K2SZTINTS73PE","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_8","alias_value":"X37K2SZT","created_at":"2026-05-18T12:33:33.725879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":39,"internal_anchor_count":39,"sample":[{"citing_arxiv_id":"2204.06745","citing_title":"GPT-NeoX-20B: An Open-Source Autoregressive Language Model","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2401.02458","citing_title":"Data-Centric Foundation Models in Computational Healthcare: A Survey","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2409.18169","citing_title":"Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2410.07095","citing_title":"MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2501.02407","citing_title":"Towards the Anonymization of the Language Modeling","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2503.19786","citing_title":"Gemma 3 Technical Report","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18732","citing_title":"Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15425","citing_title":"Runtime-Structured Task Decomposition for Agentic Coding Systems","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2502.10248","citing_title":"Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model","ref_index":209,"is_internal_anchor":true},{"citing_arxiv_id":"2507.06261","citing_title":"Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2305.16264","citing_title":"Scaling Data-Constrained Language Models","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2308.05374","citing_title":"Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2205.10487","citing_title":"Scaling Laws and Interpretability of Learning from Repeated Data","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2512.08875","citing_title":"When Tables Leak: Attacking String Memorization in LLM-Based Tabular Data Generation","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2404.05868","citing_title":"Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2304.01373","citing_title":"Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling","ref_index":229,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14591","citing_title":"Privacy Auditing with Zero (0) Training Run","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2303.17564","citing_title":"BloombergGPT: A Large Language Model for Finance","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2306.01116","citing_title":"The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2301.11325","citing_title":"MusicLM: Generating Music From Text","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2311.05232","citing_title":"A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2501.17161","citing_title":"SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2305.10403","citing_title":"PaLM 2 Technical Report","ref_index":162,"is_internal_anchor":true},{"citing_arxiv_id":"2410.00037","citing_title":"Moshi: a speech-text foundation model for real-time dialogue","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09990","citing_title":"Merlin: Deterministic Byte-Exact Deduplication for Lossless Context Optimization in Large Language Model Inference","ref_index":2,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/X37K2SZTINTS73PEDCULW2JAAQ","json":"https://pith.science/pith/X37K2SZTINTS73PEDCULW2JAAQ.json","graph_json":"https://pith.science/api/pith-number/X37K2SZTINTS73PEDCULW2JAAQ/graph.json","events_json":"https://pith.science/api/pith-number/X37K2SZTINTS73PEDCULW2JAAQ/events.json","paper":"https://pith.science/paper/X37K2SZT"},"agent_actions":{"view_html":"https://pith.science/pith/X37K2SZTINTS73PEDCULW2JAAQ","download_json":"https://pith.science/pith/X37K2SZTINTS73PEDCULW2JAAQ.json","view_paper":"https://pith.science/paper/X37K2SZT","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2202.07646&json=true","fetch_graph":"https://pith.science/api/pith-number/X37K2SZTINTS73PEDCULW2JAAQ/graph.json","fetch_events":"https://pith.science/api/pith-number/X37K2SZTINTS73PEDCULW2JAAQ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/X37K2SZTINTS73PEDCULW2JAAQ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/X37K2SZTINTS73PEDCULW2JAAQ/action/storage_attestation","attest_author":"https://pith.science/pith/X37K2SZTINTS73PEDCULW2JAAQ/action/author_attestation","sign_citation":"https://pith.science/pith/X37K2SZTINTS73PEDCULW2JAAQ/action/citation_signature","submit_replication":"https://pith.science/pith/X37K2SZTINTS73PEDCULW2JAAQ/action/replication_record"}},"created_at":"2026-05-18T04:38:57.963224+00:00","updated_at":"2026-05-18T04:38:57.963224+00:00"}