{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:4ZCAS523WDM2WKRCVW72TB6SUG","short_pith_number":"pith:4ZCAS523","schema_version":"1.0","canonical_sha256":"e64409775bb0d9ab2a22adbfa987d2a18d41a243c16017c769eaa3d67a1a9c41","source":{"kind":"arxiv","id":"2512.20963","version":3},"attestation_state":"computed","paper":{"title":"Generalization of Diffusion Models Arises with a Balanced Representation Space","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.CV"],"primary_cat":"cs.LG","authors_text":"Lianghe Shi, Meng Wu, Molei Tao, Qing Qu, Xiang Li, Xiao Li, Zekai Zhang","submitted_at":"2025-12-24T05:40:40Z","abstract_excerpt":"Diffusion models excel at generating high-quality, diverse samples, yet they risk memorizing training data when overfit to the training objective. We analyze the distinctions between memorization and generalization in diffusion models through the lens of representation learning. By investigating a two-layer ReLU denoising autoencoder (DAE), we prove that (i) memorization corresponds to the model storing raw training samples in the learned weights for encoding and decoding, yielding localized spiky representations, whereas (ii) generalization arises when the model captures local data statistics"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2512.20963","kind":"arxiv","version":3},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2025-12-24T05:40:40Z","cross_cats_sorted":["cs.CV"],"title_canon_sha256":"efad3111f27900102d1008078dd301363890e618f913708bd60544ad50ad8226","abstract_canon_sha256":"6d6986b3a2c2436eea904b88a7195ec3eb5baa8ae04ed2b01e953d5afd900373"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-08T01:05:05.768141Z","signature_b64":"7YX5OS7BgVL1bM8qR9uMQAlsfpACmmHnlz7YiVfa+wezWunIkZPEucPHGrBOlt1N5pKPXlUdiQ4udMEB+mdmDw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"e64409775bb0d9ab2a22adbfa987d2a18d41a243c16017c769eaa3d67a1a9c41","last_reissued_at":"2026-06-08T01:05:05.767190Z","signature_status":"signed_v1","first_computed_at":"2026-06-08T01:05:05.767190Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Generalization of Diffusion Models Arises with a Balanced Representation Space","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.CV"],"primary_cat":"cs.LG","authors_text":"Lianghe Shi, Meng Wu, Molei Tao, Qing Qu, Xiang Li, Xiao Li, Zekai Zhang","submitted_at":"2025-12-24T05:40:40Z","abstract_excerpt":"Diffusion models excel at generating high-quality, diverse samples, yet they risk memorizing training data when overfit to the training objective. We analyze the distinctions between memorization and generalization in diffusion models through the lens of representation learning. By investigating a two-layer ReLU denoising autoencoder (DAE), we prove that (i) memorization corresponds to the model storing raw training samples in the learned weights for encoding and decoding, yielding localized spiky representations, whereas (ii) generalization arises when the model captures local data statistics"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2512.20963","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2512.20963/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2512.20963","created_at":"2026-06-08T01:05:05.767333+00:00"},{"alias_kind":"arxiv_version","alias_value":"2512.20963v3","created_at":"2026-06-08T01:05:05.767333+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2512.20963","created_at":"2026-06-08T01:05:05.767333+00:00"},{"alias_kind":"pith_short_12","alias_value":"4ZCAS523WDM2","created_at":"2026-06-08T01:05:05.767333+00:00"},{"alias_kind":"pith_short_16","alias_value":"4ZCAS523WDM2WKRC","created_at":"2026-06-08T01:05:05.767333+00:00"},{"alias_kind":"pith_short_8","alias_value":"4ZCAS523","created_at":"2026-06-08T01:05:05.767333+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":1,"internal_anchor_count":1,"sample":[{"citing_arxiv_id":"2605.13278","citing_title":"Proximal-Based Generative Modeling for Bayesian Inverse Problems","ref_index":99,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/4ZCAS523WDM2WKRCVW72TB6SUG","json":"https://pith.science/pith/4ZCAS523WDM2WKRCVW72TB6SUG.json","graph_json":"https://pith.science/api/pith-number/4ZCAS523WDM2WKRCVW72TB6SUG/graph.json","events_json":"https://pith.science/api/pith-number/4ZCAS523WDM2WKRCVW72TB6SUG/events.json","paper":"https://pith.science/paper/4ZCAS523"},"agent_actions":{"view_html":"https://pith.science/pith/4ZCAS523WDM2WKRCVW72TB6SUG","download_json":"https://pith.science/pith/4ZCAS523WDM2WKRCVW72TB6SUG.json","view_paper":"https://pith.science/paper/4ZCAS523","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2512.20963&json=true","fetch_graph":"https://pith.science/api/pith-number/4ZCAS523WDM2WKRCVW72TB6SUG/graph.json","fetch_events":"https://pith.science/api/pith-number/4ZCAS523WDM2WKRCVW72TB6SUG/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/4ZCAS523WDM2WKRCVW72TB6SUG/action/timestamp_anchor","attest_storage":"https://pith.science/pith/4ZCAS523WDM2WKRCVW72TB6SUG/action/storage_attestation","attest_author":"https://pith.science/pith/4ZCAS523WDM2WKRCVW72TB6SUG/action/author_attestation","sign_citation":"https://pith.science/pith/4ZCAS523WDM2WKRCVW72TB6SUG/action/citation_signature","submit_replication":"https://pith.science/pith/4ZCAS523WDM2WKRCVW72TB6SUG/action/replication_record"}},"created_at":"2026-06-08T01:05:05.767333+00:00","updated_at":"2026-06-08T01:05:05.767333+00:00"}