{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2022:SW3KZRUKIT2BIBLXXRPGFOBGSB","short_pith_number":"pith:SW3KZRUK","schema_version":"1.0","canonical_sha256":"95b6acc68a44f4140577bc5e62b82690454aca22e41297b09e40546f26c6289f","source":{"kind":"arxiv","id":"2211.15089","version":3},"attestation_state":"computed","paper":{"title":"Continuous diffusion for categorical data","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.CL","authors_text":"Arman Roshannai, Arnaud Doucet, Chris Dyer, Conor Durkan, Curtis Hawthorne, Jonas Adler, Laurent Sartran, Nikolay Savinov, Pierre H. Richemond, R\\'emi Leblond, Robin Strudel, Sander Dieleman, Will Grathwohl, Yaroslav Ganin","submitted_at":"2022-11-28T06:08:54Z","abstract_excerpt":"Diffusion models have quickly become the go-to paradigm for generative modelling of perceptual signals (such as images and sound) through iterative refinement. Their success hinges on the fact that the underlying physical phenomena are continuous. For inherently discrete and categorical data such as language, various diffusion-inspired alternatives have been proposed. However, the continuous nature of diffusion models conveys many benefits, and in this work we endeavour to preserve it. We propose CDCD, a framework for modelling categorical data with diffusion models that are continuous both in"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2211.15089","kind":"arxiv","version":3},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CL","submitted_at":"2022-11-28T06:08:54Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"c2fd05b67b75ed5a10f4f69f351293666498264c3079557acad7610b11adfe5e","abstract_canon_sha256":"2f175d2bfde0e1b576b3140d15ee6f3709052d0988abf9292dfb78b2205ead6f"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T03:25:32.536523Z","signature_b64":"eXj1ODJxQo9l6hrCkdbXKlcvw2z7zAV/OOVWyafezZdwn61DzEg0dLfaKpR7/8hX4MFmF8jeiqc/hIYrULh7AA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"95b6acc68a44f4140577bc5e62b82690454aca22e41297b09e40546f26c6289f","last_reissued_at":"2026-05-18T03:25:32.535921Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T03:25:32.535921Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Continuous diffusion for categorical data","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"cs.CL","authors_text":"Arman Roshannai, Arnaud Doucet, Chris Dyer, Conor Durkan, Curtis Hawthorne, Jonas Adler, Laurent Sartran, Nikolay Savinov, Pierre H. Richemond, R\\'emi Leblond, Robin Strudel, Sander Dieleman, Will Grathwohl, Yaroslav Ganin","submitted_at":"2022-11-28T06:08:54Z","abstract_excerpt":"Diffusion models have quickly become the go-to paradigm for generative modelling of perceptual signals (such as images and sound) through iterative refinement. Their success hinges on the fact that the underlying physical phenomena are continuous. For inherently discrete and categorical data such as language, various diffusion-inspired alternatives have been proposed. However, the continuous nature of diffusion models conveys many benefits, and in this work we endeavour to preserve it. We propose CDCD, a framework for modelling categorical data with diffusion models that are continuous both in"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2211.15089","kind":"arxiv","version":3},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2211.15089","created_at":"2026-05-18T03:25:32.536019+00:00"},{"alias_kind":"arxiv_version","alias_value":"2211.15089v3","created_at":"2026-05-18T03:25:32.536019+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2211.15089","created_at":"2026-05-18T03:25:32.536019+00:00"},{"alias_kind":"pith_short_12","alias_value":"SW3KZRUKIT2B","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_16","alias_value":"SW3KZRUKIT2BIBLX","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_8","alias_value":"SW3KZRUK","created_at":"2026-05-18T12:33:33.725879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":17,"internal_anchor_count":17,"sample":[{"citing_arxiv_id":"2510.03206","citing_title":"Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2505.16933","citing_title":"LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning","ref_index":90,"is_internal_anchor":true},{"citing_arxiv_id":"2602.16813","citing_title":"Flow Map Language Models: One-step Language Modeling via Continuous Denoising","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2508.02193","citing_title":"Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14531","citing_title":"Language Generation as Optimal Control: Closed-Loop Diffusion in Latent Control Space","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12836","citing_title":"Discrete Stochastic Localization for Non-autoregressive Generation","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10938","citing_title":"ELF: Embedded Language Flows","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10518","citing_title":"Infinite Mask Diffusion for Few-Step Distillation","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06548","citing_title":"Continuous Latent Diffusion Language Model","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01373","citing_title":"Focus on the Core: Empowering Diffusion Large Language Models by Self-Contrast","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2508.15487","citing_title":"Dream 7B: Diffusion Large Language Models","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2605.00161","citing_title":"Consistent Diffusion Language Models","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11748","citing_title":"LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07748","citing_title":"TextLDM: Language Modeling with Continuous Latent Diffusion","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2502.09992","citing_title":"Large Language Diffusion Models","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2604.05497","citing_title":"Thinking Diffusion: Penalize and Guide Visual-Grounded Reasoning in Diffusion Multimodal Language Models","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13413","citing_title":"Dataset-Level Metrics Attenuate Non-Determinism: A Fine-Grained Non-Determinism Evaluation in Diffusion Language Models","ref_index":8,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/SW3KZRUKIT2BIBLXXRPGFOBGSB","json":"https://pith.science/pith/SW3KZRUKIT2BIBLXXRPGFOBGSB.json","graph_json":"https://pith.science/api/pith-number/SW3KZRUKIT2BIBLXXRPGFOBGSB/graph.json","events_json":"https://pith.science/api/pith-number/SW3KZRUKIT2BIBLXXRPGFOBGSB/events.json","paper":"https://pith.science/paper/SW3KZRUK"},"agent_actions":{"view_html":"https://pith.science/pith/SW3KZRUKIT2BIBLXXRPGFOBGSB","download_json":"https://pith.science/pith/SW3KZRUKIT2BIBLXXRPGFOBGSB.json","view_paper":"https://pith.science/paper/SW3KZRUK","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2211.15089&json=true","fetch_graph":"https://pith.science/api/pith-number/SW3KZRUKIT2BIBLXXRPGFOBGSB/graph.json","fetch_events":"https://pith.science/api/pith-number/SW3KZRUKIT2BIBLXXRPGFOBGSB/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/SW3KZRUKIT2BIBLXXRPGFOBGSB/action/timestamp_anchor","attest_storage":"https://pith.science/pith/SW3KZRUKIT2BIBLXXRPGFOBGSB/action/storage_attestation","attest_author":"https://pith.science/pith/SW3KZRUKIT2BIBLXXRPGFOBGSB/action/author_attestation","sign_citation":"https://pith.science/pith/SW3KZRUKIT2BIBLXXRPGFOBGSB/action/citation_signature","submit_replication":"https://pith.science/pith/SW3KZRUKIT2BIBLXXRPGFOBGSB/action/replication_record"}},"created_at":"2026-05-18T03:25:32.536019+00:00","updated_at":"2026-05-18T03:25:32.536019+00:00"}