{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2020:S4Y3ZWUWEX5I3563BY74JTVKPQ","short_pith_number":"pith:S4Y3ZWUW","schema_version":"1.0","canonical_sha256":"9731bcda9625fa8df7db0e3fc4ceaa7c1567322b3a582da7a2505b30f4e028e9","source":{"kind":"arxiv","id":"2009.09761","version":3},"attestation_state":"computed","paper":{"title":"DiffWave: A Versatile Diffusion Model for Audio Synthesis","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"A diffusion model converts white noise into high-quality audio waveforms through a fixed-step Markov chain, matching WaveNet vocoder quality while running orders of magnitude faster.","cross_cats":["cs.CL","cs.LG","cs.SD","stat.ML"],"primary_cat":"eess.AS","authors_text":"Bryan Catanzaro, Jiaji Huang, Kexin Zhao, Wei Ping, Zhifeng Kong","submitted_at":"2020-09-21T11:20:38Z","abstract_excerpt":"In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audios in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrat"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2009.09761","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"eess.AS","submitted_at":"2020-09-21T11:20:38Z","cross_cats_sorted":["cs.CL","cs.LG","cs.SD","stat.ML"],"title_canon_sha256":"848a2e8d4a5ddbf0e6eaeb3880f031f2c0cfa2f0510837aca0ac098a54697ee9","abstract_canon_sha256":"19873d12221f4a74bda25d7330b4259d32db0ca87acfa2ff2b93e55a6392a6f0"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:52.486451Z","signature_b64":"XC1BJ2wHvbUTnrtOGRoyeMX4NocsbmIKXnbjORn2g6UPfAp/tBYXNrq+/ZhRE83rLpJxUKvXUn9aGWbvUh9VAQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"9731bcda9625fa8df7db0e3fc4ceaa7c1567322b3a582da7a2505b30f4e028e9","last_reissued_at":"2026-05-17T23:38:52.485912Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:52.485912Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"DiffWave: A Versatile Diffusion Model for Audio Synthesis","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"A diffusion model converts white noise into high-quality audio waveforms through a fixed-step Markov chain, matching WaveNet vocoder quality while running orders of magnitude faster.","cross_cats":["cs.CL","cs.LG","cs.SD","stat.ML"],"primary_cat":"eess.AS","authors_text":"Bryan Catanzaro, Jiaji Huang, Kexin Zhao, Wei Ping, Zhifeng Kong","submitted_at":"2020-09-21T11:20:38Z","abstract_excerpt":"In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audios in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrat"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That a neural network can accurately predict the noise to remove at each step of the reverse diffusion Markov chain so that the resulting waveform matches the statistical structure of real audio data across conditional and unconditional tasks.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"DiffWave is a non-autoregressive diffusion model that generates high-fidelity audio waveforms from noise in constant steps, matching WaveNet vocoder quality while being orders of magnitude faster and outperforming prior models in unconditional generation.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"A diffusion model converts white noise into high-quality audio waveforms through a fixed-step Markov chain, matching WaveNet vocoder quality while running orders of magnitude faster.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"a27ffdf32f61d4a59c86a7e825a40b556437dfaad4d9ca7b8f908d110b1e38b4"},"source":{"id":"2009.09761","kind":"arxiv","version":3},"verdict":{"id":"4e60a1e4-1564-46f1-a7af-83666f64c6c8","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T13:08:25.489240Z","strongest_claim":"DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations.","one_line_summary":"DiffWave is a non-autoregressive diffusion model that generates high-fidelity audio waveforms from noise in constant steps, matching WaveNet vocoder quality while being orders of magnitude faster and outperforming prior models in unconditional generation.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That a neural network can accurately predict the noise to remove at each step of the reverse diffusion Markov chain so that the resulting waveform matches the statistical structure of real audio data across conditional and unconditional tasks.","pith_extraction_headline":"A diffusion model converts white noise into high-quality audio waveforms through a fixed-step Markov chain, matching WaveNet vocoder quality while running orders of magnitude faster."},"references":{"count":25,"sample":[{"doi":"","year":null,"title":"Large Scale GAN Training for High Fidelity Natural Image Synthesis","work_id":"244e6f06-bad2-4f34-8186-ff370286427f","ref_index":1,"cited_arxiv_id":"1809.11096","is_internal_anchor":true},{"doi":"","year":2009,"title":"Weiss, Mohammad Norouzi, and William Chan","work_id":"dfc547ab-d454-42c9-a947-ccad69cedcf9","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"Persistent rnns: Stashing recurrent weights on-chip","work_id":"406e710f-f1d8-43a1-9a7e-7e9c05755076","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2006,"title":"End-to-end adversarial text-to-speech","work_id":"412cbe8a-0d86-4e02-acbb-5cca1c1ba6e2","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2001,"title":"Ddsp: Differentiable digital signal processing","work_id":"2f1728ab-8e41-44fd-9f5a-99b4eea1622b","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":25,"snapshot_sha256":"e211c4f479da2f1ea62a55f7a27b33aa3cf7f177dd04649109f1182b823447df","internal_anchors":9},"formal_canon":{"evidence_count":2,"snapshot_sha256":"956a802e3aa97351ba7331bbbb084c50f411b1c493a41e74a3fb60d20d761770"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2009.09761","created_at":"2026-05-17T23:38:52.486002+00:00"},{"alias_kind":"arxiv_version","alias_value":"2009.09761v3","created_at":"2026-05-17T23:38:52.486002+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2009.09761","created_at":"2026-05-17T23:38:52.486002+00:00"},{"alias_kind":"pith_short_12","alias_value":"S4Y3ZWUWEX5I","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_16","alias_value":"S4Y3ZWUWEX5I3563","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_8","alias_value":"S4Y3ZWUW","created_at":"2026-05-18T12:33:33.725879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":33,"internal_anchor_count":33,"sample":[{"citing_arxiv_id":"2011.13456","citing_title":"Score-Based Generative Modeling through Stochastic Differential Equations","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2411.17690","citing_title":"Mechanisms of Multimodal Synchronization: Insights from Decoder-Based Video-Text-to-Speech Synthesis","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2502.18309","citing_title":"GCDance: Genre-Controlled Music-Driven 3D Full Body Dance Generation","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2505.14202","citing_title":"MSDformer: Multi-scale Discrete Transformer For Time Series Generation","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2602.16813","citing_title":"Flow Map Language Models: One-step Language Modeling via Continuous Denoising","ref_index":85,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18190","citing_title":"Dual-Rate Diffusion: Accelerating diffusion models with an interleaved heavy-light network","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17866","citing_title":"DAD4TS: Data-Augmentation-Oriented Diffusion Model for Time-Series Forecasting with Small-Scale Data","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18749","citing_title":"WavFlow: Audio Generation in Waveform Space","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16732","citing_title":"DiRotQ: Rotation-Aware Quantization for 4-bit Diffusion Transformers","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2507.18654","citing_title":"Diffusion Models for Solving Inverse Problems via Posterior Sampling with Piecewise Guidance","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2512.09378","citing_title":"Personalized Federated Distillation Assisted Vehicle Edge Caching Strategy","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2409.00588","citing_title":"Diffusion Policy Policy Optimization","ref_index":49,"is_internal_anchor":true},{"citing_arxiv_id":"2602.16813","citing_title":"Flow Map Language Models: One-step Language Modeling via Continuous Denoising","ref_index":85,"is_internal_anchor":true},{"citing_arxiv_id":"2603.13566","citing_title":"EmDT: Embedding Diffusion Transformer for Tabular Data Generation in Fraud Detection","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2603.20645","citing_title":"Diffusion Model for Manifold Data: Score Decomposition, Curvature, and Statistical Complexity","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2410.12557","citing_title":"One Step Diffusion via Shortcut Models","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14276","citing_title":"Training-Free Generative Sampling via Moment-Matched Score Smoothing","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12836","citing_title":"Discrete Stochastic Localization for Non-autoregressive Generation","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2303.01469","citing_title":"Consistency Models","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2105.05233","citing_title":"Diffusion Models Beat GANs on Image Synthesis","ref_index":30,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08976","citing_title":"Score-Based Generative Modeling through Anisotropic Stochastic Partial Differential Equations","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05736","citing_title":"SDFlow: Similarity-Driven Flow Matching for Time Series Generation","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10790","citing_title":"Elucidating Representation Degradation Problem in Diffusion Model Training","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09275","citing_title":"DiffATS: Diffusion in Aligned Tensor Space","ref_index":28,"is_internal_anchor":true},{"citing_arxiv_id":"2605.10020","citing_title":"TrajDLM: Topology-Aware Block Diffusion Language Model for Trajectory Generation","ref_index":25,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/S4Y3ZWUWEX5I3563BY74JTVKPQ","json":"https://pith.science/pith/S4Y3ZWUWEX5I3563BY74JTVKPQ.json","graph_json":"https://pith.science/api/pith-number/S4Y3ZWUWEX5I3563BY74JTVKPQ/graph.json","events_json":"https://pith.science/api/pith-number/S4Y3ZWUWEX5I3563BY74JTVKPQ/events.json","paper":"https://pith.science/paper/S4Y3ZWUW"},"agent_actions":{"view_html":"https://pith.science/pith/S4Y3ZWUWEX5I3563BY74JTVKPQ","download_json":"https://pith.science/pith/S4Y3ZWUWEX5I3563BY74JTVKPQ.json","view_paper":"https://pith.science/paper/S4Y3ZWUW","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2009.09761&json=true","fetch_graph":"https://pith.science/api/pith-number/S4Y3ZWUWEX5I3563BY74JTVKPQ/graph.json","fetch_events":"https://pith.science/api/pith-number/S4Y3ZWUWEX5I3563BY74JTVKPQ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/S4Y3ZWUWEX5I3563BY74JTVKPQ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/S4Y3ZWUWEX5I3563BY74JTVKPQ/action/storage_attestation","attest_author":"https://pith.science/pith/S4Y3ZWUWEX5I3563BY74JTVKPQ/action/author_attestation","sign_citation":"https://pith.science/pith/S4Y3ZWUWEX5I3563BY74JTVKPQ/action/citation_signature","submit_replication":"https://pith.science/pith/S4Y3ZWUWEX5I3563BY74JTVKPQ/action/replication_record"}},"created_at":"2026-05-17T23:38:52.486002+00:00","updated_at":"2026-05-17T23:38:52.486002+00:00"}