{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2017:TKDTZYGP4524S5RYKCWOKET6FR","short_pith_number":"pith:TKDTZYGP","schema_version":"1.0","canonical_sha256":"9a873ce0cfe775c9763850ace5127e2c43aeba765566d28626f00ae4ff422fc1","source":{"kind":"arxiv","id":"1712.01312","version":2},"attestation_state":"computed","paper":{"title":"Learning Sparse Neural Networks through $L_0$ Regularization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"stat.ML","authors_text":"Christos Louizos, Diederik P. Kingma, Max Welling","submitted_at":"2017-12-04T19:20:27Z","abstract_excerpt":"We propose a practical method for $L_0$ norm regularization for neural networks: pruning the network during training by encouraging weights to become exactly zero. Such regularization is interesting since (1) it can greatly speed up training and inference, and (2) it can improve generalization. AIC and BIC, well-known model selection criteria, are special cases of $L_0$ regularization. However, since the $L_0$ norm of weights is non-differentiable, we cannot incorporate it directly as a regularization term in the objective function. We propose a solution through the inclusion of a collection o"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1712.01312","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"stat.ML","submitted_at":"2017-12-04T19:20:27Z","cross_cats_sorted":["cs.LG"],"title_canon_sha256":"74e1db606ae77ca95302d89e4fe70d59bda7614d54c417c2048c54bdc177c32d","abstract_canon_sha256":"5ffeec75c10b2fd17702ca773678ff9aae2f5da4b929a8a7f908a506d79479ca"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:12:38.390379Z","signature_b64":"xEzDpNtVs/UiCH7r8arLyr4HURswkwOD5k143wwgD45hnyeYOgGqKnc+kJadarkMCCqmflzG3XmymVpgbQtPAQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"9a873ce0cfe775c9763850ace5127e2c43aeba765566d28626f00ae4ff422fc1","last_reissued_at":"2026-05-18T00:12:38.389906Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:12:38.389906Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Learning Sparse Neural Networks through $L_0$ Regularization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.LG"],"primary_cat":"stat.ML","authors_text":"Christos Louizos, Diederik P. Kingma, Max Welling","submitted_at":"2017-12-04T19:20:27Z","abstract_excerpt":"We propose a practical method for $L_0$ norm regularization for neural networks: pruning the network during training by encouraging weights to become exactly zero. Such regularization is interesting since (1) it can greatly speed up training and inference, and (2) it can improve generalization. AIC and BIC, well-known model selection criteria, are special cases of $L_0$ regularization. However, since the $L_0$ norm of weights is non-differentiable, we cannot incorporate it directly as a regularization term in the objective function. We propose a solution through the inclusion of a collection o"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1712.01312","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1712.01312","created_at":"2026-05-18T00:12:38.389965+00:00"},{"alias_kind":"arxiv_version","alias_value":"1712.01312v2","created_at":"2026-05-18T00:12:38.389965+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1712.01312","created_at":"2026-05-18T00:12:38.389965+00:00"},{"alias_kind":"pith_short_12","alias_value":"TKDTZYGP4524","created_at":"2026-05-18T12:31:46.661854+00:00"},{"alias_kind":"pith_short_16","alias_value":"TKDTZYGP4524S5RY","created_at":"2026-05-18T12:31:46.661854+00:00"},{"alias_kind":"pith_short_8","alias_value":"TKDTZYGP","created_at":"2026-05-18T12:31:46.661854+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":12,"internal_anchor_count":9,"sample":[{"citing_arxiv_id":"1906.10771","citing_title":"Importance Estimation for Neural Network Pruning","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"1907.00664","citing_title":"Learning World Graphs to Accelerate Hierarchical Reinforcement Learning","ref_index":60,"is_internal_anchor":true},{"citing_arxiv_id":"1907.02519","citing_title":"Neuron ranking -- an informed way to condense convolutional neural networks architecture","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14364","citing_title":"MoRe: Modular Representations for Principled Continual Representation Learning on Sequential Data","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14364","citing_title":"MoRe: Modular Representations for Principled Continual Representation Learning on Sequential Data","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2505.17469","citing_title":"Efficient compression of neural networks and datasets","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2603.15250","citing_title":"In-Context Symbolic Regression for Robustness-Improved Kolmogorov-Arnold Networks","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14364","citing_title":"MoRe: Modular Representations for Principled Continual Representation Learning on Sequential Data","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12809","citing_title":"Correcting Influence: Unboxing LLM Outputs with Orthogonal Latent Spaces","ref_index":270,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06441","citing_title":"Light-FMP: Lightweight Feature and Model Pruning for Enhanced Deep Recommender Systems","ref_index":29,"is_internal_anchor":false},{"citing_arxiv_id":"2605.06632","citing_title":"Crafting Reversible SFT Behaviors in Large Language Models","ref_index":26,"is_internal_anchor":false},{"citing_arxiv_id":"2604.07746","citing_title":"Towards Rapid Constitutive Model Discovery from Multi-Modal Data: Physics Augmented Finite Element Model Updating (paFEMU)","ref_index":4,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/TKDTZYGP4524S5RYKCWOKET6FR","json":"https://pith.science/pith/TKDTZYGP4524S5RYKCWOKET6FR.json","graph_json":"https://pith.science/api/pith-number/TKDTZYGP4524S5RYKCWOKET6FR/graph.json","events_json":"https://pith.science/api/pith-number/TKDTZYGP4524S5RYKCWOKET6FR/events.json","paper":"https://pith.science/paper/TKDTZYGP"},"agent_actions":{"view_html":"https://pith.science/pith/TKDTZYGP4524S5RYKCWOKET6FR","download_json":"https://pith.science/pith/TKDTZYGP4524S5RYKCWOKET6FR.json","view_paper":"https://pith.science/paper/TKDTZYGP","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1712.01312&json=true","fetch_graph":"https://pith.science/api/pith-number/TKDTZYGP4524S5RYKCWOKET6FR/graph.json","fetch_events":"https://pith.science/api/pith-number/TKDTZYGP4524S5RYKCWOKET6FR/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/TKDTZYGP4524S5RYKCWOKET6FR/action/timestamp_anchor","attest_storage":"https://pith.science/pith/TKDTZYGP4524S5RYKCWOKET6FR/action/storage_attestation","attest_author":"https://pith.science/pith/TKDTZYGP4524S5RYKCWOKET6FR/action/author_attestation","sign_citation":"https://pith.science/pith/TKDTZYGP4524S5RYKCWOKET6FR/action/citation_signature","submit_replication":"https://pith.science/pith/TKDTZYGP4524S5RYKCWOKET6FR/action/replication_record"}},"created_at":"2026-05-18T00:12:38.389965+00:00","updated_at":"2026-05-18T00:12:38.389965+00:00"}