{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2020:NV7UHJFDR4W2SSP6STKYGLA6HM","short_pith_number":"pith:NV7UHJFD","schema_version":"1.0","canonical_sha256":"6d7f43a4a38f2da949fe94d5832c1e3b0a8dac65f77f6d69d6179b8522363e26","source":{"kind":"arxiv","id":"2010.01412","version":3},"attestation_state":"computed","paper":{"title":"Sharpness-Aware Minimization for Efficiently Improving Generalization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Sharpness-Aware Minimization finds parameters in flat loss neighborhoods to improve generalization over standard training.","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Ariel Kleiner, Behnam Neyshabur, Hossein Mobahi, Pierre Foret","submitted_at":"2020-10-03T19:02:10Z","abstract_excerpt":"In today's heavily overparameterized models, the value of the training loss provides few guarantees on model generalization ability. Indeed, optimizing only the training loss value, as is commonly done, can easily lead to suboptimal model quality. Motivated by prior work connecting the geometry of the loss landscape and generalization, we introduce a novel, effective procedure for instead simultaneously minimizing loss value and loss sharpness. In particular, our procedure, Sharpness-Aware Minimization (SAM), seeks parameters that lie in neighborhoods having uniformly low loss; this formulatio"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2010.01412","kind":"arxiv","version":3},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2020-10-03T19:02:10Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"ef695ff56cc3a20597397d65478da7519df22170ecb76f4f10fc267a546d1130","abstract_canon_sha256":"2ce3a0bcb0d779ae72b8453f52ce832d42d216560b87c0217e2a7ea682c6faf5"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:46.719121Z","signature_b64":"3FYclb30hi/AndSC4vaLFBYhAz9flKVN3COpyNq+cOuwjrVAlUuvjkaEAuf/DbHRgZ9IkBPgESYvFKTg0fHdBQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"6d7f43a4a38f2da949fe94d5832c1e3b0a8dac65f77f6d69d6179b8522363e26","last_reissued_at":"2026-05-17T23:38:46.718537Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:46.718537Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Sharpness-Aware Minimization for Efficiently Improving Generalization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Sharpness-Aware Minimization finds parameters in flat loss neighborhoods to improve generalization over standard training.","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Ariel Kleiner, Behnam Neyshabur, Hossein Mobahi, Pierre Foret","submitted_at":"2020-10-03T19:02:10Z","abstract_excerpt":"In today's heavily overparameterized models, the value of the training loss provides few guarantees on model generalization ability. Indeed, optimizing only the training loss value, as is commonly done, can easily lead to suboptimal model quality. Motivated by prior work connecting the geometry of the loss landscape and generalization, we introduce a novel, effective procedure for instead simultaneously minimizing loss value and loss sharpness. In particular, our procedure, Sharpness-Aware Minimization (SAM), seeks parameters that lie in neighborhoods having uniformly low loss; this formulatio"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"SAM improves model generalization across a variety of benchmark datasets (e.g., CIFAR-10, CIFAR-100, ImageNet, finetuning tasks) and models, yielding novel state-of-the-art performance for several.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That seeking parameters whose neighborhoods have uniformly low loss will reliably produce better generalization than standard training; this is motivated by prior geometry work but is not derived from first principles in the given text.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"SAM solves a min-max problem to locate flat low-loss regions, improving generalization on CIFAR, ImageNet and label-noise tasks.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Sharpness-Aware Minimization finds parameters in flat loss neighborhoods to improve generalization over standard training.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"3aea69fd61dbdf0c9eb9c2c9c472d173016bf12aa211ffc2fd239afce0e58cd0"},"source":{"id":"2010.01412","kind":"arxiv","version":3},"verdict":{"id":"618582a9-e956-461e-bc54-1a2bad3f18b8","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T20:10:54.430679Z","strongest_claim":"SAM improves model generalization across a variety of benchmark datasets (e.g., CIFAR-10, CIFAR-100, ImageNet, finetuning tasks) and models, yielding novel state-of-the-art performance for several.","one_line_summary":"SAM solves a min-max problem to locate flat low-loss regions, improving generalization on CIFAR, ImageNet and label-noise tasks.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That seeking parameters whose neighborhoods have uniformly low loss will reliably produce better generalization than standard training; this is motivated by prior geometry work but is not derived from first principles in the given text.","pith_extraction_headline":"Sharpness-Aware Minimization finds parameters in flat loss neighborhoods to improve generalization over standard training."},"references":{"count":47,"sample":[{"doi":"","year":2021,"title":"URL https://openreview.net/forum? id=BJl6t64tvr. 8https://github.com/google/spectral-density 9https://github.com/davda54/sam 9 Published as a conference paper at ICLR 2021 James Bradbury, Roy Frostig,","work_id":"e58840cd-cb2a-403b-b355-2eb2b6befce5","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Entropy-sgd: Biasing gradient descent into wide valleys","work_id":"bdc7ed98-348d-4ac0-acaa-b46ab29dcc3b","ref_index":2,"cited_arxiv_id":"1611.01838","is_internal_anchor":true},{"doi":"","year":1905,"title":"Understanding and Utilizing Deep Neural Networks Trained with Noisy Labels","work_id":"f56304ba-0708-4b42-8999-91ede99f534b","ref_index":4,"cited_arxiv_id":"1905.05040","is_internal_anchor":true},{"doi":"","year":null,"title":"AutoAugment: Learning Augmentation Policies from Data","work_id":"9cfcaaf4-6f01-4522-b146-cf16d4be7b90","ref_index":5,"cited_arxiv_id":"1805.09501","is_internal_anchor":true},{"doi":"","year":null,"title":"Improved Regularization of Convolutional Neural Networks with Cutout","work_id":"a3bf8477-f913-4f6a-8e36-125767300d1f","ref_index":7,"cited_arxiv_id":"1708.04552","is_internal_anchor":true}],"resolved_work":47,"snapshot_sha256":"aa05e7421b9f928449d8c9d3f56ecb17dc53890d613051329a80c90f82a37f64","internal_anchors":27},"formal_canon":{"evidence_count":2,"snapshot_sha256":"db4b72609f52c55c47d5694542eadf78c2cd17797598f6f0963f3d5bf4d93aa0"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2010.01412","created_at":"2026-05-17T23:38:46.718631+00:00"},{"alias_kind":"arxiv_version","alias_value":"2010.01412v3","created_at":"2026-05-17T23:38:46.718631+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2010.01412","created_at":"2026-05-17T23:38:46.718631+00:00"},{"alias_kind":"pith_short_12","alias_value":"NV7UHJFDR4W2","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_16","alias_value":"NV7UHJFDR4W2SSP6","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_8","alias_value":"NV7UHJFD","created_at":"2026-05-18T12:33:33.725879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":29,"internal_anchor_count":29,"sample":[{"citing_arxiv_id":"2603.10067","citing_title":"HTMuon: Improving Muon via Heavy-Tailed Spectral Correction","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2409.04777","citing_title":"Optimization Hyper-parameter Laws for Large Language Models","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2602.07340","citing_title":"Revisiting Robustness for LLM Safety Alignment via Selective Geometry Control","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.17575","citing_title":"UniAlign: A Model-Agnostic Framework for Robust Network Traffic Classification under Distribution Shifts","ref_index":32,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18598","citing_title":"Pointwise Generalization in Deep Neural Networks","ref_index":110,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16776","citing_title":"Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning","ref_index":63,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13143","citing_title":"On the Generalization of Knowledge Distillation: An Information-Theoretic View","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15459","citing_title":"Don't Stop Me Yet: Sampling Loss Minima via Dissipative Riemannian Mechanics","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2506.09044","citing_title":"Strategically Deceptive Model Deployment in Performative Prediction","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2506.14951","citing_title":"Flat Channels to Infinity in Neural Loss Landscapes","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2510.00761","citing_title":"Downgrade to Upgrade: Optimizer Simplification Enhances Robustness in LLM Unlearning","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2510.04772","citing_title":"Federated Learning for Surgical Vision in Appendicitis Classification: Results of the FedSurg EndoVis 2024 Challenge","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2602.08813","citing_title":"Robust Policy Optimization to Prevent Catastrophic Forgetting","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2602.23827","citing_title":"FedNSAM:Consistency of Local and Global Flatness for Federated Learning","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02719","citing_title":"MOMO: Mars Orbital Model Foundation Model for Mars Orbital Applications","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2604.04086","citing_title":"LAA-X: Unified Localized Artifact Attention for Quality-Agnostic and Generalizable Face Forgery Detection","ref_index":94,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03221","citing_title":"Synthetic Data Generation for Long-Tail Medical Image Classification: A Case Study in Skin Lesions","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08870","citing_title":"TopoGeoScore: A Self-Supervised Source-Only Geometric Framework for OOD Checkpoint Selection","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03086","citing_title":"iGENE: A Differentiable Flux-Tube Gyrokinetic Code in TensorFlow","ref_index":69,"is_internal_anchor":true},{"citing_arxiv_id":"2605.05436","citing_title":"Estimating Implicit Regularization in Deep Learning","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02111","citing_title":"Geometric and Spectral Alignment for Deep Neural Network II","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01967","citing_title":"MER-DG: Modality-Entropy Regularization for Multimodal Domain Generalization","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11064","citing_title":"A Faster Path to Continual Learning","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2604.09258","citing_title":"Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2204.06125","citing_title":"Hierarchical Text-Conditional Image Generation with CLIP Latents","ref_index":15,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/NV7UHJFDR4W2SSP6STKYGLA6HM","json":"https://pith.science/pith/NV7UHJFDR4W2SSP6STKYGLA6HM.json","graph_json":"https://pith.science/api/pith-number/NV7UHJFDR4W2SSP6STKYGLA6HM/graph.json","events_json":"https://pith.science/api/pith-number/NV7UHJFDR4W2SSP6STKYGLA6HM/events.json","paper":"https://pith.science/paper/NV7UHJFD"},"agent_actions":{"view_html":"https://pith.science/pith/NV7UHJFDR4W2SSP6STKYGLA6HM","download_json":"https://pith.science/pith/NV7UHJFDR4W2SSP6STKYGLA6HM.json","view_paper":"https://pith.science/paper/NV7UHJFD","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2010.01412&json=true","fetch_graph":"https://pith.science/api/pith-number/NV7UHJFDR4W2SSP6STKYGLA6HM/graph.json","fetch_events":"https://pith.science/api/pith-number/NV7UHJFDR4W2SSP6STKYGLA6HM/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/NV7UHJFDR4W2SSP6STKYGLA6HM/action/timestamp_anchor","attest_storage":"https://pith.science/pith/NV7UHJFDR4W2SSP6STKYGLA6HM/action/storage_attestation","attest_author":"https://pith.science/pith/NV7UHJFDR4W2SSP6STKYGLA6HM/action/author_attestation","sign_citation":"https://pith.science/pith/NV7UHJFDR4W2SSP6STKYGLA6HM/action/citation_signature","submit_replication":"https://pith.science/pith/NV7UHJFDR4W2SSP6STKYGLA6HM/action/replication_record"}},"created_at":"2026-05-17T23:38:46.718631+00:00","updated_at":"2026-05-17T23:38:46.718631+00:00"}