{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2020:IUIV74V2CYB4ICVWFIJTDMF234","short_pith_number":"pith:IUIV74V2","schema_version":"1.0","canonical_sha256":"45115ff2ba1603c40ab62a1331b0badf359340c7b3856dab808791d64c200118","source":{"kind":"arxiv","id":"2003.00295","version":5},"attestation_state":"computed","paper":{"title":"Adaptive Federated Optimization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.DC","math.OC","stat.ML"],"primary_cat":"cs.LG","authors_text":"H. Brendan McMahan, Jakub Kone\\v{c}n\\'y, Keith Rush, Manzil Zaheer, Sanjiv Kumar, Sashank Reddi, Zachary Charles, Zachary Garrett","submitted_at":"2020-02-29T16:37:29Z","abstract_excerpt":"Federated learning is a distributed machine learning paradigm in which a large number of clients coordinate with a central server to learn a model without sharing their own training data. Standard federated optimization methods such as Federated Averaging (FedAvg) are often difficult to tune and exhibit unfavorable convergence behavior. In non-federated settings, adaptive optimization methods have had notable success in combating such issues. In this work, we propose federated versions of adaptive optimizers, including Adagrad, Adam, and Yogi, and analyze their convergence in the presence of h"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2003.00295","kind":"arxiv","version":5},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2020-02-29T16:37:29Z","cross_cats_sorted":["cs.DC","math.OC","stat.ML"],"title_canon_sha256":"cbdb858d9955013b30714a3af643b2f5bd4e6f5fd49def5e816f45a87bb91130","abstract_canon_sha256":"11da0ad4cab589591310361edf944d599794502da801d5518192679286af5f67"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-21T10:24:51.022518Z","signature_b64":"AKDehsOP7/QIg43Y7bqyAPWrihooE5p7pt9C3ceSPtb7D3wwHC/rF0fEyvJnqkw5PUuUpTMgjtea6i9ZZ0yPDw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"45115ff2ba1603c40ab62a1331b0badf359340c7b3856dab808791d64c200118","last_reissued_at":"2026-05-21T10:24:51.019986Z","signature_status":"signed_v1","first_computed_at":"2026-05-21T10:24:51.019986Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Adaptive Federated Optimization","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.DC","math.OC","stat.ML"],"primary_cat":"cs.LG","authors_text":"H. Brendan McMahan, Jakub Kone\\v{c}n\\'y, Keith Rush, Manzil Zaheer, Sanjiv Kumar, Sashank Reddi, Zachary Charles, Zachary Garrett","submitted_at":"2020-02-29T16:37:29Z","abstract_excerpt":"Federated learning is a distributed machine learning paradigm in which a large number of clients coordinate with a central server to learn a model without sharing their own training data. Standard federated optimization methods such as Federated Averaging (FedAvg) are often difficult to tune and exhibit unfavorable convergence behavior. In non-federated settings, adaptive optimization methods have had notable success in combating such issues. In this work, we propose federated versions of adaptive optimizers, including Adagrad, Adam, and Yogi, and analyze their convergence in the presence of h"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2003.00295","kind":"arxiv","version":5},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2003.00295/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2003.00295","created_at":"2026-05-21T10:24:51.020087+00:00"},{"alias_kind":"arxiv_version","alias_value":"2003.00295v5","created_at":"2026-05-21T10:24:51.020087+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2003.00295","created_at":"2026-05-21T10:24:51.020087+00:00"},{"alias_kind":"pith_short_12","alias_value":"IUIV74V2CYB4","created_at":"2026-05-21T10:24:51.020087+00:00"},{"alias_kind":"pith_short_16","alias_value":"IUIV74V2CYB4ICVW","created_at":"2026-05-21T10:24:51.020087+00:00"},{"alias_kind":"pith_short_8","alias_value":"IUIV74V2","created_at":"2026-05-21T10:24:51.020087+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":21,"internal_anchor_count":21,"sample":[{"citing_arxiv_id":"2506.05640","citing_title":"FedShield-LLM: A Secure and Scalable Federated Fine-Tuned Large Language Model","ref_index":33,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20353","citing_title":"Synchronous and Asynchronous Parallelism Approaches for Generalized Canonical Polyadic Tensor Decomposition with GenTen","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20866","citing_title":"LOSCAR-SGD: Local SGD with Communication-Computation Overlap and Delay-Corrected Sparse Model Averaging","ref_index":162,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18174","citing_title":"Ringmaster LMO: Asynchronous Linear Minimization Oracle Momentum Method","ref_index":160,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18028","citing_title":"FedSDR: Federated Self-Distillation with Rectification","ref_index":41,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18656","citing_title":"Statistical Limits and Efficient Algorithms for Differentially Private Federated Learning","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2508.12672","citing_title":"Robust Federated Learning under Adversarial Attacks via Loss-Based Client Clustering","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2510.04772","citing_title":"Federated Learning for Surgical Vision in Appendicitis Classification: Results of the FedSurg EndoVis 2024 Challenge","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2602.12708","citing_title":"Mixture of Predefined Experts: Maximizing Data Usage on Vertical Federated Learning","ref_index":34,"is_internal_anchor":true},{"citing_arxiv_id":"2603.05116","citing_title":"FedBCD:Communication-Efficient Accelerated Block Coordinate Gradient Descent for Federated Learning","ref_index":45,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11010","citing_title":"A Comparative Study of Federated Learning Aggregation Strategies under Homogeneous and Heterogeneous Data Distributions","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2604.27510","citing_title":"FMCL: Class-Aware Client Clustering with Foundation Model Representations for Heterogeneous Federated Learning","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08121","citing_title":"Performance and Energy Trade-Off Analysis of Hierarchical Federated Learning for Plant Disease Classification","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08871","citing_title":"Rennala MVR: Improved Time Complexity for Parallel Stochastic Optimization via Momentum-Based Variance Reduction","ref_index":158,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06446","citing_title":"FedFrozen: Two-Stage Federated Optimization via Attention Kernel Freezing","ref_index":10,"is_internal_anchor":true},{"citing_arxiv_id":"2605.02125","citing_title":"FedQueue: Queue-Aware Federated Learning for Cross-Facility HPC Training","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12160","citing_title":"PubSwap: Public-Data Off-Policy Coordination for Federated RLVR","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2604.12768","citing_title":"Rethinking the Personalized Relaxed Initialization in the Federated Learning: Consistency and Generalization","ref_index":12,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07977","citing_title":"Self-Play Enhancement via Advantage-Weighted Refinement in Online Federated LLM Fine-Tuning with Real-Time Feedback","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2605.07795","citing_title":"Scalable Distributed Stochastic Optimization via Bidirectional Compression: Beyond Pessimistic Limits","ref_index":78,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19518","citing_title":"Accelerating Optimization and Machine Learning through Decentralization","ref_index":52,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/IUIV74V2CYB4ICVWFIJTDMF234","json":"https://pith.science/pith/IUIV74V2CYB4ICVWFIJTDMF234.json","graph_json":"https://pith.science/api/pith-number/IUIV74V2CYB4ICVWFIJTDMF234/graph.json","events_json":"https://pith.science/api/pith-number/IUIV74V2CYB4ICVWFIJTDMF234/events.json","paper":"https://pith.science/paper/IUIV74V2"},"agent_actions":{"view_html":"https://pith.science/pith/IUIV74V2CYB4ICVWFIJTDMF234","download_json":"https://pith.science/pith/IUIV74V2CYB4ICVWFIJTDMF234.json","view_paper":"https://pith.science/paper/IUIV74V2","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2003.00295&json=true","fetch_graph":"https://pith.science/api/pith-number/IUIV74V2CYB4ICVWFIJTDMF234/graph.json","fetch_events":"https://pith.science/api/pith-number/IUIV74V2CYB4ICVWFIJTDMF234/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/IUIV74V2CYB4ICVWFIJTDMF234/action/timestamp_anchor","attest_storage":"https://pith.science/pith/IUIV74V2CYB4ICVWFIJTDMF234/action/storage_attestation","attest_author":"https://pith.science/pith/IUIV74V2CYB4ICVWFIJTDMF234/action/author_attestation","sign_citation":"https://pith.science/pith/IUIV74V2CYB4ICVWFIJTDMF234/action/citation_signature","submit_replication":"https://pith.science/pith/IUIV74V2CYB4ICVWFIJTDMF234/action/replication_record"}},"created_at":"2026-05-21T10:24:51.020087+00:00","updated_at":"2026-05-21T10:24:51.020087+00:00"}