{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2017:ZI2VCQZ3TQI63BEUJDHWZL2XXS","short_pith_number":"pith:ZI2VCQZ3","schema_version":"1.0","canonical_sha256":"ca3551433b9c11ed849448cf6caf57bca32ea2bb1276f34d5f85be71d0d86b6a","source":{"kind":"arxiv","id":"1706.05296","version":1},"attestation_state":"computed","paper":{"title":"Value-Decomposition Networks For Cooperative Multi-Agent Learning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Audrunas Gruslys, Guy Lever, Joel Z. Leibo, Karl Tuyls, Marc Lanctot, Max Jaderberg, Nicolas Sonnerat, Peter Sunehag, Thore Graepel, Vinicius Zambaldi, Wojciech Marian Czarnecki","submitted_at":"2017-06-16T14:47:21Z","abstract_excerpt":"We study the problem of cooperative multi-agent reinforcement learning with a single joint reward signal. This class of learning problems is difficult because of the often large combined action and observation spaces. In the fully centralized and decentralized approaches, we find the problem of spurious rewards and a phenomenon we call the \"lazy agent\" problem, which arises due to partial observability. We address these problems by training individual agents with a novel value decomposition network architecture, which learns to decompose the team value function into agent-wise value functions."},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1706.05296","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-06-16T14:47:21Z","cross_cats_sorted":[],"title_canon_sha256":"ddd35dad0b591b55ce426fad78fb1945026a092bca13895d1f936c959bf4eb5e","abstract_canon_sha256":"471eefde333af8de058211a9aec266e746b62f024e1c235d8c0aa6074777cd37"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:42:14.173364Z","signature_b64":"d1Li3pz5Wxf5KEy7PklpztMFalwF9vvwVokVmxySRaY0WGS0H+UJvxHEzL2wUBcyvfm4h+hHIL64molm/pa4Aw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"ca3551433b9c11ed849448cf6caf57bca32ea2bb1276f34d5f85be71d0d86b6a","last_reissued_at":"2026-05-18T00:42:14.172761Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:42:14.172761Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Value-Decomposition Networks For Cooperative Multi-Agent Learning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Audrunas Gruslys, Guy Lever, Joel Z. Leibo, Karl Tuyls, Marc Lanctot, Max Jaderberg, Nicolas Sonnerat, Peter Sunehag, Thore Graepel, Vinicius Zambaldi, Wojciech Marian Czarnecki","submitted_at":"2017-06-16T14:47:21Z","abstract_excerpt":"We study the problem of cooperative multi-agent reinforcement learning with a single joint reward signal. This class of learning problems is difficult because of the often large combined action and observation spaces. In the fully centralized and decentralized approaches, we find the problem of spurious rewards and a phenomenon we call the \"lazy agent\" problem, which arises due to partial observability. We address these problems by training individual agents with a novel value decomposition network architecture, which learns to decompose the team value function into agent-wise value functions."},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1706.05296","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1706.05296","created_at":"2026-05-18T00:42:14.172850+00:00"},{"alias_kind":"arxiv_version","alias_value":"1706.05296v1","created_at":"2026-05-18T00:42:14.172850+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1706.05296","created_at":"2026-05-18T00:42:14.172850+00:00"},{"alias_kind":"pith_short_12","alias_value":"ZI2VCQZ3TQI6","created_at":"2026-05-18T12:31:59.375834+00:00"},{"alias_kind":"pith_short_16","alias_value":"ZI2VCQZ3TQI63BEU","created_at":"2026-05-18T12:31:59.375834+00:00"},{"alias_kind":"pith_short_8","alias_value":"ZI2VCQZ3","created_at":"2026-05-18T12:31:59.375834+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":26,"internal_anchor_count":17,"sample":[{"citing_arxiv_id":"1906.12266","citing_title":"Growing Action Spaces","ref_index":11,"is_internal_anchor":true},{"citing_arxiv_id":"2502.03506","citing_title":"Optimistic {\\epsilon}-Greedy Exploration for Cooperative Multi-Agent Reinforcement Learning","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2502.02844","citing_title":"Wolfpack Adversarial Attack for Robust Multi-Agent Reinforcement Learning","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2502.13388","citing_title":"Reflection of Episodes: Learning to Play Game from Expert and Self Experiences","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2601.07122","citing_title":"Enhancing Cloud Network Resilience via a Robust LLM-Empowered Multi-Agent Reinforcement Learning Framework","ref_index":57,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08391","citing_title":"SACHI: Structured Agent Coordination via Holistic Information Integration in Multi-Agent Reinforcement Learning","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18809","citing_title":"Metric-Gradient Projection for Stable Multi-Agent Policy Learning","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18024","citing_title":"Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14892","citing_title":"Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems","ref_index":206,"is_internal_anchor":true},{"citing_arxiv_id":"2508.01049","citing_title":"Centralized Adaptive Sampling for Reliable Co-Training of Independent Multi-Agent Policies","ref_index":24,"is_internal_anchor":true},{"citing_arxiv_id":"2509.15519","citing_title":"Fully Decentralized Cooperative Multi-Agent Reinforcement Learning is A Context Modeling Problem","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2509.17676","citing_title":"GLo-MAPPO: Multi-Agent Deep Reinforcement Learning for Energy-Efficient UAV-Assisted LoRa Networks","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21972","citing_title":"Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2602.20078","citing_title":"Descent-Guided Policy Gradient for Scalable Cooperative Multi-Agent Learning","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14892","citing_title":"Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems","ref_index":205,"is_internal_anchor":true},{"citing_arxiv_id":"2605.14235","citing_title":"Quantum Advantage in Multi Agent Reinforcement Learning","ref_index":5,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13554","citing_title":"Self-Supervised On-Policy Reinforcement Learning via Contrastive Proximal Policy Optimisation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.03189","citing_title":"Reflective Context Learning: Studying the Optimization Primitives of Context Space","ref_index":10,"is_internal_anchor":false},{"citing_arxiv_id":"2605.11880","citing_title":"Adaptive TD-Lambda for Cooperative Multi-agent Reinforcement Learning","ref_index":5,"is_internal_anchor":false},{"citing_arxiv_id":"2605.08391","citing_title":"SACHI: Structured Agent Coordination via Holistic Information Integration in Multi-Agent Reinforcement Learning","ref_index":4,"is_internal_anchor":false},{"citing_arxiv_id":"2605.06557","citing_title":"Coordination Matters: Evaluation of Cooperative Multi-Agent Reinforcement Learning","ref_index":31,"is_internal_anchor":false},{"citing_arxiv_id":"2605.05727","citing_title":"LLM-Enhanced Deep Reinforcement Learning for Task Offloading in Collaborative Edge Computing","ref_index":22,"is_internal_anchor":false},{"citing_arxiv_id":"2604.22452","citing_title":"Superminds Test: Actively Evaluating Collective Intelligence of Agent Society via Probing Agents","ref_index":45,"is_internal_anchor":false},{"citing_arxiv_id":"2605.00751","citing_title":"NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search","ref_index":33,"is_internal_anchor":false},{"citing_arxiv_id":"2605.06825","citing_title":"Randomness is sometimes necessary for coordination","ref_index":92,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/ZI2VCQZ3TQI63BEUJDHWZL2XXS","json":"https://pith.science/pith/ZI2VCQZ3TQI63BEUJDHWZL2XXS.json","graph_json":"https://pith.science/api/pith-number/ZI2VCQZ3TQI63BEUJDHWZL2XXS/graph.json","events_json":"https://pith.science/api/pith-number/ZI2VCQZ3TQI63BEUJDHWZL2XXS/events.json","paper":"https://pith.science/paper/ZI2VCQZ3"},"agent_actions":{"view_html":"https://pith.science/pith/ZI2VCQZ3TQI63BEUJDHWZL2XXS","download_json":"https://pith.science/pith/ZI2VCQZ3TQI63BEUJDHWZL2XXS.json","view_paper":"https://pith.science/paper/ZI2VCQZ3","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1706.05296&json=true","fetch_graph":"https://pith.science/api/pith-number/ZI2VCQZ3TQI63BEUJDHWZL2XXS/graph.json","fetch_events":"https://pith.science/api/pith-number/ZI2VCQZ3TQI63BEUJDHWZL2XXS/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/ZI2VCQZ3TQI63BEUJDHWZL2XXS/action/timestamp_anchor","attest_storage":"https://pith.science/pith/ZI2VCQZ3TQI63BEUJDHWZL2XXS/action/storage_attestation","attest_author":"https://pith.science/pith/ZI2VCQZ3TQI63BEUJDHWZL2XXS/action/author_attestation","sign_citation":"https://pith.science/pith/ZI2VCQZ3TQI63BEUJDHWZL2XXS/action/citation_signature","submit_replication":"https://pith.science/pith/ZI2VCQZ3TQI63BEUJDHWZL2XXS/action/replication_record"}},"created_at":"2026-05-18T00:42:14.172850+00:00","updated_at":"2026-05-18T00:42:14.172850+00:00"}