{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2022:JCNH7MBQRB5ZDOEHFXTPZLOG7C","short_pith_number":"pith:JCNH7MBQ","schema_version":"1.0","canonical_sha256":"489a7fb030887b91b8872de6fcadc6f8b87855f59f5c3ab486edaaf393e970dd","source":{"kind":"arxiv","id":"2211.15657","version":4},"attestation_state":"computed","paper":{"title":"Is Conditional Generative Modeling all you need for Decision-Making?","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Modeling a policy as a return-conditional diffusion model generates effective decisions directly from offline data and outperforms traditional offline RL.","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Abhi Gupta, Anurag Ajay, Joshua Tenenbaum, Pulkit Agrawal, Tommi Jaakkola, Yilun Du","submitted_at":"2022-11-28T18:59:02Z","abstract_excerpt":"Recent improvements in conditional generative modeling have made it possible to generate high-quality images from language descriptions alone. We investigate whether these methods can directly address the problem of sequential decision-making. We view decision-making not through the lens of reinforcement learning (RL), but rather through conditional generative modeling. To our surprise, we find that our formulation leads to policies that can outperform existing offline RL approaches across standard benchmarks. By modeling a policy as a return-conditional diffusion model, we illustrate how we m"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":false},"canonical_record":{"source":{"id":"2211.15657","kind":"arxiv","version":4},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2022-11-28T18:59:02Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"830c7b0127d8123443276b4658f42327ff6028df4c72d6f7faa8322eb0799604","abstract_canon_sha256":"2ec5816298e1e26909b53be1c3017bb84c60ab23e0acb148dc691820cc37b4db"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:51.083091Z","signature_b64":"7eB/LboVHt33C2RYnBkAsCBijjHBi1OrRPHjMIOqsYq3R1yGG5sKvEjJAYoU4+8rhZAfqzTv9YAeG+ppXM6LBw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"489a7fb030887b91b8872de6fcadc6f8b87855f59f5c3ab486edaaf393e970dd","last_reissued_at":"2026-05-17T23:38:51.082608Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:51.082608Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Is Conditional Generative Modeling all you need for Decision-Making?","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"Modeling a policy as a return-conditional diffusion model generates effective decisions directly from offline data and outperforms traditional offline RL.","cross_cats":["cs.AI"],"primary_cat":"cs.LG","authors_text":"Abhi Gupta, Anurag Ajay, Joshua Tenenbaum, Pulkit Agrawal, Tommi Jaakkola, Yilun Du","submitted_at":"2022-11-28T18:59:02Z","abstract_excerpt":"Recent improvements in conditional generative modeling have made it possible to generate high-quality images from language descriptions alone. We investigate whether these methods can directly address the problem of sequential decision-making. We view decision-making not through the lens of reinforcement learning (RL), but rather through conditional generative modeling. To our surprise, we find that our formulation leads to policies that can outperform existing offline RL approaches across standard benchmarks. By modeling a policy as a return-conditional diffusion model, we illustrate how we m"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"By modeling a policy as a return-conditional diffusion model, we illustrate how we may circumvent the need for dynamic programming and subsequently eliminate many of the complexities that come with traditional offline RL.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That a conditional diffusion model trained on offline data can accurately generate high-return action sequences without explicit value estimation or dynamic programming, and that benchmark outperformance generalizes beyond the tested environments.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Return-conditional diffusion models for policies outperform offline RL on benchmarks by circumventing dynamic programming and enable constraint or skill composition.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"Modeling a policy as a return-conditional diffusion model generates effective decisions directly from offline data and outperforms traditional offline RL.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"38cd460319b7a0015ca1400de23d78e066e5987b8595d6a0da637725ea19450b"},"source":{"id":"2211.15657","kind":"arxiv","version":4},"verdict":{"id":"cdcdf5ab-ed03-4eb4-996c-77003aaa210b","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-15T15:30:08.057734Z","strongest_claim":"By modeling a policy as a return-conditional diffusion model, we illustrate how we may circumvent the need for dynamic programming and subsequently eliminate many of the complexities that come with traditional offline RL.","one_line_summary":"Return-conditional diffusion models for policies outperform offline RL on benchmarks by circumventing dynamic programming and enable constraint or skill composition.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That a conditional diffusion model trained on offline data can accurately generate high-return action sequences without explicit value estimation or dynamic programming, and that benchmark outperformance generalizes beyond the tested environments.","pith_extraction_headline":"Modeling a policy as a return-conditional diffusion model generates effective decisions directly from offline data and outperforms traditional offline RL."},"references":{"count":300,"sample":[{"doi":"","year":null,"title":"Scaling Learning Algorithms Towards","work_id":"bb2761cc-98d0-411b-92f6-803773d64460","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Advances in neural information processing systems , volume=","work_id":"ab4eeae3-fd91-4f33-9068-f604df8f47a7","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Proceedings of the IEEE conference on computer vision and pattern recognition workshops , pages=","work_id":"2daaa065-8125-415a-9c68-bd340a9cce69","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"and Osindero, Simon and Teh, Yee Whye , journal =","work_id":"0a5921e3-ac4e-46f1-85ae-866119a87be0","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2016,"title":"Deep learning , author=. 2016 , publisher=","work_id":"cf0899e0-53ee-4591-aae4-f38fa5ac12ad","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":300,"snapshot_sha256":"ebbb19c0a539954516b61a90d82a91b4ec17019b427d146eff89127eec42f511","internal_anchors":23},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2211.15657","created_at":"2026-05-17T23:38:51.082690+00:00"},{"alias_kind":"arxiv_version","alias_value":"2211.15657v4","created_at":"2026-05-17T23:38:51.082690+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2211.15657","created_at":"2026-05-17T23:38:51.082690+00:00"},{"alias_kind":"pith_short_12","alias_value":"JCNH7MBQRB5Z","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_16","alias_value":"JCNH7MBQRB5ZDOEH","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_8","alias_value":"JCNH7MBQ","created_at":"2026-05-18T12:33:33.725879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":36,"internal_anchor_count":36,"sample":[{"citing_arxiv_id":"2605.23365","citing_title":"Score-Based One-step MeanFlow Policy Optimization","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20299","citing_title":"Mechanisms of Misgeneralization in Physical Sequence Modeling","ref_index":102,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16054","citing_title":"Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making","ref_index":264,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16520","citing_title":"Global Convergence of Sampling-Based Nonconvex Optimization through Diffusion-Style Smoothing","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19319","citing_title":"SWEET: Sparse World Modeling with Image Editing for Embodied Task Execution","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2605.19457","citing_title":"Generative Auto-Bidding with Unified Modeling and Exploration","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2505.18780","citing_title":"DreamPolicy: A Unified World-model Policy for Scalable Humanoid Locomotion","ref_index":77,"is_internal_anchor":true},{"citing_arxiv_id":"2506.05762","citing_title":"BiTrajDiff: Bidirectional Trajectory Generation with Diffusion Models for Offline Reinforcement Learning","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2506.21834","citing_title":"PrefPaint: Enhancing Medical Image Inpainting through Expert Human Feedback","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2509.19538","citing_title":"DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2509.23468","citing_title":"Multi-Modal Manipulation via Multi-Modal Policy Consensus","ref_index":27,"is_internal_anchor":true},{"citing_arxiv_id":"2511.04812","citing_title":"Multimodal Diffusion Forcing for Forceful Manipulation","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2506.15799","citing_title":"Steering Your Diffusion Policy with Latent Space Reinforcement Learning","ref_index":35,"is_internal_anchor":true},{"citing_arxiv_id":"2512.21898","citing_title":"Flexible Multitask Learning with Factorized Diffusion Policy","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2310.06114","citing_title":"Learning Interactive Real-World Simulators","ref_index":231,"is_internal_anchor":true},{"citing_arxiv_id":"2503.10631","citing_title":"HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model","ref_index":50,"is_internal_anchor":true},{"citing_arxiv_id":"2404.12377","citing_title":"RoboDreamer: Learning Compositional World Models for Robot Imagination","ref_index":53,"is_internal_anchor":true},{"citing_arxiv_id":"2506.07339","citing_title":"Real-Time Execution of Action Chunking Flow Policies","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2603.17834","citing_title":"Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2208.06193","citing_title":"Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2403.03954","citing_title":"3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2603.27134","citing_title":"Factorization Regret mediates compositional generalization in latent space","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2304.10573","citing_title":"IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2402.17177","citing_title":"Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models","ref_index":166,"is_internal_anchor":true},{"citing_arxiv_id":"2303.04137","citing_title":"Diffusion Policy: Visuomotor Policy Learning via Action Diffusion","ref_index":1,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/JCNH7MBQRB5ZDOEHFXTPZLOG7C","json":"https://pith.science/pith/JCNH7MBQRB5ZDOEHFXTPZLOG7C.json","graph_json":"https://pith.science/api/pith-number/JCNH7MBQRB5ZDOEHFXTPZLOG7C/graph.json","events_json":"https://pith.science/api/pith-number/JCNH7MBQRB5ZDOEHFXTPZLOG7C/events.json","paper":"https://pith.science/paper/JCNH7MBQ"},"agent_actions":{"view_html":"https://pith.science/pith/JCNH7MBQRB5ZDOEHFXTPZLOG7C","download_json":"https://pith.science/pith/JCNH7MBQRB5ZDOEHFXTPZLOG7C.json","view_paper":"https://pith.science/paper/JCNH7MBQ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2211.15657&json=true","fetch_graph":"https://pith.science/api/pith-number/JCNH7MBQRB5ZDOEHFXTPZLOG7C/graph.json","fetch_events":"https://pith.science/api/pith-number/JCNH7MBQRB5ZDOEHFXTPZLOG7C/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/JCNH7MBQRB5ZDOEHFXTPZLOG7C/action/timestamp_anchor","attest_storage":"https://pith.science/pith/JCNH7MBQRB5ZDOEHFXTPZLOG7C/action/storage_attestation","attest_author":"https://pith.science/pith/JCNH7MBQRB5ZDOEHFXTPZLOG7C/action/author_attestation","sign_citation":"https://pith.science/pith/JCNH7MBQRB5ZDOEHFXTPZLOG7C/action/citation_signature","submit_replication":"https://pith.science/pith/JCNH7MBQRB5ZDOEHFXTPZLOG7C/action/replication_record"}},"created_at":"2026-05-17T23:38:51.082690+00:00","updated_at":"2026-05-17T23:38:51.082690+00:00"}