{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:2KZQNQPFQSLVRKKPMIJV4F4QOD","short_pith_number":"pith:2KZQNQPF","schema_version":"1.0","canonical_sha256":"d2b306c1e5849758a94f62135e179070fc3d7b9832fc5dec54f783965d5ad876","source":{"kind":"arxiv","id":"2602.08557","version":2},"attestation_state":"computed","paper":{"title":"Combined Constrained Sampling and Reinforcement Learning for Robotic Manipulation","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.RO","authors_text":"Armand Jordana, Cornelius V. Braun, Denis Shcherba, Eckart Cobo-Briesewitz, Justin Carpentier, Marc Toussaint, Sayantan Auddy, Tilman Burghoff","submitted_at":"2026-02-09T11:54:45Z","abstract_excerpt":"Training non-prehensile manipulation policies in contact-rich settings is a core challenge in robotics. While Reinforcement Learning (RL) has demonstrated its strength in such settings, it may struggle to sufficiently explore and discover complex manipulation strategies. To address this, we combine two basic ideas: First, designing appropriate reset strategies (the start state distribution of episodes) has shown promise in improving RL exploration and effectiveness. Second, while model-based approaches to finding trajectories through manipulation are hard, recent work showed that model-based a"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2602.08557","kind":"arxiv","version":2},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-02-09T11:54:45Z","cross_cats_sorted":[],"title_canon_sha256":"a7dfdd101cfd84c0972cc644629f930842de36ce709550cd2c59d42beec09e22","abstract_canon_sha256":"26e81c3ed2f24cbe7528b4e111b0cb9e24d8ccfc245d8d8e2192254ab6bf8c78"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-07-01T01:17:46.823902Z","signature_b64":"1A46F8l0nfgpddVWTusDavhdqPXQoYOlrLnRWqYdU1S5H8pBfVJJTypWzP2wUtlQvUEhvGgyjS3acyGJVlOrAg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"d2b306c1e5849758a94f62135e179070fc3d7b9832fc5dec54f783965d5ad876","last_reissued_at":"2026-07-01T01:17:46.823391Z","signature_status":"signed_v1","first_computed_at":"2026-07-01T01:17:46.823391Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Combined Constrained Sampling and Reinforcement Learning for Robotic Manipulation","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.RO","authors_text":"Armand Jordana, Cornelius V. Braun, Denis Shcherba, Eckart Cobo-Briesewitz, Justin Carpentier, Marc Toussaint, Sayantan Auddy, Tilman Burghoff","submitted_at":"2026-02-09T11:54:45Z","abstract_excerpt":"Training non-prehensile manipulation policies in contact-rich settings is a core challenge in robotics. While Reinforcement Learning (RL) has demonstrated its strength in such settings, it may struggle to sufficiently explore and discover complex manipulation strategies. To address this, we combine two basic ideas: First, designing appropriate reset strategies (the start state distribution of episodes) has shown promise in improving RL exploration and effectiveness. Second, while model-based approaches to finding trajectories through manipulation are hard, recent work showed that model-based a"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2602.08557","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2602.08557/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2602.08557","created_at":"2026-07-01T01:17:46.823455+00:00"},{"alias_kind":"arxiv_version","alias_value":"2602.08557v2","created_at":"2026-07-01T01:17:46.823455+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2602.08557","created_at":"2026-07-01T01:17:46.823455+00:00"},{"alias_kind":"pith_short_12","alias_value":"2KZQNQPFQSLV","created_at":"2026-07-01T01:17:46.823455+00:00"},{"alias_kind":"pith_short_16","alias_value":"2KZQNQPFQSLVRKKP","created_at":"2026-07-01T01:17:46.823455+00:00"},{"alias_kind":"pith_short_8","alias_value":"2KZQNQPF","created_at":"2026-07-01T01:17:46.823455+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":1,"internal_anchor_count":1,"sample":[{"citing_arxiv_id":"2605.12338","citing_title":"Manifold Sampling via Entropy Maximization","ref_index":6,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/2KZQNQPFQSLVRKKPMIJV4F4QOD","json":"https://pith.science/pith/2KZQNQPFQSLVRKKPMIJV4F4QOD.json","graph_json":"https://pith.science/api/pith-number/2KZQNQPFQSLVRKKPMIJV4F4QOD/graph.json","events_json":"https://pith.science/api/pith-number/2KZQNQPFQSLVRKKPMIJV4F4QOD/events.json","paper":"https://pith.science/paper/2KZQNQPF"},"agent_actions":{"view_html":"https://pith.science/pith/2KZQNQPFQSLVRKKPMIJV4F4QOD","download_json":"https://pith.science/pith/2KZQNQPFQSLVRKKPMIJV4F4QOD.json","view_paper":"https://pith.science/paper/2KZQNQPF","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2602.08557&json=true","fetch_graph":"https://pith.science/api/pith-number/2KZQNQPFQSLVRKKPMIJV4F4QOD/graph.json","fetch_events":"https://pith.science/api/pith-number/2KZQNQPFQSLVRKKPMIJV4F4QOD/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/2KZQNQPFQSLVRKKPMIJV4F4QOD/action/timestamp_anchor","attest_storage":"https://pith.science/pith/2KZQNQPFQSLVRKKPMIJV4F4QOD/action/storage_attestation","attest_author":"https://pith.science/pith/2KZQNQPFQSLVRKKPMIJV4F4QOD/action/author_attestation","sign_citation":"https://pith.science/pith/2KZQNQPFQSLVRKKPMIJV4F4QOD/action/citation_signature","submit_replication":"https://pith.science/pith/2KZQNQPFQSLVRKKPMIJV4F4QOD/action/replication_record"}},"created_at":"2026-07-01T01:17:46.823455+00:00","updated_at":"2026-07-01T01:17:46.823455+00:00"}