{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2026:LH7VBHTYPHJ65EFFA6GPWKZB2C","short_pith_number":"pith:LH7VBHTY","canonical_record":{"source":{"id":"2606.31377","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-06-30T09:07:19Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"adb88664a02a66dbb4e5850164aa12559d62ed0e45add539995ca038dca65efa","abstract_canon_sha256":"81d2fc2d6d1da84ddd5e8b5f2bfbb223fa0e7aaaccb361dcdc31bce5163e96f4"},"schema_version":"1.0"},"canonical_sha256":"59ff509e7879d3ee90a5078cfb2b21d0ab30adb62fde19e2857b85967a5eda3c","source":{"kind":"arxiv","id":"2606.31377","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.31377","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"arxiv_version","alias_value":"2606.31377v1","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.31377","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"pith_short_12","alias_value":"LH7VBHTYPHJ6","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"pith_short_16","alias_value":"LH7VBHTYPHJ65EFF","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"pith_short_8","alias_value":"LH7VBHTY","created_at":"2026-07-01T01:18:01Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2026:LH7VBHTYPHJ65EFFA6GPWKZB2C","target":"record","payload":{"canonical_record":{"source":{"id":"2606.31377","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-06-30T09:07:19Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"adb88664a02a66dbb4e5850164aa12559d62ed0e45add539995ca038dca65efa","abstract_canon_sha256":"81d2fc2d6d1da84ddd5e8b5f2bfbb223fa0e7aaaccb361dcdc31bce5163e96f4"},"schema_version":"1.0"},"canonical_sha256":"59ff509e7879d3ee90a5078cfb2b21d0ab30adb62fde19e2857b85967a5eda3c","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-07-01T01:18:01.231568Z","signature_b64":"LfPp7TDyG0Tg4IZ5h5m4Wv/s3vQ6aFoh4MRW1ee7+A5CGTHRSTBRuZYE4vOOvLmLE3pDItSHGFY86sSe6PnLDA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"59ff509e7879d3ee90a5078cfb2b21d0ab30adb62fde19e2857b85967a5eda3c","last_reissued_at":"2026-07-01T01:18:01.230979Z","signature_status":"signed_v1","first_computed_at":"2026-07-01T01:18:01.230979Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2606.31377","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-07-01T01:18:01Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"FRDohm6FeQd1BQvJzq5EaIqNcSDTMGouVqKdo0wCTeqYLtdqjem27K02a+0mj44DfpaFru2ll0w26x2uCQE+AQ==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-07-01T18:02:44.185130Z"},"content_sha256":"c547c919e87d02407e1e66027320eeec46155eb43e3a8d9019816b99bb7c672b","schema_version":"1.0","event_id":"sha256:c547c919e87d02407e1e66027320eeec46155eb43e3a8d9019816b99bb7c672b"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2026:LH7VBHTYPHJ65EFFA6GPWKZB2C","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Stage-Transition Dense Reward Modeling for Reinforcement Learning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.RO","authors_text":"Bingjie Chen, Guoping Pan, Houde Liu, Yang Yang, Yi Cheng, Yizhe Li, Zihan Wang","submitted_at":"2026-06-30T09:07:19Z","abstract_excerpt":"Reinforcement learning for long-horizon robotic manipulation is often limited by sparse and delayed rewards, while manually designing dense shaping signals is costly and brittle to changes in environments and object configurations. This work proposes Stage-Transition Dense Reward (STDR), a visual reward-learning framework that converts unstructured expert videos into logically grounded dense rewards for training RL agents from scratch. STDR leverages semantic understanding to infer a task's stage structure from demonstrations, and delivers two complementary learning signals during online train"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.31377","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.31377/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-07-01T01:18:01Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"ovTMZrWYD9SVmbmssLLsAcHAMiQPmE4xZNjZsxvR8WCxtuTmD5/Yb3qF+SA4szZjfdiqcbf01e2DZIwP0NT+Aw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-07-01T18:02:44.185618Z"},"content_sha256":"6ff178cdad10caddca4cc980d5b76ab6e134afd6c37e9046c0730f0334e0bdf1","schema_version":"1.0","event_id":"sha256:6ff178cdad10caddca4cc980d5b76ab6e134afd6c37e9046c0730f0334e0bdf1"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/LH7VBHTYPHJ65EFFA6GPWKZB2C/bundle.json","state_url":"https://pith.science/pith/LH7VBHTYPHJ65EFFA6GPWKZB2C/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/LH7VBHTYPHJ65EFFA6GPWKZB2C/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-07-01T18:02:44Z","links":{"resolver":"https://pith.science/pith/LH7VBHTYPHJ65EFFA6GPWKZB2C","bundle":"https://pith.science/pith/LH7VBHTYPHJ65EFFA6GPWKZB2C/bundle.json","state":"https://pith.science/pith/LH7VBHTYPHJ65EFFA6GPWKZB2C/state.json","well_known_bundle":"https://pith.science/.well-known/pith/LH7VBHTYPHJ65EFFA6GPWKZB2C/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:LH7VBHTYPHJ65EFFA6GPWKZB2C","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"81d2fc2d6d1da84ddd5e8b5f2bfbb223fa0e7aaaccb361dcdc31bce5163e96f4","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-06-30T09:07:19Z","title_canon_sha256":"adb88664a02a66dbb4e5850164aa12559d62ed0e45add539995ca038dca65efa"},"schema_version":"1.0","source":{"id":"2606.31377","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.31377","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"arxiv_version","alias_value":"2606.31377v1","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.31377","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"pith_short_12","alias_value":"LH7VBHTYPHJ6","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"pith_short_16","alias_value":"LH7VBHTYPHJ65EFF","created_at":"2026-07-01T01:18:01Z"},{"alias_kind":"pith_short_8","alias_value":"LH7VBHTY","created_at":"2026-07-01T01:18:01Z"}],"graph_snapshots":[{"event_id":"sha256:6ff178cdad10caddca4cc980d5b76ab6e134afd6c37e9046c0730f0334e0bdf1","target":"graph","created_at":"2026-07-01T01:18:01Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2606.31377/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Reinforcement learning for long-horizon robotic manipulation is often limited by sparse and delayed rewards, while manually designing dense shaping signals is costly and brittle to changes in environments and object configurations. This work proposes Stage-Transition Dense Reward (STDR), a visual reward-learning framework that converts unstructured expert videos into logically grounded dense rewards for training RL agents from scratch. STDR leverages semantic understanding to infer a task's stage structure from demonstrations, and delivers two complementary learning signals during online train","authors_text":"Bingjie Chen, Guoping Pan, Houde Liu, Yang Yang, Yi Cheng, Yizhe Li, Zihan Wang","cross_cats":["cs.AI"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-06-30T09:07:19Z","title":"Stage-Transition Dense Reward Modeling for Reinforcement Learning"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.31377","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:c547c919e87d02407e1e66027320eeec46155eb43e3a8d9019816b99bb7c672b","target":"record","created_at":"2026-07-01T01:18:01Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"81d2fc2d6d1da84ddd5e8b5f2bfbb223fa0e7aaaccb361dcdc31bce5163e96f4","cross_cats_sorted":["cs.AI"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.RO","submitted_at":"2026-06-30T09:07:19Z","title_canon_sha256":"adb88664a02a66dbb4e5850164aa12559d62ed0e45add539995ca038dca65efa"},"schema_version":"1.0","source":{"id":"2606.31377","kind":"arxiv","version":1}},"canonical_sha256":"59ff509e7879d3ee90a5078cfb2b21d0ab30adb62fde19e2857b85967a5eda3c","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"59ff509e7879d3ee90a5078cfb2b21d0ab30adb62fde19e2857b85967a5eda3c","first_computed_at":"2026-07-01T01:18:01.230979Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-07-01T01:18:01.230979Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"LfPp7TDyG0Tg4IZ5h5m4Wv/s3vQ6aFoh4MRW1ee7+A5CGTHRSTBRuZYE4vOOvLmLE3pDItSHGFY86sSe6PnLDA==","signature_status":"signed_v1","signed_at":"2026-07-01T01:18:01.231568Z","signed_message":"canonical_sha256_bytes"},"source_id":"2606.31377","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:c547c919e87d02407e1e66027320eeec46155eb43e3a8d9019816b99bb7c672b","sha256:6ff178cdad10caddca4cc980d5b76ab6e134afd6c37e9046c0730f0334e0bdf1"],"state_sha256":"7469f47b0c369da6ce9f7e535c386db8414eca66653f39833bbaa02466430a18"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"upLSIlhJXCG7oNz18IYf+Sgx63wYqEEtDwLKIr18yFfW0vt/Ayb1J4T8tbYqD/onHnxlAqjPKuPmzuySy+FvAA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-07-01T18:02:44.187904Z","bundle_sha256":"81f1ac180aa36e8ef8be10fd2540a93ba8b83e018b4bd6cc8f50ab5956bdc461"}}