{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:KDEMV4O4TER5VKPFSTFJ4NFSNA","merge_version":"pith-open-graph-merge-v1","event_count":3,"valid_event_count":3,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"9db88ca57ced0bd531d3b115f1b53fec14198bfe6a2799cc5c1c9bae817b0e2c","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2026-05-19T16:19:29Z","title_canon_sha256":"aaaef1e6a57bf70f83d3f93a4a7aada4e52c5c70bfeeae6bbf1645fb77710377"},"schema_version":"1.0","source":{"id":"2605.20061","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.20061","created_at":"2026-05-20T02:06:00Z"},{"alias_kind":"arxiv_version","alias_value":"2605.20061v1","created_at":"2026-05-20T02:06:00Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.20061","created_at":"2026-05-20T02:06:00Z"},{"alias_kind":"pith_short_12","alias_value":"KDEMV4O4TER5","created_at":"2026-05-20T02:06:00Z"},{"alias_kind":"pith_short_16","alias_value":"KDEMV4O4TER5VKPF","created_at":"2026-05-20T02:06:00Z"},{"alias_kind":"pith_short_8","alias_value":"KDEMV4O4","created_at":"2026-05-20T02:06:00Z"}],"graph_snapshots":[{"event_id":"sha256:ead51c55a92d8724aa443be87f2d01bc3682bae38371a91d8c823ae8ca5dc225","target":"graph","created_at":"2026-05-20T02:06:00Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2605.20061/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Reinforcement learning from verifiable rewards (RLVR) is a promising paradigm for improving large language model (LLM) agents on long-horizon interactive tasks. However, in partially observable environments, incomplete observations cause agent beliefs to drift over time, while delayed rewards obscure the causal impact of intermediate decisions, exacerbating temporal credit assignment challenges. To address this, we propose ReBel (Reward Belief), a process-level reinforcement learning algorithm that explicitly models structured belief states to summarize interaction history and guide subsequent","authors_text":"Liquan Xiao, Minne Li, Sijie Huang, Wenjie Tang, Yuan Zhou","cross_cats":[],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2026-05-19T16:19:29Z","title":"Rewarding Beliefs, Not Actions: Consistency-Guided Credit Assignment for Long-Horizon Agents"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.20061","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:40a0904744a139cb9636010c74e8a6379f44c03c07ae732a1c5f1103e3817613","target":"record","created_at":"2026-05-20T02:06:00Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"9db88ca57ced0bd531d3b115f1b53fec14198bfe6a2799cc5c1c9bae817b0e2c","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2026-05-19T16:19:29Z","title_canon_sha256":"aaaef1e6a57bf70f83d3f93a4a7aada4e52c5c70bfeeae6bbf1645fb77710377"},"schema_version":"1.0","source":{"id":"2605.20061","kind":"arxiv","version":1}},"canonical_sha256":"50c8caf1dc9923daa9e594ca9e34b26804eb1680c5defded30e91f7cb34d3414","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"50c8caf1dc9923daa9e594ca9e34b26804eb1680c5defded30e91f7cb34d3414","first_computed_at":"2026-05-20T02:06:00.649842Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-20T02:06:00.649842Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"IVQNYITs4bfZpB5OjAgDD6XaCzVy8oKdDGepjOhTZxSGPbPqvVg+x7vDuZgrPRmuu70dc0L7TdAF0EjZhQEvCg==","signature_status":"signed_v1","signed_at":"2026-05-20T02:06:00.650422Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.20061","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:40a0904744a139cb9636010c74e8a6379f44c03c07ae732a1c5f1103e3817613","sha256:ead51c55a92d8724aa443be87f2d01bc3682bae38371a91d8c823ae8ca5dc225","sha256:f3561fad9925c244a9ed43497e941ebc694aec1a1c15a73d0be1f1f86b4ebb98"],"state_sha256":"dab9b25ab087d4798d2b8c336006cd6aa605250e0c1e0f1ec86e7abf95079687"}