{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:KEN26KA6EAYMYZAZMPTAQMRUZH","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"05c9824342efee31c0d5a26101862a4ceead57e9d49042cda4fc6be46685a347","cross_cats_sorted":["cs.CL","cs.CV"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-03-30T17:46:31Z","title_canon_sha256":"0a307442793180b3dc68ec9814346c8e3a23394e68e6a5dc837a071f2cbdc501"},"schema_version":"1.0","source":{"id":"2603.28730","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2603.28730","created_at":"2026-05-27T02:06:13Z"},{"alias_kind":"arxiv_version","alias_value":"2603.28730v2","created_at":"2026-05-27T02:06:13Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2603.28730","created_at":"2026-05-27T02:06:13Z"},{"alias_kind":"pith_short_12","alias_value":"KEN26KA6EAYM","created_at":"2026-05-27T02:06:13Z"},{"alias_kind":"pith_short_16","alias_value":"KEN26KA6EAYMYZAZ","created_at":"2026-05-27T02:06:13Z"},{"alias_kind":"pith_short_8","alias_value":"KEN26KA6","created_at":"2026-05-27T02:06:13Z"}],"graph_snapshots":[{"event_id":"sha256:6233057d6e66899e2db69af5135c79c42af1353af9d648b36650e34cd3d3e582","target":"graph","created_at":"2026-05-27T02:06:13Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2603.28730/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Vision-language models (VLMs) have shown impressive capabilities across diverse tasks, motivating efforts to leverage these models to supervise robot learning. However, when used as evaluators in reinforcement learning (RL), today's strongest models often fail under partial observability and distribution shift, enabling policies to exploit perceptual errors rather than solve the task. We introduce SOLE-R1 (Self-Observing LEarner), a video-language reasoning model explicitly designed to serve as the sole reward signal for online RL. Given only raw video observations and a natural-language goal,","authors_text":"Eric Rosen, Karl Schmeckpeper, Ondrej Biza, Philip Schroeder, Stephen Hart, Thomas Weng","cross_cats":["cs.CL","cs.CV"],"headline":"","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-03-30T17:46:31Z","title":"SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2603.28730","kind":"arxiv","version":2},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:3b2c4d74beea7f95d0ccb739a754375a6c395c9dd3516760310d63241b7e4712","target":"record","created_at":"2026-05-27T02:06:13Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"05c9824342efee31c0d5a26101862a4ceead57e9d49042cda4fc6be46685a347","cross_cats_sorted":["cs.CL","cs.CV"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.RO","submitted_at":"2026-03-30T17:46:31Z","title_canon_sha256":"0a307442793180b3dc68ec9814346c8e3a23394e68e6a5dc837a071f2cbdc501"},"schema_version":"1.0","source":{"id":"2603.28730","kind":"arxiv","version":2}},"canonical_sha256":"511baf281e2030cc641963e6083234c9dc5c983f7203974d8d7d5130411f3bf6","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"511baf281e2030cc641963e6083234c9dc5c983f7203974d8d7d5130411f3bf6","first_computed_at":"2026-05-27T02:06:13.950117Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-27T02:06:13.950117Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"x/5IhscTVQISQCBh+zrV9tuHRWZlmY6FQ8D4mN73HLjrSvSnPwf6nsTFprQLjMJxSglwus1tjQ8wiVbC5HHvDg==","signature_status":"signed_v1","signed_at":"2026-05-27T02:06:13.951043Z","signed_message":"canonical_sha256_bytes"},"source_id":"2603.28730","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:3b2c4d74beea7f95d0ccb739a754375a6c395c9dd3516760310d63241b7e4712","sha256:6233057d6e66899e2db69af5135c79c42af1353af9d648b36650e34cd3d3e582"],"state_sha256":"5252a90de600ec620810ba1247f4383843e5f673876ac98063b92e43b7db695d"}