{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2026:OGHK4LF5S5YDNR2LIK24ONZEQF","short_pith_number":"pith:OGHK4LF5","canonical_record":{"source":{"id":"2604.27505","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2026-04-30T06:54:39Z","cross_cats_sorted":[],"title_canon_sha256":"0b22305dd553af6e1129f96b32d58c87810b78b6f73175455820a852d4036d28","abstract_canon_sha256":"c61a98136ad8842d44ef0fa81fadc0b2fba34e65235a32294bf13d181b9c5a43"},"schema_version":"1.0"},"canonical_sha256":"718eae2cbd977036c74b42b5c73724817838315c6900e81060bc23a0325448c2","source":{"kind":"arxiv","id":"2604.27505","version":2},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2604.27505","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"arxiv_version","alias_value":"2604.27505v2","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2604.27505","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"pith_short_12","alias_value":"OGHK4LF5S5YD","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"pith_short_16","alias_value":"OGHK4LF5S5YDNR2L","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"pith_short_8","alias_value":"OGHK4LF5","created_at":"2026-05-21T01:04:26Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2026:OGHK4LF5S5YDNR2LIK24ONZEQF","target":"record","payload":{"canonical_record":{"source":{"id":"2604.27505","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2026-04-30T06:54:39Z","cross_cats_sorted":[],"title_canon_sha256":"0b22305dd553af6e1129f96b32d58c87810b78b6f73175455820a852d4036d28","abstract_canon_sha256":"c61a98136ad8842d44ef0fa81fadc0b2fba34e65235a32294bf13d181b9c5a43"},"schema_version":"1.0"},"canonical_sha256":"718eae2cbd977036c74b42b5c73724817838315c6900e81060bc23a0325448c2","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-21T01:04:26.578227Z","signature_b64":"T4+7lITHx36OiexXVJSd8x357/VPYTQ/geNzzJmhgeSVNidMWcMC2nOrkp3L5mS//t6NNNnYSHHvzdk2xxvDDA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"718eae2cbd977036c74b42b5c73724817838315c6900e81060bc23a0325448c2","last_reissued_at":"2026-05-21T01:04:26.577653Z","signature_status":"signed_v1","first_computed_at":"2026-05-21T01:04:26.577653Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2604.27505","source_version":2,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-21T01:04:26Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"+OBIAMhi0vFm9vGXxvXwyIBtqke6d/EFe37nveNyFOK9Uwi7bxUEN6b2PZewwcyrZubOm7x0tPdmxGe9Uj9UAg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-01T19:18:24.442920Z"},"content_sha256":"fd14c642e5ff22f07285eb6a958070ec3a6f48dbb41dea05fb74d6852a061191","schema_version":"1.0","event_id":"sha256:fd14c642e5ff22f07285eb6a958070ec3a6f48dbb41dea05fb74d6852a061191"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2026:OGHK4LF5S5YDNR2LIK24ONZEQF","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Leveraging Verifier-Based Reinforcement Learning in Image Editing","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"A chain-of-thought verifier that decomposes editing instructions into principles delivers better rewards than general vision-language models.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Hanzhong Guo, Jie Liu, Jie Wu, Linxiao Yuan, Weilin Huang, Xionghui Wang, Yizhou Yu, Yu Gao, Zilyu Ye","submitted_at":"2026-04-30T06:54:39Z","abstract_excerpt":"While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based rea"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That breaking instructions into principles and aggregating CoT checks produces unbiased, generalizable rewards across all editing tasks without introducing new failure modes or requiring task-specific tuning that was not captured in the human preference data.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Edit-R1 trains a CoT-based reasoning reward model with GCPO and uses it to boost image editing performance over VLMs and models like FLUX.1-kontext via GRPO.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"A chain-of-thought verifier that decomposes editing instructions into principles delivers better rewards than general vision-language models.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"885539b44c2625e4f86b895878fbde70a0ae193cfbe76cb4bb437bfdaf193a80"},"source":{"id":"2604.27505","kind":"arxiv","version":2},"verdict":{"id":"e8c98183-d331-4ce7-bae1-c93e3bc5eb3c","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-07T07:55:59.209588Z","strongest_claim":"our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext","one_line_summary":"Edit-R1 trains a CoT-based reasoning reward model with GCPO and uses it to boost image editing performance over VLMs and models like FLUX.1-kontext via GRPO.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That breaking instructions into principles and aggregating CoT checks produces unbiased, generalizable rewards across all editing tasks without introducing new failure modes or requiring task-specific tuning that was not captured in the human preference data.","pith_extraction_headline":"A chain-of-thought verifier that decomposes editing instructions into principles delivers better rewards than general vision-language models."},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2604.27505/integrity.json","findings":[],"available":true,"detectors_run":[{"name":"ai_meta_artifact","ran_at":"2026-05-20T22:34:57.332408Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"doi_compliance","ran_at":"2026-05-19T19:13:14.495904Z","status":"completed","version":"1.0.0","findings_count":0}],"snapshot_sha256":"e9f66458bfe8bfb21e6e0e8ecdb2766aab90e270cd6234932bea0d53e7b3d97b"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":"e8c98183-d331-4ce7-bae1-c93e3bc5eb3c"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-21T01:04:26Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"U4uYsWokcnR8ELeQ7GjrYgj6JM8AuNvxne4X9XF1eXU3erBBALCKKPZpeVBYliXtYy5Z57mez8WILNeGhtSkCA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-01T19:18:24.443424Z"},"content_sha256":"b158c94dff8e7e6e1cf61cdb5fe9582945004e1041128fb66d7e50164bd67633","schema_version":"1.0","event_id":"sha256:b158c94dff8e7e6e1cf61cdb5fe9582945004e1041128fb66d7e50164bd67633"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/OGHK4LF5S5YDNR2LIK24ONZEQF/bundle.json","state_url":"https://pith.science/pith/OGHK4LF5S5YDNR2LIK24ONZEQF/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/OGHK4LF5S5YDNR2LIK24ONZEQF/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-01T19:18:24Z","links":{"resolver":"https://pith.science/pith/OGHK4LF5S5YDNR2LIK24ONZEQF","bundle":"https://pith.science/pith/OGHK4LF5S5YDNR2LIK24ONZEQF/bundle.json","state":"https://pith.science/pith/OGHK4LF5S5YDNR2LIK24ONZEQF/state.json","well_known_bundle":"https://pith.science/.well-known/pith/OGHK4LF5S5YDNR2LIK24ONZEQF/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:OGHK4LF5S5YDNR2LIK24ONZEQF","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"c61a98136ad8842d44ef0fa81fadc0b2fba34e65235a32294bf13d181b9c5a43","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2026-04-30T06:54:39Z","title_canon_sha256":"0b22305dd553af6e1129f96b32d58c87810b78b6f73175455820a852d4036d28"},"schema_version":"1.0","source":{"id":"2604.27505","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2604.27505","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"arxiv_version","alias_value":"2604.27505v2","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2604.27505","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"pith_short_12","alias_value":"OGHK4LF5S5YD","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"pith_short_16","alias_value":"OGHK4LF5S5YDNR2L","created_at":"2026-05-21T01:04:26Z"},{"alias_kind":"pith_short_8","alias_value":"OGHK4LF5","created_at":"2026-05-21T01:04:26Z"}],"graph_snapshots":[{"event_id":"sha256:b158c94dff8e7e6e1cf61cdb5fe9582945004e1041128fb66d7e50164bd67633","target":"graph","created_at":"2026-05-21T01:04:26Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext"},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That breaking instructions into principles and aggregating CoT checks produces unbiased, generalizable rewards across all editing tasks without introducing new failure modes or requiring task-specific tuning that was not captured in the human preference data."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"Edit-R1 trains a CoT-based reasoning reward model with GCPO and uses it to boost image editing performance over VLMs and models like FLUX.1-kontext via GRPO."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"A chain-of-thought verifier that decomposes editing instructions into principles delivers better rewards than general vision-language models."}],"snapshot_sha256":"885539b44c2625e4f86b895878fbde70a0ae193cfbe76cb4bb437bfdaf193a80"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[{"findings_count":0,"name":"ai_meta_artifact","ran_at":"2026-05-20T22:34:57.332408Z","status":"completed","version":"1.0.0"},{"findings_count":0,"name":"doi_compliance","ran_at":"2026-05-19T19:13:14.495904Z","status":"completed","version":"1.0.0"}],"endpoint":"/pith/2604.27505/integrity.json","findings":[],"snapshot_sha256":"e9f66458bfe8bfb21e6e0e8ecdb2766aab90e270cd6234932bea0d53e7b3d97b","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based rea","authors_text":"Hanzhong Guo, Jie Liu, Jie Wu, Linxiao Yuan, Weilin Huang, Xionghui Wang, Yizhou Yu, Yu Gao, Zilyu Ye","cross_cats":[],"headline":"A chain-of-thought verifier that decomposes editing instructions into principles delivers better rewards than general vision-language models.","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2026-04-30T06:54:39Z","title":"Leveraging Verifier-Based Reinforcement Learning in Image Editing"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2604.27505","kind":"arxiv","version":2},"verdict":{"created_at":"2026-05-07T07:55:59.209588Z","id":"e8c98183-d331-4ce7-bae1-c93e3bc5eb3c","model_set":{"reader":"grok-4.3"},"one_line_summary":"Edit-R1 trains a CoT-based reasoning reward model with GCPO and uses it to boost image editing performance over VLMs and models like FLUX.1-kontext via GRPO.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"A chain-of-thought verifier that decomposes editing instructions into principles delivers better rewards than general vision-language models.","strongest_claim":"our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext","weakest_assumption":"That breaking instructions into principles and aggregating CoT checks produces unbiased, generalizable rewards across all editing tasks without introducing new failure modes or requiring task-specific tuning that was not captured in the human preference data."}},"verdict_id":"e8c98183-d331-4ce7-bae1-c93e3bc5eb3c"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:fd14c642e5ff22f07285eb6a958070ec3a6f48dbb41dea05fb74d6852a061191","target":"record","created_at":"2026-05-21T01:04:26Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"c61a98136ad8842d44ef0fa81fadc0b2fba34e65235a32294bf13d181b9c5a43","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2026-04-30T06:54:39Z","title_canon_sha256":"0b22305dd553af6e1129f96b32d58c87810b78b6f73175455820a852d4036d28"},"schema_version":"1.0","source":{"id":"2604.27505","kind":"arxiv","version":2}},"canonical_sha256":"718eae2cbd977036c74b42b5c73724817838315c6900e81060bc23a0325448c2","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"718eae2cbd977036c74b42b5c73724817838315c6900e81060bc23a0325448c2","first_computed_at":"2026-05-21T01:04:26.577653Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-21T01:04:26.577653Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"T4+7lITHx36OiexXVJSd8x357/VPYTQ/geNzzJmhgeSVNidMWcMC2nOrkp3L5mS//t6NNNnYSHHvzdk2xxvDDA==","signature_status":"signed_v1","signed_at":"2026-05-21T01:04:26.578227Z","signed_message":"canonical_sha256_bytes"},"source_id":"2604.27505","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:fd14c642e5ff22f07285eb6a958070ec3a6f48dbb41dea05fb74d6852a061191","sha256:b158c94dff8e7e6e1cf61cdb5fe9582945004e1041128fb66d7e50164bd67633"],"state_sha256":"f7d59f1006d147f2e54fa3a3559a3ebabc86e241ed730875bd62f9c8ffb6f388"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"mYPgkARlS+2kfpPm9d4LxcpJnCoYI8DvQcO53gr8FTw6yIdraUNZd+Gmrw4OE6gtaDiT9M2eRVJWuv/g28uOAw==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-01T19:18:24.445716Z","bundle_sha256":"54c66a59a1806268200396aa44983661b7e3d9dffd8fe22d695fc1cb78c2f094"}}