{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:2VO3PNEKRTKSH4UGBBSPBW6ETJ","short_pith_number":"pith:2VO3PNEK","schema_version":"1.0","canonical_sha256":"d55db7b48a8cd523f2860864f0dbc49a4316994d5a30e7901b16ad9caa4474be","source":{"kind":"arxiv","id":"2605.23897","version":1},"attestation_state":"computed","paper":{"title":"ETCHR: Editing To Clarify and Harness Reasoning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI","cs.CL"],"primary_cat":"cs.CV","authors_text":"Beichen Zhang, Dahua Lin, Jiaqi Wang, Jinsong Li, Yuhang Zang, Yuhong Liu","submitted_at":"2026-05-22T17:58:28Z","abstract_excerpt":"Multimodal Large Language Models have advanced visual reasoning, yet a purely textual chain of thought remains a bottleneck for questions that require fine-grained focus or view transformations. The ''think with images'' paradigm narrows this gap, but existing approaches are either constrained by fixed predefined toolkits or produce noisy intermediate images from unified multimodal methods. We pursue a third option: using a dedicated image editing model and decouple it with an understanding model. However, off-the-shelf image editors fail as reasoning assistants with two complementary gaps: a "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2605.23897","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2026-05-22T17:58:28Z","cross_cats_sorted":["cs.AI","cs.CL"],"title_canon_sha256":"dc72d5658323d4647fe3f79059c9a02e704de361aef400e28ca5cd3dd09a95ec","abstract_canon_sha256":"e2cd1ab6692c6a47b0c7e1c764bf9e5d0243814b2f2ae9ef4657fe5e87a01796"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-25T02:02:38.372082Z","signature_b64":"f6tyOdPMyBW2jR1ge29QxqvBQPD23mD69ROH/qgXMxtDjCnFVHQg1xm1xHBsgwOdAt/3ygJdOWPaeXa/x3/LBw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"d55db7b48a8cd523f2860864f0dbc49a4316994d5a30e7901b16ad9caa4474be","last_reissued_at":"2026-05-25T02:02:38.371387Z","signature_status":"signed_v1","first_computed_at":"2026-05-25T02:02:38.371387Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"ETCHR: Editing To Clarify and Harness Reasoning","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI","cs.CL"],"primary_cat":"cs.CV","authors_text":"Beichen Zhang, Dahua Lin, Jiaqi Wang, Jinsong Li, Yuhang Zang, Yuhong Liu","submitted_at":"2026-05-22T17:58:28Z","abstract_excerpt":"Multimodal Large Language Models have advanced visual reasoning, yet a purely textual chain of thought remains a bottleneck for questions that require fine-grained focus or view transformations. The ''think with images'' paradigm narrows this gap, but existing approaches are either constrained by fixed predefined toolkits or produce noisy intermediate images from unified multimodal methods. We pursue a third option: using a dedicated image editing model and decouple it with an understanding model. However, off-the-shelf image editors fail as reasoning assistants with two complementary gaps: a "},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.23897","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.23897/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.23897","created_at":"2026-05-25T02:02:38.371508+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.23897v1","created_at":"2026-05-25T02:02:38.371508+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.23897","created_at":"2026-05-25T02:02:38.371508+00:00"},{"alias_kind":"pith_short_12","alias_value":"2VO3PNEKRTKS","created_at":"2026-05-25T02:02:38.371508+00:00"},{"alias_kind":"pith_short_16","alias_value":"2VO3PNEKRTKSH4UG","created_at":"2026-05-25T02:02:38.371508+00:00"},{"alias_kind":"pith_short_8","alias_value":"2VO3PNEK","created_at":"2026-05-25T02:02:38.371508+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/2VO3PNEKRTKSH4UGBBSPBW6ETJ","json":"https://pith.science/pith/2VO3PNEKRTKSH4UGBBSPBW6ETJ.json","graph_json":"https://pith.science/api/pith-number/2VO3PNEKRTKSH4UGBBSPBW6ETJ/graph.json","events_json":"https://pith.science/api/pith-number/2VO3PNEKRTKSH4UGBBSPBW6ETJ/events.json","paper":"https://pith.science/paper/2VO3PNEK"},"agent_actions":{"view_html":"https://pith.science/pith/2VO3PNEKRTKSH4UGBBSPBW6ETJ","download_json":"https://pith.science/pith/2VO3PNEKRTKSH4UGBBSPBW6ETJ.json","view_paper":"https://pith.science/paper/2VO3PNEK","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.23897&json=true","fetch_graph":"https://pith.science/api/pith-number/2VO3PNEKRTKSH4UGBBSPBW6ETJ/graph.json","fetch_events":"https://pith.science/api/pith-number/2VO3PNEKRTKSH4UGBBSPBW6ETJ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/2VO3PNEKRTKSH4UGBBSPBW6ETJ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/2VO3PNEKRTKSH4UGBBSPBW6ETJ/action/storage_attestation","attest_author":"https://pith.science/pith/2VO3PNEKRTKSH4UGBBSPBW6ETJ/action/author_attestation","sign_citation":"https://pith.science/pith/2VO3PNEKRTKSH4UGBBSPBW6ETJ/action/citation_signature","submit_replication":"https://pith.science/pith/2VO3PNEKRTKSH4UGBBSPBW6ETJ/action/replication_record"}},"created_at":"2026-05-25T02:02:38.371508+00:00","updated_at":"2026-05-25T02:02:38.371508+00:00"}