{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:CMHWFBGJFBLAXBT6CI2MBL5YQM","short_pith_number":"pith:CMHWFBGJ","schema_version":"1.0","canonical_sha256":"130f6284c928560b867e1234c0afb8832031adc39b935cfa5f989b02808864b6","source":{"kind":"arxiv","id":"2606.23700","version":1},"attestation_state":"computed","paper":{"title":"Self-Recognition Finetuning can Prevent and Reverse Emergent Misalignment","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.CL","authors_text":"Arush Tagade, Jiaxin Wen, Shaoheng Zhou, Shi Feng","submitted_at":"2026-06-04T00:04:58Z","abstract_excerpt":"Emergent misalignment (EM) has been linked to the activation of misaligned persona vectors and evil character traits, suggesting that EM operates through disruption of the model's aligned character rather than direct learning of harmful content. Motivated by this connection, we study self-generated text recognition (SGTR) finetuning as a character-targeted intervention that is distinct from existing in-training defenses. We conduct two-stage finetuning experiments across three models (GPT-4.1, Qwen2.5-32B-Instruct, Seed-OSS-36B-Instruct) and multiple EM datasets to compare SGTR finetuning agai"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.23700","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CL","submitted_at":"2026-06-04T00:04:58Z","cross_cats_sorted":["cs.AI","cs.LG"],"title_canon_sha256":"b3e23b192270041630d22e38d2f1a1443ee26e822dc1a150af5b63e9da6cfdcc","abstract_canon_sha256":"a34860a8f854d8bb9f909167b81c1e8949fc28aeaa25360c26b78fdbbaf4e3a6"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-24T00:14:23.700452Z","signature_b64":"XvgIoCmFEbCSayCovPSyjbVz/XPr0fr6ZDwMIslLv9BBZdIwQmSLeyP/F51nhJKsbiWx4P798105rEb2rAvIBQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"130f6284c928560b867e1234c0afb8832031adc39b935cfa5f989b02808864b6","last_reissued_at":"2026-06-24T00:14:23.699980Z","signature_status":"signed_v1","first_computed_at":"2026-06-24T00:14:23.699980Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Self-Recognition Finetuning can Prevent and Reverse Emergent Misalignment","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.AI","cs.LG"],"primary_cat":"cs.CL","authors_text":"Arush Tagade, Jiaxin Wen, Shaoheng Zhou, Shi Feng","submitted_at":"2026-06-04T00:04:58Z","abstract_excerpt":"Emergent misalignment (EM) has been linked to the activation of misaligned persona vectors and evil character traits, suggesting that EM operates through disruption of the model's aligned character rather than direct learning of harmful content. Motivated by this connection, we study self-generated text recognition (SGTR) finetuning as a character-targeted intervention that is distinct from existing in-training defenses. We conduct two-stage finetuning experiments across three models (GPT-4.1, Qwen2.5-32B-Instruct, Seed-OSS-36B-Instruct) and multiple EM datasets to compare SGTR finetuning agai"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.23700","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.23700/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.23700","created_at":"2026-06-24T00:14:23.700039+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.23700v1","created_at":"2026-06-24T00:14:23.700039+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.23700","created_at":"2026-06-24T00:14:23.700039+00:00"},{"alias_kind":"pith_short_12","alias_value":"CMHWFBGJFBLA","created_at":"2026-06-24T00:14:23.700039+00:00"},{"alias_kind":"pith_short_16","alias_value":"CMHWFBGJFBLAXBT6","created_at":"2026-06-24T00:14:23.700039+00:00"},{"alias_kind":"pith_short_8","alias_value":"CMHWFBGJ","created_at":"2026-06-24T00:14:23.700039+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/CMHWFBGJFBLAXBT6CI2MBL5YQM","json":"https://pith.science/pith/CMHWFBGJFBLAXBT6CI2MBL5YQM.json","graph_json":"https://pith.science/api/pith-number/CMHWFBGJFBLAXBT6CI2MBL5YQM/graph.json","events_json":"https://pith.science/api/pith-number/CMHWFBGJFBLAXBT6CI2MBL5YQM/events.json","paper":"https://pith.science/paper/CMHWFBGJ"},"agent_actions":{"view_html":"https://pith.science/pith/CMHWFBGJFBLAXBT6CI2MBL5YQM","download_json":"https://pith.science/pith/CMHWFBGJFBLAXBT6CI2MBL5YQM.json","view_paper":"https://pith.science/paper/CMHWFBGJ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.23700&json=true","fetch_graph":"https://pith.science/api/pith-number/CMHWFBGJFBLAXBT6CI2MBL5YQM/graph.json","fetch_events":"https://pith.science/api/pith-number/CMHWFBGJFBLAXBT6CI2MBL5YQM/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/CMHWFBGJFBLAXBT6CI2MBL5YQM/action/timestamp_anchor","attest_storage":"https://pith.science/pith/CMHWFBGJFBLAXBT6CI2MBL5YQM/action/storage_attestation","attest_author":"https://pith.science/pith/CMHWFBGJFBLAXBT6CI2MBL5YQM/action/author_attestation","sign_citation":"https://pith.science/pith/CMHWFBGJFBLAXBT6CI2MBL5YQM/action/citation_signature","submit_replication":"https://pith.science/pith/CMHWFBGJFBLAXBT6CI2MBL5YQM/action/replication_record"}},"created_at":"2026-06-24T00:14:23.700039+00:00","updated_at":"2026-06-24T00:14:23.700039+00:00"}