{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:V4DWYQEJEF4FHSG6QMAP5PU4KZ","short_pith_number":"pith:V4DWYQEJ","schema_version":"1.0","canonical_sha256":"af076c4089217853c8de8300febe9c565079391cab672b0a12314d2b5213ed3d","source":{"kind":"arxiv","id":"2607.01859","version":1},"attestation_state":"computed","paper":{"title":"Safety Targeted Embedding Exploit via Refinement","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.AI","authors_text":"Joshua Adrian Cahyono","submitted_at":"2026-07-02T08:17:57Z","abstract_excerpt":"Safety training for large language models (LLMs) is conducted predominantly in English, leaving uncertain how well safety mechanisms generalize to low-resource languages and mixed-language code-switching. We show that this creates an epistemic gap in which models confidently generate harmful responses for inputs that fall outside the distribution of their safety training. To study this phenomenon, we introduce STEER (Safety Targeted Embedding Exploit via Refinement), a gradient-guided attack that identifies words contributing most strongly to the model's refusal behavior and iteratively transl"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2607.01859","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.AI","submitted_at":"2026-07-02T08:17:57Z","cross_cats_sorted":["cs.CL"],"title_canon_sha256":"2b7c5c6a10e6d305504f33c41f26de4235e5f638c55e96c6ac2e2b1d6cd4a6bf","abstract_canon_sha256":"a450899c7d70ddca13647262070e5c90a1989b95c9a9a281b3deee90def965a3"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-07-03T01:17:31.815533Z","signature_b64":"52R+gzQvRk7WwRWsIMLV4c2CkPB29fnkoMEyprVzpZUlXn/yG1yN7Idiv+/WlSbPHHBJCp8tTRTwIOTgkovjCA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"af076c4089217853c8de8300febe9c565079391cab672b0a12314d2b5213ed3d","last_reissued_at":"2026-07-03T01:17:31.815175Z","signature_status":"signed_v1","first_computed_at":"2026-07-03T01:17:31.815175Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Safety Targeted Embedding Exploit via Refinement","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.AI","authors_text":"Joshua Adrian Cahyono","submitted_at":"2026-07-02T08:17:57Z","abstract_excerpt":"Safety training for large language models (LLMs) is conducted predominantly in English, leaving uncertain how well safety mechanisms generalize to low-resource languages and mixed-language code-switching. We show that this creates an epistemic gap in which models confidently generate harmful responses for inputs that fall outside the distribution of their safety training. To study this phenomenon, we introduce STEER (Safety Targeted Embedding Exploit via Refinement), a gradient-guided attack that identifies words contributing most strongly to the model's refusal behavior and iteratively transl"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2607.01859","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2607.01859/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2607.01859","created_at":"2026-07-03T01:17:31.815237+00:00"},{"alias_kind":"arxiv_version","alias_value":"2607.01859v1","created_at":"2026-07-03T01:17:31.815237+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2607.01859","created_at":"2026-07-03T01:17:31.815237+00:00"},{"alias_kind":"pith_short_12","alias_value":"V4DWYQEJEF4F","created_at":"2026-07-03T01:17:31.815237+00:00"},{"alias_kind":"pith_short_16","alias_value":"V4DWYQEJEF4FHSG6","created_at":"2026-07-03T01:17:31.815237+00:00"},{"alias_kind":"pith_short_8","alias_value":"V4DWYQEJ","created_at":"2026-07-03T01:17:31.815237+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/V4DWYQEJEF4FHSG6QMAP5PU4KZ","json":"https://pith.science/pith/V4DWYQEJEF4FHSG6QMAP5PU4KZ.json","graph_json":"https://pith.science/api/pith-number/V4DWYQEJEF4FHSG6QMAP5PU4KZ/graph.json","events_json":"https://pith.science/api/pith-number/V4DWYQEJEF4FHSG6QMAP5PU4KZ/events.json","paper":"https://pith.science/paper/V4DWYQEJ"},"agent_actions":{"view_html":"https://pith.science/pith/V4DWYQEJEF4FHSG6QMAP5PU4KZ","download_json":"https://pith.science/pith/V4DWYQEJEF4FHSG6QMAP5PU4KZ.json","view_paper":"https://pith.science/paper/V4DWYQEJ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2607.01859&json=true","fetch_graph":"https://pith.science/api/pith-number/V4DWYQEJEF4FHSG6QMAP5PU4KZ/graph.json","fetch_events":"https://pith.science/api/pith-number/V4DWYQEJEF4FHSG6QMAP5PU4KZ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/V4DWYQEJEF4FHSG6QMAP5PU4KZ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/V4DWYQEJEF4FHSG6QMAP5PU4KZ/action/storage_attestation","attest_author":"https://pith.science/pith/V4DWYQEJEF4FHSG6QMAP5PU4KZ/action/author_attestation","sign_citation":"https://pith.science/pith/V4DWYQEJEF4FHSG6QMAP5PU4KZ/action/citation_signature","submit_replication":"https://pith.science/pith/V4DWYQEJEF4FHSG6QMAP5PU4KZ/action/replication_record"}},"created_at":"2026-07-03T01:17:31.815237+00:00","updated_at":"2026-07-03T01:17:31.815237+00:00"}