{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:B6DPV44IYK57WMI7XBMXRK4Q5M","short_pith_number":"pith:B6DPV44I","schema_version":"1.0","canonical_sha256":"0f86faf388c2bbfb311fb85978ab90eb0b1ca411120171ecf83d47afcb4f2131","source":{"kind":"arxiv","id":"2606.31876","version":1},"attestation_state":"computed","paper":{"title":"Harnessing Textual Refusal Directions for Multimodal Safety","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Massimiliano Mancini, Moreno D'Inc\\`a, Nicu Sebe","submitted_at":"2026-06-30T15:57:50Z","abstract_excerpt":"To improve safety in Large Language Models (LLMs) we can either perform post-training alignment or exploit refusal directions in the activation space. Both strategies are less feasible in Multimodal LLMs (MLLMs) as they require unsafe multimodal data, harder to collect than their unimodal counterpart. In this work, we relax this constraint and investigate whether textual refusal directions, extracted directly from the LLM backbone, generalize across modalities (i.e., image, video). Preliminary findings confirm this ability, though effectiveness is conditioned by layer selection, steering stren"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.31876","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2026-06-30T15:57:50Z","cross_cats_sorted":["cs.CV","cs.LG"],"title_canon_sha256":"aac947abef406c1b2cc424f9600b8f81962441761c891652ffe6b8545d7992ec","abstract_canon_sha256":"1841c1f528b4dc621888274ad5bb7e5d4472c12fe0c1f2161d7b1a05c18a06ed"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-07-01T01:18:18.228537Z","signature_b64":"gryqH/Dg8iV6D/bhrcte10BQGcCrygkbQJxgcdSNIh0E5bKj60qIOBBDL3TQS1ma+6ewi74ilFUuHsbDiP7ECg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"0f86faf388c2bbfb311fb85978ab90eb0b1ca411120171ecf83d47afcb4f2131","last_reissued_at":"2026-07-01T01:18:18.227997Z","signature_status":"signed_v1","first_computed_at":"2026-07-01T01:18:18.227997Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Harnessing Textual Refusal Directions for Multimodal Safety","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CV","cs.LG"],"primary_cat":"cs.AI","authors_text":"Massimiliano Mancini, Moreno D'Inc\\`a, Nicu Sebe","submitted_at":"2026-06-30T15:57:50Z","abstract_excerpt":"To improve safety in Large Language Models (LLMs) we can either perform post-training alignment or exploit refusal directions in the activation space. Both strategies are less feasible in Multimodal LLMs (MLLMs) as they require unsafe multimodal data, harder to collect than their unimodal counterpart. In this work, we relax this constraint and investigate whether textual refusal directions, extracted directly from the LLM backbone, generalize across modalities (i.e., image, video). Preliminary findings confirm this ability, though effectiveness is conditioned by layer selection, steering stren"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.31876","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.31876/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.31876","created_at":"2026-07-01T01:18:18.228061+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.31876v1","created_at":"2026-07-01T01:18:18.228061+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.31876","created_at":"2026-07-01T01:18:18.228061+00:00"},{"alias_kind":"pith_short_12","alias_value":"B6DPV44IYK57","created_at":"2026-07-01T01:18:18.228061+00:00"},{"alias_kind":"pith_short_16","alias_value":"B6DPV44IYK57WMI7","created_at":"2026-07-01T01:18:18.228061+00:00"},{"alias_kind":"pith_short_8","alias_value":"B6DPV44I","created_at":"2026-07-01T01:18:18.228061+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/B6DPV44IYK57WMI7XBMXRK4Q5M","json":"https://pith.science/pith/B6DPV44IYK57WMI7XBMXRK4Q5M.json","graph_json":"https://pith.science/api/pith-number/B6DPV44IYK57WMI7XBMXRK4Q5M/graph.json","events_json":"https://pith.science/api/pith-number/B6DPV44IYK57WMI7XBMXRK4Q5M/events.json","paper":"https://pith.science/paper/B6DPV44I"},"agent_actions":{"view_html":"https://pith.science/pith/B6DPV44IYK57WMI7XBMXRK4Q5M","download_json":"https://pith.science/pith/B6DPV44IYK57WMI7XBMXRK4Q5M.json","view_paper":"https://pith.science/paper/B6DPV44I","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.31876&json=true","fetch_graph":"https://pith.science/api/pith-number/B6DPV44IYK57WMI7XBMXRK4Q5M/graph.json","fetch_events":"https://pith.science/api/pith-number/B6DPV44IYK57WMI7XBMXRK4Q5M/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/B6DPV44IYK57WMI7XBMXRK4Q5M/action/timestamp_anchor","attest_storage":"https://pith.science/pith/B6DPV44IYK57WMI7XBMXRK4Q5M/action/storage_attestation","attest_author":"https://pith.science/pith/B6DPV44IYK57WMI7XBMXRK4Q5M/action/author_attestation","sign_citation":"https://pith.science/pith/B6DPV44IYK57WMI7XBMXRK4Q5M/action/citation_signature","submit_replication":"https://pith.science/pith/B6DPV44IYK57WMI7XBMXRK4Q5M/action/replication_record"}},"created_at":"2026-07-01T01:18:18.228061+00:00","updated_at":"2026-07-01T01:18:18.228061+00:00"}