{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:4KGNETC5YQDJVMB5XYYOHOKFM7","short_pith_number":"pith:4KGNETC5","schema_version":"1.0","canonical_sha256":"e28cd24c5dc4069ab03dbe30e3b94567c7d1fd383ec9183109ae3aafd16410f3","source":{"kind":"arxiv","id":"2502.12119","version":4},"attestation_state":"computed","paper":{"title":"PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.CL"],"primary_cat":"cs.CV","authors_text":"Aniri, Artur Hecker, Danqi Yan, Hinrich Schuetze, Jinhe Bi, Mang Ye, Sikuan Yan, Volker Tresp, Wenke Huang, Xiaowen Ma, Xun Xiao, Yifan Wang, Yunpu Ma, Zengjie Jin","submitted_at":"2025-02-17T18:43:41Z","abstract_excerpt":"Visual instruction tuning adapts pre-trained Multimodal Large Language Models (MLLMs) to follow human instructions for real-world applications. However, the rapid growth of these datasets introduces significant redundancy, leading to increased computational costs. Existing methods for selecting instruction data aim to prune this redundancy, but predominantly rely on computationally demanding techniques such as proxy-based inference or training-based metrics. Consequently, the substantial computational costs incurred by these selection processes often exacerbate the very efficiency bottlenecks "},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2502.12119","kind":"arxiv","version":4},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2025-02-17T18:43:41Z","cross_cats_sorted":["cs.AI","cs.CL"],"title_canon_sha256":"afce0decb259b459b87746e9b155a3143905dd07a329ead08758e9151fd3ea66","abstract_canon_sha256":"17dae95bde8fb207e7cbbbd095fe0d3978b653ea0703b202614c7b205e82e915"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-01T01:03:39.615630Z","signature_b64":"UOU0zj+aqL9QyxjBWHpbxVrw/TwIxq2sz+wmTv5bHbp1BIVBwpJp+Mlhch3fE+Kq8OCt1cKkthVHaACBeY0wBA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"e28cd24c5dc4069ab03dbe30e3b94567c7d1fd383ec9183109ae3aafd16410f3","last_reissued_at":"2026-06-01T01:03:39.614807Z","signature_status":"signed_v1","first_computed_at":"2026-06-01T01:03:39.614807Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.CL"],"primary_cat":"cs.CV","authors_text":"Aniri, Artur Hecker, Danqi Yan, Hinrich Schuetze, Jinhe Bi, Mang Ye, Sikuan Yan, Volker Tresp, Wenke Huang, Xiaowen Ma, Xun Xiao, Yifan Wang, Yunpu Ma, Zengjie Jin","submitted_at":"2025-02-17T18:43:41Z","abstract_excerpt":"Visual instruction tuning adapts pre-trained Multimodal Large Language Models (MLLMs) to follow human instructions for real-world applications. However, the rapid growth of these datasets introduces significant redundancy, leading to increased computational costs. Existing methods for selecting instruction data aim to prune this redundancy, but predominantly rely on computationally demanding techniques such as proxy-based inference or training-based metrics. Consequently, the substantial computational costs incurred by these selection processes often exacerbate the very efficiency bottlenecks "},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2502.12119","kind":"arxiv","version":4},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2502.12119/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2502.12119","created_at":"2026-06-01T01:03:39.614924+00:00"},{"alias_kind":"arxiv_version","alias_value":"2502.12119v4","created_at":"2026-06-01T01:03:39.614924+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2502.12119","created_at":"2026-06-01T01:03:39.614924+00:00"},{"alias_kind":"pith_short_12","alias_value":"4KGNETC5YQDJ","created_at":"2026-06-01T01:03:39.614924+00:00"},{"alias_kind":"pith_short_16","alias_value":"4KGNETC5YQDJVMB5","created_at":"2026-06-01T01:03:39.614924+00:00"},{"alias_kind":"pith_short_8","alias_value":"4KGNETC5","created_at":"2026-06-01T01:03:39.614924+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":6,"internal_anchor_count":6,"sample":[{"citing_arxiv_id":"2601.21692","citing_title":"TCAP: Tri-Component Attention Profiling for Unsupervised Backdoor Detection in MLLM Fine-Tuning","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2412.04300","citing_title":"T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts","ref_index":4,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20682","citing_title":"IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17898","citing_title":"ReTrack: Evidence-Driven Dual-Stream Directional Anchor Calibration Network for Composed Video Retrieval","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18051","citing_title":"INTENT: Invariance and Discrimination-aware Noise Mitigation for Robust Composed Image Retrieval","ref_index":93,"is_internal_anchor":true},{"citing_arxiv_id":"2604.18037","citing_title":"HABIT: Chrono-Synergia Robust Progressive Learning Framework for Composed Image Retrieval","ref_index":104,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/4KGNETC5YQDJVMB5XYYOHOKFM7","json":"https://pith.science/pith/4KGNETC5YQDJVMB5XYYOHOKFM7.json","graph_json":"https://pith.science/api/pith-number/4KGNETC5YQDJVMB5XYYOHOKFM7/graph.json","events_json":"https://pith.science/api/pith-number/4KGNETC5YQDJVMB5XYYOHOKFM7/events.json","paper":"https://pith.science/paper/4KGNETC5"},"agent_actions":{"view_html":"https://pith.science/pith/4KGNETC5YQDJVMB5XYYOHOKFM7","download_json":"https://pith.science/pith/4KGNETC5YQDJVMB5XYYOHOKFM7.json","view_paper":"https://pith.science/paper/4KGNETC5","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2502.12119&json=true","fetch_graph":"https://pith.science/api/pith-number/4KGNETC5YQDJVMB5XYYOHOKFM7/graph.json","fetch_events":"https://pith.science/api/pith-number/4KGNETC5YQDJVMB5XYYOHOKFM7/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/4KGNETC5YQDJVMB5XYYOHOKFM7/action/timestamp_anchor","attest_storage":"https://pith.science/pith/4KGNETC5YQDJVMB5XYYOHOKFM7/action/storage_attestation","attest_author":"https://pith.science/pith/4KGNETC5YQDJVMB5XYYOHOKFM7/action/author_attestation","sign_citation":"https://pith.science/pith/4KGNETC5YQDJVMB5XYYOHOKFM7/action/citation_signature","submit_replication":"https://pith.science/pith/4KGNETC5YQDJVMB5XYYOHOKFM7/action/replication_record"}},"created_at":"2026-06-01T01:03:39.614924+00:00","updated_at":"2026-06-01T01:03:39.614924+00:00"}