{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:7JC4UHETZJHFPI7KRA4CNM6X4A","short_pith_number":"pith:7JC4UHET","schema_version":"1.0","canonical_sha256":"fa45ca1c93ca4e57a3ea883826b3d7e0365d95a085ec7a978f3ae1fe23aa6a2f","source":{"kind":"arxiv","id":"2606.07996","version":1},"attestation_state":"computed","paper":{"title":"MC-PDD: Masked Corpus-Level Pretraining Data Detection for Black-Box Large Language Models","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.CL","authors_text":"Binkai Ou, Derek F. Wong, Kaixin Lan, Lidia S. Chao, Mu You, Tao Fang","submitted_at":"2026-06-06T06:27:54Z","abstract_excerpt":"Pretraining is fundamental to the development of Large Language Models (LLMs), yet the opacity of pretraining data complicates model analysis and raises ethical, legal, and fairness concerns. Detecting whether specific datasets were used during pretraining is, therefore, critical. Existing state-of-the-art methods typically rely on access to model probability distributions, making them unsuitable for closed-source LLMs that provide only input-output interfaces. To address this limitation, we introduce Masked Corpus-level Pretraining Data Detection (MC-PDD), a novel method inspired by the maske"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2606.07996","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","primary_cat":"cs.CL","submitted_at":"2026-06-06T06:27:54Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"37b109bdab4f7a421235dc199045b812187455d4f2aab82525aff9a537a82b92","abstract_canon_sha256":"d540930f8342571ef443eaba397762d3d8c31ac3648b789642c7fb77de0fe92c"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-06-09T01:05:22.011122Z","signature_b64":"PFdCel+cA85IMMTyGlBlueploo1ZfUKPoh7oHnnAdN2sOE2GsElkK8hGmBnTwfM2HpaLHNsYgRntieAGbmnaDg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"fa45ca1c93ca4e57a3ea883826b3d7e0365d95a085ec7a978f3ae1fe23aa6a2f","last_reissued_at":"2026-06-09T01:05:22.010411Z","signature_status":"signed_v1","first_computed_at":"2026-06-09T01:05:22.010411Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"MC-PDD: Masked Corpus-Level Pretraining Data Detection for Black-Box Large Language Models","license":"http://creativecommons.org/licenses/by-nc-nd/4.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.CL","authors_text":"Binkai Ou, Derek F. Wong, Kaixin Lan, Lidia S. Chao, Mu You, Tao Fang","submitted_at":"2026-06-06T06:27:54Z","abstract_excerpt":"Pretraining is fundamental to the development of Large Language Models (LLMs), yet the opacity of pretraining data complicates model analysis and raises ethical, legal, and fairness concerns. Detecting whether specific datasets were used during pretraining is, therefore, critical. Existing state-of-the-art methods typically rely on access to model probability distributions, making them unsuitable for closed-source LLMs that provide only input-output interfaces. To address this limitation, we introduce Masked Corpus-level Pretraining Data Detection (MC-PDD), a novel method inspired by the maske"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.07996","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2606.07996/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2606.07996","created_at":"2026-06-09T01:05:22.010510+00:00"},{"alias_kind":"arxiv_version","alias_value":"2606.07996v1","created_at":"2026-06-09T01:05:22.010510+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.07996","created_at":"2026-06-09T01:05:22.010510+00:00"},{"alias_kind":"pith_short_12","alias_value":"7JC4UHETZJHF","created_at":"2026-06-09T01:05:22.010510+00:00"},{"alias_kind":"pith_short_16","alias_value":"7JC4UHETZJHFPI7K","created_at":"2026-06-09T01:05:22.010510+00:00"},{"alias_kind":"pith_short_8","alias_value":"7JC4UHET","created_at":"2026-06-09T01:05:22.010510+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/7JC4UHETZJHFPI7KRA4CNM6X4A","json":"https://pith.science/pith/7JC4UHETZJHFPI7KRA4CNM6X4A.json","graph_json":"https://pith.science/api/pith-number/7JC4UHETZJHFPI7KRA4CNM6X4A/graph.json","events_json":"https://pith.science/api/pith-number/7JC4UHETZJHFPI7KRA4CNM6X4A/events.json","paper":"https://pith.science/paper/7JC4UHET"},"agent_actions":{"view_html":"https://pith.science/pith/7JC4UHETZJHFPI7KRA4CNM6X4A","download_json":"https://pith.science/pith/7JC4UHETZJHFPI7KRA4CNM6X4A.json","view_paper":"https://pith.science/paper/7JC4UHET","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2606.07996&json=true","fetch_graph":"https://pith.science/api/pith-number/7JC4UHETZJHFPI7KRA4CNM6X4A/graph.json","fetch_events":"https://pith.science/api/pith-number/7JC4UHETZJHFPI7KRA4CNM6X4A/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/7JC4UHETZJHFPI7KRA4CNM6X4A/action/timestamp_anchor","attest_storage":"https://pith.science/pith/7JC4UHETZJHFPI7KRA4CNM6X4A/action/storage_attestation","attest_author":"https://pith.science/pith/7JC4UHETZJHFPI7KRA4CNM6X4A/action/author_attestation","sign_citation":"https://pith.science/pith/7JC4UHETZJHFPI7KRA4CNM6X4A/action/citation_signature","submit_replication":"https://pith.science/pith/7JC4UHETZJHFPI7KRA4CNM6X4A/action/replication_record"}},"created_at":"2026-06-09T01:05:22.010510+00:00","updated_at":"2026-06-09T01:05:22.010510+00:00"}