{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2026:YXRCLVYEFMT2ZYMYSC4INW4OWL","short_pith_number":"pith:YXRCLVYE","canonical_record":{"source":{"id":"2605.11599","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-12T06:26:22Z","cross_cats_sorted":[],"title_canon_sha256":"0fbb8e1eeb3329a7cf2eac350bd850b477d372102c5210d245d6cdec773163c0","abstract_canon_sha256":"63fd56cab966ff5f00f4b8321f89c673d54e08abb75401aa9e0537b7e965603c"},"schema_version":"1.0"},"canonical_sha256":"c5e225d7042b27ace19890b886db8eb2d7b623f3986c589de0d5b6d00a167b63","source":{"kind":"arxiv","id":"2605.11599","version":2},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.11599","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"arxiv_version","alias_value":"2605.11599v2","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.11599","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"pith_short_12","alias_value":"YXRCLVYEFMT2","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"pith_short_16","alias_value":"YXRCLVYEFMT2ZYMY","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"pith_short_8","alias_value":"YXRCLVYE","created_at":"2026-05-20T00:03:17Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2026:YXRCLVYEFMT2ZYMYSC4INW4OWL","target":"record","payload":{"canonical_record":{"source":{"id":"2605.11599","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-12T06:26:22Z","cross_cats_sorted":[],"title_canon_sha256":"0fbb8e1eeb3329a7cf2eac350bd850b477d372102c5210d245d6cdec773163c0","abstract_canon_sha256":"63fd56cab966ff5f00f4b8321f89c673d54e08abb75401aa9e0537b7e965603c"},"schema_version":"1.0"},"canonical_sha256":"c5e225d7042b27ace19890b886db8eb2d7b623f3986c589de0d5b6d00a167b63","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-20T00:03:17.914468Z","signature_b64":"hao9zjCkxe0cT1ullmkPk9tjBWeAmsCFmuUp2k3zNZESY4nc8EcIBYPjDdqWpSVksGf4pOOUS4Co1jkwMMlQDg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"c5e225d7042b27ace19890b886db8eb2d7b623f3986c589de0d5b6d00a167b63","last_reissued_at":"2026-05-20T00:03:17.913442Z","signature_status":"signed_v1","first_computed_at":"2026-05-20T00:03:17.913442Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2605.11599","source_version":2,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-20T00:03:17Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"djlQKKss70vKVsqZjl9p8pZKTRBpVB2jmJIERjSv7rgu2pOwSrrRiaJMG1mrofTPn7kYRs6ntjyhAPMVVFMWDg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-25T19:32:28.430820Z"},"content_sha256":"b7d37488cf875f14508b448adee3ec9c334cd9be56c3edaff9e0a7e8cf974e1e","schema_version":"1.0","event_id":"sha256:b7d37488cf875f14508b448adee3ec9c334cd9be56c3edaff9e0a7e8cf974e1e"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2026:YXRCLVYEFMT2ZYMYSC4INW4OWL","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Targeted Tests for LLM Reasoning: An Audit-Constrained Protocol","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"An audit-constrained protocol identifies genuine LLM reasoning errors from valid prompt variants while excluding artifacts, yet adaptive sampling yields no advantage over uniform sampling.","cross_cats":[],"primary_cat":"cs.LG","authors_text":"Hongmin Li","submitted_at":"2026-05-12T06:26:22Z","abstract_excerpt":"Fixed reasoning benchmarks evaluate canonical prompts, but semantically valid changes in presentation can still change model behavior. Studies of prompt variation can reveal such failures, but without audit they can mix genuine model errors with invalid perturbations, extraction artifacts, and unmatched search procedures. We propose an audit-constrained protocol for targeted reasoning evaluation. Prompt variants are generated from a finite component grammar, rendered deterministically, evaluated under a fixed query budget, and counted as model errors only after semantic and extraction audit. W"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"Across three audited slices, the protocol identifies confirmed model-error prompt keys while excluding formatting and extraction artifacts, but matched comparisons do not show that CAPS improves audited yield or unique prompt-key discovery over uniform sampling.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the semantic and extraction audit procedure reliably and consistently distinguishes genuine model reasoning errors from invalid perturbations, extraction artifacts, and unmatched search procedures without introducing its own biases or omissions.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"An audit-constrained protocol for LLM reasoning tests finds that component-adaptive prompt sampling yields no improvement over uniform sampling in identifying confirmed model errors after semantic and extraction audits.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"An audit-constrained protocol identifies genuine LLM reasoning errors from valid prompt variants while excluding artifacts, yet adaptive sampling yields no advantage over uniform sampling.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"85cd0275ed66d9212bd747b16668ef42e06ca206cc7da569df538465dec12717"},"source":{"id":"2605.11599","kind":"arxiv","version":2},"verdict":{"id":"1858ad86-25d9-4581-a166-aabbe5a91b7e","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-13T01:31:06.740966Z","strongest_claim":"Across three audited slices, the protocol identifies confirmed model-error prompt keys while excluding formatting and extraction artifacts, but matched comparisons do not show that CAPS improves audited yield or unique prompt-key discovery over uniform sampling.","one_line_summary":"An audit-constrained protocol for LLM reasoning tests finds that component-adaptive prompt sampling yields no improvement over uniform sampling in identifying confirmed model errors after semantic and extraction audits.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the semantic and extraction audit procedure reliably and consistently distinguishes genuine model reasoning errors from invalid perturbations, extraction artifacts, and unmatched search procedures without introducing its own biases or omissions.","pith_extraction_headline":"An audit-constrained protocol identifies genuine LLM reasoning errors from valid prompt variants while excluding artifacts, yet adaptive sampling yields no advantage over uniform sampling."},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.11599/integrity.json","findings":[],"available":true,"detectors_run":[{"name":"ai_meta_artifact","ran_at":"2026-05-19T11:41:09.568476Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"doi_title_agreement","ran_at":"2026-05-19T09:31:18.230533Z","status":"completed","version":"1.0.0","findings_count":0},{"name":"doi_compliance","ran_at":"2026-05-19T08:18:07.155182Z","status":"completed","version":"1.0.0","findings_count":0}],"snapshot_sha256":"598c4750098f83e152f72da8bc13bbbff4547ea30a94d7390672c5aa3780539e"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":"1858ad86-25d9-4581-a166-aabbe5a91b7e"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-20T00:03:17Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"01r449FeaqlXBfDE9EiFsV6HHMVleRs7BTL2nqgBCRScnIb1p+i6DHdSDZwh6eVG8xpZ+FoZFNeY8UNlGmMaCw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-25T19:32:28.431799Z"},"content_sha256":"14675fddbddbc05633e1298f351bee724ab76e86b0d8cfa19fb24aa2802c7da4","schema_version":"1.0","event_id":"sha256:14675fddbddbc05633e1298f351bee724ab76e86b0d8cfa19fb24aa2802c7da4"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/YXRCLVYEFMT2ZYMYSC4INW4OWL/bundle.json","state_url":"https://pith.science/pith/YXRCLVYEFMT2ZYMYSC4INW4OWL/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/YXRCLVYEFMT2ZYMYSC4INW4OWL/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-05-25T19:32:28Z","links":{"resolver":"https://pith.science/pith/YXRCLVYEFMT2ZYMYSC4INW4OWL","bundle":"https://pith.science/pith/YXRCLVYEFMT2ZYMYSC4INW4OWL/bundle.json","state":"https://pith.science/pith/YXRCLVYEFMT2ZYMYSC4INW4OWL/state.json","well_known_bundle":"https://pith.science/.well-known/pith/YXRCLVYEFMT2ZYMYSC4INW4OWL/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:YXRCLVYEFMT2ZYMYSC4INW4OWL","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"63fd56cab966ff5f00f4b8321f89c673d54e08abb75401aa9e0537b7e965603c","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-12T06:26:22Z","title_canon_sha256":"0fbb8e1eeb3329a7cf2eac350bd850b477d372102c5210d245d6cdec773163c0"},"schema_version":"1.0","source":{"id":"2605.11599","kind":"arxiv","version":2}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.11599","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"arxiv_version","alias_value":"2605.11599v2","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.11599","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"pith_short_12","alias_value":"YXRCLVYEFMT2","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"pith_short_16","alias_value":"YXRCLVYEFMT2ZYMY","created_at":"2026-05-20T00:03:17Z"},{"alias_kind":"pith_short_8","alias_value":"YXRCLVYE","created_at":"2026-05-20T00:03:17Z"}],"graph_snapshots":[{"event_id":"sha256:14675fddbddbc05633e1298f351bee724ab76e86b0d8cfa19fb24aa2802c7da4","target":"graph","created_at":"2026-05-20T00:03:17Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"Across three audited slices, the protocol identifies confirmed model-error prompt keys while excluding formatting and extraction artifacts, but matched comparisons do not show that CAPS improves audited yield or unique prompt-key discovery over uniform sampling."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That the semantic and extraction audit procedure reliably and consistently distinguishes genuine model reasoning errors from invalid perturbations, extraction artifacts, and unmatched search procedures without introducing its own biases or omissions."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"An audit-constrained protocol for LLM reasoning tests finds that component-adaptive prompt sampling yields no improvement over uniform sampling in identifying confirmed model errors after semantic and extraction audits."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"An audit-constrained protocol identifies genuine LLM reasoning errors from valid prompt variants while excluding artifacts, yet adaptive sampling yields no advantage over uniform sampling."}],"snapshot_sha256":"85cd0275ed66d9212bd747b16668ef42e06ca206cc7da569df538465dec12717"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[{"findings_count":0,"name":"ai_meta_artifact","ran_at":"2026-05-19T11:41:09.568476Z","status":"completed","version":"1.0.0"},{"findings_count":0,"name":"doi_title_agreement","ran_at":"2026-05-19T09:31:18.230533Z","status":"completed","version":"1.0.0"},{"findings_count":0,"name":"doi_compliance","ran_at":"2026-05-19T08:18:07.155182Z","status":"completed","version":"1.0.0"}],"endpoint":"/pith/2605.11599/integrity.json","findings":[],"snapshot_sha256":"598c4750098f83e152f72da8bc13bbbff4547ea30a94d7390672c5aa3780539e","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Fixed reasoning benchmarks evaluate canonical prompts, but semantically valid changes in presentation can still change model behavior. Studies of prompt variation can reveal such failures, but without audit they can mix genuine model errors with invalid perturbations, extraction artifacts, and unmatched search procedures. We propose an audit-constrained protocol for targeted reasoning evaluation. Prompt variants are generated from a finite component grammar, rendered deterministically, evaluated under a fixed query budget, and counted as model errors only after semantic and extraction audit. W","authors_text":"Hongmin Li","cross_cats":[],"headline":"An audit-constrained protocol identifies genuine LLM reasoning errors from valid prompt variants while excluding artifacts, yet adaptive sampling yields no advantage over uniform sampling.","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-12T06:26:22Z","title":"Targeted Tests for LLM Reasoning: An Audit-Constrained Protocol"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.11599","kind":"arxiv","version":2},"verdict":{"created_at":"2026-05-13T01:31:06.740966Z","id":"1858ad86-25d9-4581-a166-aabbe5a91b7e","model_set":{"reader":"grok-4.3"},"one_line_summary":"An audit-constrained protocol for LLM reasoning tests finds that component-adaptive prompt sampling yields no improvement over uniform sampling in identifying confirmed model errors after semantic and extraction audits.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"An audit-constrained protocol identifies genuine LLM reasoning errors from valid prompt variants while excluding artifacts, yet adaptive sampling yields no advantage over uniform sampling.","strongest_claim":"Across three audited slices, the protocol identifies confirmed model-error prompt keys while excluding formatting and extraction artifacts, but matched comparisons do not show that CAPS improves audited yield or unique prompt-key discovery over uniform sampling.","weakest_assumption":"That the semantic and extraction audit procedure reliably and consistently distinguishes genuine model reasoning errors from invalid perturbations, extraction artifacts, and unmatched search procedures without introducing its own biases or omissions."}},"verdict_id":"1858ad86-25d9-4581-a166-aabbe5a91b7e"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:b7d37488cf875f14508b448adee3ec9c334cd9be56c3edaff9e0a7e8cf974e1e","target":"record","created_at":"2026-05-20T00:03:17Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"63fd56cab966ff5f00f4b8321f89c673d54e08abb75401aa9e0537b7e965603c","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2026-05-12T06:26:22Z","title_canon_sha256":"0fbb8e1eeb3329a7cf2eac350bd850b477d372102c5210d245d6cdec773163c0"},"schema_version":"1.0","source":{"id":"2605.11599","kind":"arxiv","version":2}},"canonical_sha256":"c5e225d7042b27ace19890b886db8eb2d7b623f3986c589de0d5b6d00a167b63","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"c5e225d7042b27ace19890b886db8eb2d7b623f3986c589de0d5b6d00a167b63","first_computed_at":"2026-05-20T00:03:17.913442Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-20T00:03:17.913442Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"hao9zjCkxe0cT1ullmkPk9tjBWeAmsCFmuUp2k3zNZESY4nc8EcIBYPjDdqWpSVksGf4pOOUS4Co1jkwMMlQDg==","signature_status":"signed_v1","signed_at":"2026-05-20T00:03:17.914468Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.11599","source_kind":"arxiv","source_version":2}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:b7d37488cf875f14508b448adee3ec9c334cd9be56c3edaff9e0a7e8cf974e1e","sha256:14675fddbddbc05633e1298f351bee724ab76e86b0d8cfa19fb24aa2802c7da4"],"state_sha256":"e02d1cc0e2191c8043673aa567912d82e5eb0a5ef2c758b4384d7bb81ecc713a"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"tEVI+GV4IOQeYgjklSdkqIxSjUJjoYFhl7wUG+wm/0mGG3aqZSOkTg+mmLVwtjXVOI6bAotnwUhsiMFhAo+ZCA==","signed_message":"bundle_sha256_bytes","signed_at":"2026-05-25T19:32:28.435524Z","bundle_sha256":"55a8359c5eb379ee166032f942cc713b9df7a707dc7c0815a4d1b3c8531ba258"}}