{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:NIIFT4C776SLOE3MYZD74EO6FD","short_pith_number":"pith:NIIFT4C7","schema_version":"1.0","canonical_sha256":"6a1059f05fffa4b7136cc647fe11de28db8f9795c95416e224d7c6778c4f50b9","source":{"kind":"arxiv","id":"2605.23970","version":1},"attestation_state":"computed","paper":{"title":"Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Abhishek Kumar, Carsten Maple, Riya Tapwal","submitted_at":"2026-05-13T07:00:16Z","abstract_excerpt":"Large language models (LLMs) are increasingly used as automatic judges for summarization and dialogue evaluation. Prior work has documented biases such as position, verbosity, and style preferences, but largely focuses on outcomes, leaving judge explanations underexplored. We instead ask whether LLM judges are cue-invariant, i.e., whether their rankings and explanations remain stable when non-evidential cues are perturbed while holding the underlying texts fixed. We introduce a suite of cue interventions (Blind, Truth, Flip, Placebo, Reveal-After) and tie-aware metrics that quantify outcome an"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2605.23970","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CL","submitted_at":"2026-05-13T07:00:16Z","cross_cats_sorted":[],"title_canon_sha256":"04c713edb880d3bf461ead4125ae42718f79eae0dde0ad1f143fb71a6c15a509","abstract_canon_sha256":"d1637c947c9ff2de692acb9497ae5d731b0a2139190127f38fab7b2348f31920"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-26T00:02:24.503164Z","signature_b64":"bE+fFEzbNTo9drilIztHhVqgDg3XeM632HDNEahWN7rRfVsHu3lPLstKQP90AjhX6SDnXFKyPDmEezlAu5kBCQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"6a1059f05fffa4b7136cc647fe11de28db8f9795c95416e224d7c6778c4f50b9","last_reissued_at":"2026-05-26T00:02:24.502387Z","signature_status":"signed_v1","first_computed_at":"2026-05-26T00:02:24.502387Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":[],"primary_cat":"cs.CL","authors_text":"Abhishek Kumar, Carsten Maple, Riya Tapwal","submitted_at":"2026-05-13T07:00:16Z","abstract_excerpt":"Large language models (LLMs) are increasingly used as automatic judges for summarization and dialogue evaluation. Prior work has documented biases such as position, verbosity, and style preferences, but largely focuses on outcomes, leaving judge explanations underexplored. We instead ask whether LLM judges are cue-invariant, i.e., whether their rankings and explanations remain stable when non-evidential cues are perturbed while holding the underlying texts fixed. We introduce a suite of cue interventions (Blind, Truth, Flip, Placebo, Reveal-After) and tie-aware metrics that quantify outcome an"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.23970","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.23970/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.23970","created_at":"2026-05-26T00:02:24.502499+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.23970v1","created_at":"2026-05-26T00:02:24.502499+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.23970","created_at":"2026-05-26T00:02:24.502499+00:00"},{"alias_kind":"pith_short_12","alias_value":"NIIFT4C776SL","created_at":"2026-05-26T00:02:24.502499+00:00"},{"alias_kind":"pith_short_16","alias_value":"NIIFT4C776SLOE3M","created_at":"2026-05-26T00:02:24.502499+00:00"},{"alias_kind":"pith_short_8","alias_value":"NIIFT4C7","created_at":"2026-05-26T00:02:24.502499+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/NIIFT4C776SLOE3MYZD74EO6FD","json":"https://pith.science/pith/NIIFT4C776SLOE3MYZD74EO6FD.json","graph_json":"https://pith.science/api/pith-number/NIIFT4C776SLOE3MYZD74EO6FD/graph.json","events_json":"https://pith.science/api/pith-number/NIIFT4C776SLOE3MYZD74EO6FD/events.json","paper":"https://pith.science/paper/NIIFT4C7"},"agent_actions":{"view_html":"https://pith.science/pith/NIIFT4C776SLOE3MYZD74EO6FD","download_json":"https://pith.science/pith/NIIFT4C776SLOE3MYZD74EO6FD.json","view_paper":"https://pith.science/paper/NIIFT4C7","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.23970&json=true","fetch_graph":"https://pith.science/api/pith-number/NIIFT4C776SLOE3MYZD74EO6FD/graph.json","fetch_events":"https://pith.science/api/pith-number/NIIFT4C776SLOE3MYZD74EO6FD/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/NIIFT4C776SLOE3MYZD74EO6FD/action/timestamp_anchor","attest_storage":"https://pith.science/pith/NIIFT4C776SLOE3MYZD74EO6FD/action/storage_attestation","attest_author":"https://pith.science/pith/NIIFT4C776SLOE3MYZD74EO6FD/action/author_attestation","sign_citation":"https://pith.science/pith/NIIFT4C776SLOE3MYZD74EO6FD/action/citation_signature","submit_replication":"https://pith.science/pith/NIIFT4C776SLOE3MYZD74EO6FD/action/replication_record"}},"created_at":"2026-05-26T00:02:24.502499+00:00","updated_at":"2026-05-26T00:02:24.502499+00:00"}