{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:YURBZWPUSUBYO4YGS5VNNET53V","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"67a08ea14571d731a88c9854a61cb504b49af35ee55601d57ca2e1395f6aba76","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2026-04-15T10:52:33Z","title_canon_sha256":"3f0226a141dcee5508df577fbe3c52d73e9c9b666ef1ded637510a61b7bb28f5"},"schema_version":"1.0","source":{"id":"2604.13717","kind":"arxiv","version":3}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2604.13717","created_at":"2026-06-10T01:10:01Z"},{"alias_kind":"arxiv_version","alias_value":"2604.13717v3","created_at":"2026-06-10T01:10:01Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2604.13717","created_at":"2026-06-10T01:10:01Z"},{"alias_kind":"pith_short_12","alias_value":"YURBZWPUSUBY","created_at":"2026-06-10T01:10:01Z"},{"alias_kind":"pith_short_16","alias_value":"YURBZWPUSUBYO4YG","created_at":"2026-06-10T01:10:01Z"},{"alias_kind":"pith_short_8","alias_value":"YURBZWPU","created_at":"2026-06-10T01:10:01Z"}],"graph_snapshots":[{"event_id":"sha256:8e10c001a0d60d13a007435f98cce09ed9e7bee2ad38fe1ffd79d2ff5480b563","target":"graph","created_at":"2026-06-10T01:10:01Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":4,"items":[{"attestation":"unclaimed","claim_id":"C1","kind":"strongest_claim","source":"verdict.strongest_claim","status":"machine_extracted","text":"Ensemble scoring and task-specific criteria injection together reach up to 85.8% accuracy, +13.5pp over baseline on RewardBench 2."},{"attestation":"unclaimed","claim_id":"C2","kind":"weakest_assumption","source":"verdict.weakest_assumption","status":"machine_extracted","text":"That the noise-control framing and observed gains on RewardBench 2 will translate to other benchmarks and production use cases without further tuning."},{"attestation":"unclaimed","claim_id":"C3","kind":"one_line_summary","source":"verdict.one_line_summary","status":"machine_extracted","text":"Ensemble scoring plus task-specific criteria injection raises LLM judge accuracy to 85.8 percent on RewardBench 2, a 13.5-point gain over baseline, with small models gaining the most."},{"attestation":"unclaimed","claim_id":"C4","kind":"headline","source":"verdict.pith_extraction.headline","status":"machine_extracted","text":"Ensemble scoring and task-specific criteria injection raise LLM judge accuracy to 85.8 percent on RewardBench 2."}],"snapshot_sha256":"ac3d7475e67c1283c0c9ed39ff50a22feac675dd987d6d8c1845f4b0ab8b6de6"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2604.13717/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Using a language model to score or rank candidate responses has become a scalable alternative to human evaluation in reinforcement learning from human feedback (RLHF) pipelines, benchmarking, and application layer evaluations. However, output reliability depends heavily on prompting and aggregation strategy. We present an empirical investigation of four drop-in techniques -- ensemble scoring, task-specific criteria injection, calibration context, and adaptive model escalation -- for improving LLM judge accuracy on RewardBench 2, with a unifying lens of noise control on the stochastic judge: en","authors_text":"Luke Markham, Ryan Lail","cross_cats":[],"headline":"Ensemble scoring and task-specific criteria injection raise LLM judge accuracy to 85.8 percent on RewardBench 2.","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2026-04-15T10:52:33Z","title":"On Cost-Effective LLM-as-a-Judge Improvement Techniques"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2604.13717","kind":"arxiv","version":3},"verdict":{"created_at":"2026-05-10T12:52:55.592811Z","id":"064de048-f44c-46e5-8b18-48cb1132d6c2","model_set":{"reader":"grok-4.3"},"one_line_summary":"Ensemble scoring plus task-specific criteria injection raises LLM judge accuracy to 85.8 percent on RewardBench 2, a 13.5-point gain over baseline, with small models gaining the most.","pipeline_version":"pith-pipeline@v0.9.0","pith_extraction_headline":"Ensemble scoring and task-specific criteria injection raise LLM judge accuracy to 85.8 percent on RewardBench 2.","strongest_claim":"Ensemble scoring and task-specific criteria injection together reach up to 85.8% accuracy, +13.5pp over baseline on RewardBench 2.","weakest_assumption":"That the noise-control framing and observed gains on RewardBench 2 will translate to other benchmarks and production use cases without further tuning."}},"verdict_id":"064de048-f44c-46e5-8b18-48cb1132d6c2"}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:76ea7a9edff6c71212fd9ef7eeab3bb6854e7f3c1558aaff792017a5bbda7f1f","target":"record","created_at":"2026-06-10T01:10:01Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"67a08ea14571d731a88c9854a61cb504b49af35ee55601d57ca2e1395f6aba76","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2026-04-15T10:52:33Z","title_canon_sha256":"3f0226a141dcee5508df577fbe3c52d73e9c9b666ef1ded637510a61b7bb28f5"},"schema_version":"1.0","source":{"id":"2604.13717","kind":"arxiv","version":3}},"canonical_sha256":"c5221cd9f49503877306976ad6927ddd5976e646f53df563ff3824189826ce73","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"c5221cd9f49503877306976ad6927ddd5976e646f53df563ff3824189826ce73","first_computed_at":"2026-06-10T01:10:01.169190Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-10T01:10:01.169190Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"HZg5b9DCv22PsGBLIlbiunzF7Zhl6dmCnj1ZpyNpwLCXpGOgOBhGFrycYTtnR/8nTKEIVRHm/VscOSUrtTVmAg==","signature_status":"signed_v1","signed_at":"2026-06-10T01:10:01.170106Z","signed_message":"canonical_sha256_bytes"},"source_id":"2604.13717","source_kind":"arxiv","source_version":3}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:76ea7a9edff6c71212fd9ef7eeab3bb6854e7f3c1558aaff792017a5bbda7f1f","sha256:8e10c001a0d60d13a007435f98cce09ed9e7bee2ad38fe1ffd79d2ff5480b563"],"state_sha256":"f59e04f3caae374b06d57f0c3e9ac9d3ef6fec38468d19e6beb6425a9c30907c"}