{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:FIZOBXEVWLXU4KHHZGRHARZP66","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"e98837c0cf253530bca916664379c778996cd6d47736685d6b887fa0cc3e35b7","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-10T06:59:36Z","title_canon_sha256":"8668a9a75787ae8640ca2075c1c5a784cd2192c1c7de6e4d67579d5135c2c962"},"schema_version":"1.0","source":{"id":"2606.12479","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2606.12479","created_at":"2026-06-12T00:07:51Z"},{"alias_kind":"arxiv_version","alias_value":"2606.12479v1","created_at":"2026-06-12T00:07:51Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2606.12479","created_at":"2026-06-12T00:07:51Z"},{"alias_kind":"pith_short_12","alias_value":"FIZOBXEVWLXU","created_at":"2026-06-12T00:07:51Z"},{"alias_kind":"pith_short_16","alias_value":"FIZOBXEVWLXU4KHH","created_at":"2026-06-12T00:07:51Z"},{"alias_kind":"pith_short_8","alias_value":"FIZOBXEV","created_at":"2026-06-12T00:07:51Z"}],"graph_snapshots":[{"event_id":"sha256:4f77d7517362bcb1f9c276eb27e2e520976df1f1cd9bb7597c57bc26e76f70ae","target":"graph","created_at":"2026-06-12T00:07:51Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2606.12479/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Large language model (LLM) routing has emerged as an effective paradigm for leveraging the complementary strengths of multiple LLMs through dynamic model and reasoning-strategy selection. Recent reinforcement learning (RL)-based routing methods further improve routing quality by optimizing routing policies from interaction feedback. However, they still struggle to provide informative and comparable learning signals under heterogeneous tasks with varying difficulty. In practice, multiple objectives (e.g., correctness, format behavior) are aggregated into a single scalar reward, leading to ambig","authors_text":"Bo Zheng, Fei Wu, Feng Wei, Hanwen Tong, Qihang Yu, Shengyu Zhang, Zemin Liu, Zhengqi Zhang","cross_cats":["cs.AI"],"headline":"","license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-10T06:59:36Z","title":"ReCal: Reward Calibration for RL-based LLM Routing"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2606.12479","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:177ca46da6486ac01d1950600321811deb8b3fc02c7d5d452a72c7ff136a3cf4","target":"record","created_at":"2026-06-12T00:07:51Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"e98837c0cf253530bca916664379c778996cd6d47736685d6b887fa0cc3e35b7","cross_cats_sorted":["cs.AI"],"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.LG","submitted_at":"2026-06-10T06:59:36Z","title_canon_sha256":"8668a9a75787ae8640ca2075c1c5a784cd2192c1c7de6e4d67579d5135c2c962"},"schema_version":"1.0","source":{"id":"2606.12479","kind":"arxiv","version":1}},"canonical_sha256":"2a32e0dc95b2ef4e28e7c9a270472ff78d4210f77bd2ddd7ebaaf1a743ee69f2","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"2a32e0dc95b2ef4e28e7c9a270472ff78d4210f77bd2ddd7ebaaf1a743ee69f2","first_computed_at":"2026-06-12T00:07:51.734758Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-06-12T00:07:51.734758Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"MoEUpycBYLeF+2DO1E23rvly6Pf3/OpLQv/57DaRoGGMjw5UapZTTjcV0NqQppErvGGIHV8iX3pwB8Yeez/UBA==","signature_status":"signed_v1","signed_at":"2026-06-12T00:07:51.735179Z","signed_message":"canonical_sha256_bytes"},"source_id":"2606.12479","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:177ca46da6486ac01d1950600321811deb8b3fc02c7d5d452a72c7ff136a3cf4","sha256:4f77d7517362bcb1f9c276eb27e2e520976df1f1cd9bb7597c57bc26e76f70ae"],"state_sha256":"865a44c31178cef7d95bc5436109d0ca0baa1f9d9c4c0da02dd1781465d8fcdb"}