{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2026:LFHXT7SDAKAV62UOXQYQ4XBFOF","short_pith_number":"pith:LFHXT7SD","schema_version":"1.0","canonical_sha256":"594f79fe4302815f6a8ebc310e5c257150d1f4823be94dcbbad9794a4b625074","source":{"kind":"arxiv","id":"2605.13155","version":1},"attestation_state":"computed","paper":{"title":"Pareto-Guided Optimal Transport for Multi-Reward Alignment","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"PG-OT builds prompt-specific Pareto frontiers and applies distribution-aware optimal transport to improve multi-reward alignment while introducing JDR and JCR metrics to measure synergy and hacking.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Bing Su, Guiwei Zhang, Ji-Rong Wen, Mohan Zhou, Tianyu Zhang, Wenyi Mo, Yalong Bai, Ying Ba","submitted_at":"2026-05-13T08:19:48Z","abstract_excerpt":"Text-to-image generation models have achieved remarkable progress in preference optimization, yet achieving robust alignment across diverse reward models remains a significant challenge. Existing multi-reward fusion approaches rely on weighted summation, which is costly to tune and insufficient for balancing conflicting objectives. More critically, optimization with reward models is highly susceptible to reward hacking, where reward scores increase while the perceived quality of generated images deteriorates. We demonstrate that optimizing against a unified global target under heterogeneous re"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"2605.13155","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2026-05-13T08:19:48Z","cross_cats_sorted":[],"title_canon_sha256":"5a5506361d91dc6f897e4f2fb9d72678516c4105ca922e9092d83b66a7b4dd06","abstract_canon_sha256":"09a100b4be289c28b6f99800e16e9cc786c7102764f4113fccb3eabc585c2a7d"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T03:08:57.040085Z","signature_b64":"cJsJamFIf3a5W9vrhebVtPzjjrMx3qhl5o7TVw0Yy2bB/pKQqx1gF6crcAsUUxuH3MNCXg71c92UaE7kTCA4Dw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"594f79fe4302815f6a8ebc310e5c257150d1f4823be94dcbbad9794a4b625074","last_reissued_at":"2026-05-18T03:08:57.039355Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T03:08:57.039355Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Pareto-Guided Optimal Transport for Multi-Reward Alignment","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"PG-OT builds prompt-specific Pareto frontiers and applies distribution-aware optimal transport to improve multi-reward alignment while introducing JDR and JCR metrics to measure synergy and hacking.","cross_cats":[],"primary_cat":"cs.CV","authors_text":"Bing Su, Guiwei Zhang, Ji-Rong Wen, Mohan Zhou, Tianyu Zhang, Wenyi Mo, Yalong Bai, Ying Ba","submitted_at":"2026-05-13T08:19:48Z","abstract_excerpt":"Text-to-image generation models have achieved remarkable progress in preference optimization, yet achieving robust alignment across diverse reward models remains a significant challenge. Existing multi-reward fusion approaches rely on weighted summation, which is costly to tune and insufficient for balancing conflicting objectives. More critically, optimization with reward models is highly susceptible to reward hacking, where reward scores increase while the perceived quality of generated images deteriorates. We demonstrate that optimizing against a unified global target under heterogeneous re"},"claims":{"count":3,"items":[{"kind":"strongest_claim","text":"Experimental results show that our approach outperforms strong baselines with an 11% gain in JDR and achieves a near 80% win rate in human evaluations.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That a prompt-specific Pareto frontier can be constructed reliably from the available reward models and that mapping samples to it via optimal transport will consistently reduce reward hacking without introducing new instabilities or excessive compute cost.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"PG-OT builds prompt-specific Pareto frontiers and applies distribution-aware optimal transport to improve multi-reward alignment while introducing JDR and JCR metrics to measure synergy and hacking.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"}],"snapshot_sha256":"9bf17742f3ef89d6f81b1f670279ae4054f2b4c4f5727094bf4a23568b57d019"},"source":{"id":"2605.13155","kind":"arxiv","version":1},"verdict":{"id":"aba980bf-2d5b-4f30-90b2-335ccd4350c4","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-14T19:19:39.897493Z","strongest_claim":"Experimental results show that our approach outperforms strong baselines with an 11% gain in JDR and achieves a near 80% win rate in human evaluations.","one_line_summary":"PG-OT builds prompt-specific Pareto frontiers and applies distribution-aware optimal transport to improve multi-reward alignment while introducing JDR and JCR metrics to measure synergy and hacking.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That a prompt-specific Pareto frontier can be constructed reliably from the available reward models and that mapping samples to it via optimal transport will consistently reduce reward hacking without introducing new instabilities or excessive compute cost.","pith_extraction_headline":""},"references":{"count":49,"sample":[{"doi":"","year":null,"title":"Scaling Learning Algorithms Towards","work_id":"bb2761cc-98d0-411b-92f6-803773d64460","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"and Osindero, Simon and Teh, Yee Whye , journal =","work_id":"0a5921e3-ac4e-46f1-85ae-866119a87be0","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2016,"title":"Deep learning , author=. 2016 , publisher=","work_id":"cf0899e0-53ee-4591-aae4-f38fa5ac12ad","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2024,"title":"ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization , booktitle =","work_id":"0765d92a-1e82-4bb9-90e1-4b21d0a95fc7","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"10.1109/cvpr52733.2024.00763","year":2024,"title":"URL https://doi.org/10.1109/CVPR52733","work_id":"7efbc2dd-b0f2-4f71-bb1c-d2fcf110d805","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":49,"snapshot_sha256":"eec9b6fd7f7da74307fa33bd0f55866d4196c7e51e282b48436227ea5e469cd8","internal_anchors":2},"formal_canon":{"evidence_count":2,"snapshot_sha256":"8db0fae5a71168a83edcd2ee8ba521f02847e95c9d8743c6182f507d697793e4"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2605.13155","created_at":"2026-05-18T03:08:57.039488+00:00"},{"alias_kind":"arxiv_version","alias_value":"2605.13155v1","created_at":"2026-05-18T03:08:57.039488+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.13155","created_at":"2026-05-18T03:08:57.039488+00:00"},{"alias_kind":"pith_short_12","alias_value":"LFHXT7SDAKAV","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_16","alias_value":"LFHXT7SDAKAV62UO","created_at":"2026-05-18T12:33:37.589309+00:00"},{"alias_kind":"pith_short_8","alias_value":"LFHXT7SD","created_at":"2026-05-18T12:33:37.589309+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/LFHXT7SDAKAV62UOXQYQ4XBFOF","json":"https://pith.science/pith/LFHXT7SDAKAV62UOXQYQ4XBFOF.json","graph_json":"https://pith.science/api/pith-number/LFHXT7SDAKAV62UOXQYQ4XBFOF/graph.json","events_json":"https://pith.science/api/pith-number/LFHXT7SDAKAV62UOXQYQ4XBFOF/events.json","paper":"https://pith.science/paper/LFHXT7SD"},"agent_actions":{"view_html":"https://pith.science/pith/LFHXT7SDAKAV62UOXQYQ4XBFOF","download_json":"https://pith.science/pith/LFHXT7SDAKAV62UOXQYQ4XBFOF.json","view_paper":"https://pith.science/paper/LFHXT7SD","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2605.13155&json=true","fetch_graph":"https://pith.science/api/pith-number/LFHXT7SDAKAV62UOXQYQ4XBFOF/graph.json","fetch_events":"https://pith.science/api/pith-number/LFHXT7SDAKAV62UOXQYQ4XBFOF/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/LFHXT7SDAKAV62UOXQYQ4XBFOF/action/timestamp_anchor","attest_storage":"https://pith.science/pith/LFHXT7SDAKAV62UOXQYQ4XBFOF/action/storage_attestation","attest_author":"https://pith.science/pith/LFHXT7SDAKAV62UOXQYQ4XBFOF/action/author_attestation","sign_citation":"https://pith.science/pith/LFHXT7SDAKAV62UOXQYQ4XBFOF/action/citation_signature","submit_replication":"https://pith.science/pith/LFHXT7SDAKAV62UOXQYQ4XBFOF/action/replication_record"}},"created_at":"2026-05-18T03:08:57.039488+00:00","updated_at":"2026-05-18T03:08:57.039488+00:00"}