{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2023:5HP625FJU3ANV27V6W24ETO2D4","short_pith_number":"pith:5HP625FJ","schema_version":"1.0","canonical_sha256":"e9dfed74a9a6c0daebf5f5b5c24dda1f2a3a6685a31d755e1d7dd90bdb3bdbf5","source":{"kind":"arxiv","id":"2304.06767","version":4},"attestation_state":"computed","paper":{"title":"RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.CL","cs.CV","stat.ML"],"primary_cat":"cs.LG","authors_text":"Deepanshu Goyal, HanZe Dong, Jipeng Zhang, Kashun Shum, Rui Pan, Shizhe Diao, Tong Zhang, Wei Xiong, Winnie Chow, Yihan Zhang","submitted_at":"2023-04-13T18:22:40Z","abstract_excerpt":"Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially serious consequences. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) to address this problem, where generative models are fine-tuned with RL algorithms guided by a h"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2304.06767","kind":"arxiv","version":4},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2023-04-13T18:22:40Z","cross_cats_sorted":["cs.AI","cs.CL","cs.CV","stat.ML"],"title_canon_sha256":"cda46f3f425ff394de639b2596e3220cbda0f3272a044a773f6d4ba221f2320f","abstract_canon_sha256":"b70ba21c1f381fcfdaccbacd48d7271231305e8111352645c5a3a80aa22608c0"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:40:50.257453Z","signature_b64":"qWLEcZlVG1N4dLsiwhKuyUt++UzaRRIOZB1vawZ/in7LlfSM7ZM1zk1W33wWc1etap32/aUxplq/HNn2wXS8Dg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"e9dfed74a9a6c0daebf5f5b5c24dda1f2a3a6685a31d755e1d7dd90bdb3bdbf5","last_reissued_at":"2026-05-18T00:40:50.256710Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:40:50.256710Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.CL","cs.CV","stat.ML"],"primary_cat":"cs.LG","authors_text":"Deepanshu Goyal, HanZe Dong, Jipeng Zhang, Kashun Shum, Rui Pan, Shizhe Diao, Tong Zhang, Wei Xiong, Winnie Chow, Yihan Zhang","submitted_at":"2023-04-13T18:22:40Z","abstract_excerpt":"Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially serious consequences. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) to address this problem, where generative models are fine-tuned with RL algorithms guided by a h"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2304.06767","kind":"arxiv","version":4},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2304.06767","created_at":"2026-05-18T00:40:50.256809+00:00"},{"alias_kind":"arxiv_version","alias_value":"2304.06767v4","created_at":"2026-05-18T00:40:50.256809+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2304.06767","created_at":"2026-05-18T00:40:50.256809+00:00"},{"alias_kind":"pith_short_12","alias_value":"5HP625FJU3AN","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_16","alias_value":"5HP625FJU3ANV27V","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_8","alias_value":"5HP625FJ","created_at":"2026-05-18T12:33:33.725879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":19,"internal_anchor_count":19,"sample":[{"citing_arxiv_id":"2509.20265","citing_title":"Failure Modes of Maximum Entropy RLHF","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2401.05561","citing_title":"TrustLLM: Trustworthiness in Large Language Models","ref_index":94,"is_internal_anchor":true},{"citing_arxiv_id":"2509.08827","citing_title":"A Survey of Reinforcement Learning for Large Reasoning Models","ref_index":115,"is_internal_anchor":true},{"citing_arxiv_id":"2308.05374","citing_title":"Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2309.17400","citing_title":"Directly Fine-Tuning Diffusion Models on Differentiable Rewards","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2603.00918","citing_title":"Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12288","citing_title":"TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching","ref_index":106,"is_internal_anchor":true},{"citing_arxiv_id":"2501.13918","citing_title":"Improving Video Generation with Human Feedback","ref_index":14,"is_internal_anchor":true},{"citing_arxiv_id":"2308.08998","citing_title":"Reinforced Self-Training (ReST) for Language Modeling","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12288","citing_title":"TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching","ref_index":106,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09079","citing_title":"CauSim: Scaling Causal Reasoning with Increasingly Complex Causal Simulators","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.09433","citing_title":"Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs","ref_index":7,"is_internal_anchor":true},{"citing_arxiv_id":"2505.05470","citing_title":"Flow-GRPO: Training Flow Matching Models via Online RL","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2605.04559","citing_title":"Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.01474","citing_title":"ReMedi: Reasoner for Medical Clinical Prediction","ref_index":67,"is_internal_anchor":true},{"citing_arxiv_id":"2604.19016","citing_title":"AlignCultura: Towards Culturally Aligned Large Language Models?","ref_index":20,"is_internal_anchor":true},{"citing_arxiv_id":"2604.13305","citing_title":"Bias at the End of the Score","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2605.06987","citing_title":"Response Time Enhances Alignment with Heterogeneous Preferences","ref_index":48,"is_internal_anchor":true},{"citing_arxiv_id":"2604.05341","citing_title":"Curr-RLCER:Curriculum Reinforcement Learning For Coherence Explainable Recommendation","ref_index":3,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/5HP625FJU3ANV27V6W24ETO2D4","json":"https://pith.science/pith/5HP625FJU3ANV27V6W24ETO2D4.json","graph_json":"https://pith.science/api/pith-number/5HP625FJU3ANV27V6W24ETO2D4/graph.json","events_json":"https://pith.science/api/pith-number/5HP625FJU3ANV27V6W24ETO2D4/events.json","paper":"https://pith.science/paper/5HP625FJ"},"agent_actions":{"view_html":"https://pith.science/pith/5HP625FJU3ANV27V6W24ETO2D4","download_json":"https://pith.science/pith/5HP625FJU3ANV27V6W24ETO2D4.json","view_paper":"https://pith.science/paper/5HP625FJ","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2304.06767&json=true","fetch_graph":"https://pith.science/api/pith-number/5HP625FJU3ANV27V6W24ETO2D4/graph.json","fetch_events":"https://pith.science/api/pith-number/5HP625FJU3ANV27V6W24ETO2D4/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/5HP625FJU3ANV27V6W24ETO2D4/action/timestamp_anchor","attest_storage":"https://pith.science/pith/5HP625FJU3ANV27V6W24ETO2D4/action/storage_attestation","attest_author":"https://pith.science/pith/5HP625FJU3ANV27V6W24ETO2D4/action/author_attestation","sign_citation":"https://pith.science/pith/5HP625FJU3ANV27V6W24ETO2D4/action/citation_signature","submit_replication":"https://pith.science/pith/5HP625FJU3ANV27V6W24ETO2D4/action/replication_record"}},"created_at":"2026-05-18T00:40:50.256809+00:00","updated_at":"2026-05-18T00:40:50.256809+00:00"}