{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2026:3W4NRXBBQYDALFZEXJ7M4W3ELF","short_pith_number":"pith:3W4NRXBB","canonical_record":{"source":{"id":"2605.27846","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2026-05-27T02:04:00Z","cross_cats_sorted":[],"title_canon_sha256":"f8127510d0366adec4b585060cbaa5921866630f0e66390efa5379557b781add","abstract_canon_sha256":"9d7c852bebf3ff4dfff12a47772bda5619009a65f4a0e5682fb59e88f2b7d383"},"schema_version":"1.0"},"canonical_sha256":"ddb8d8dc218606059724ba7ece5b645964446b58956dfaa633c041a7dcbfbae8","source":{"kind":"arxiv","id":"2605.27846","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.27846","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"arxiv_version","alias_value":"2605.27846v1","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.27846","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"pith_short_12","alias_value":"3W4NRXBBQYDA","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"pith_short_16","alias_value":"3W4NRXBBQYDALFZE","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"pith_short_8","alias_value":"3W4NRXBB","created_at":"2026-05-28T01:04:50Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2026:3W4NRXBBQYDALFZEXJ7M4W3ELF","target":"record","payload":{"canonical_record":{"source":{"id":"2605.27846","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2026-05-27T02:04:00Z","cross_cats_sorted":[],"title_canon_sha256":"f8127510d0366adec4b585060cbaa5921866630f0e66390efa5379557b781add","abstract_canon_sha256":"9d7c852bebf3ff4dfff12a47772bda5619009a65f4a0e5682fb59e88f2b7d383"},"schema_version":"1.0"},"canonical_sha256":"ddb8d8dc218606059724ba7ece5b645964446b58956dfaa633c041a7dcbfbae8","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-28T01:04:50.307261Z","signature_b64":"7Hfc9tOBTEP+hdq9NXWqIRfHZpbdZNYQ0ebAr53AIX/HbTfPX47MnGJhMW/GBK4W1Supq2PETeKhZyvUI4AGAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"ddb8d8dc218606059724ba7ece5b645964446b58956dfaa633c041a7dcbfbae8","last_reissued_at":"2026-05-28T01:04:50.306873Z","signature_status":"signed_v1","first_computed_at":"2026-05-28T01:04:50.306873Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"2605.27846","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-28T01:04:50Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"RDSrzlK0BT8bswaCsGui5/i1D3LZbsb+2Vmsu2LcGCfI76lAKLvEe7fnfPmscb+VSWqeWJMOz2Zqj43A1sgHAw==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-04T21:45:46.669589Z"},"content_sha256":"6100ec5facf484bfd660e6cc2693a6cc9cd547fe8b6c3a289154125fb4f450e6","schema_version":"1.0","event_id":"sha256:6100ec5facf484bfd660e6cc2693a6cc9cd547fe8b6c3a289154125fb4f450e6"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2026:3W4NRXBBQYDALFZEXJ7M4W3ELF","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Bo Yuan, Gen Li, Jianwei Lv, Junfeng Wang, Luning Wang, Siyu Chen, Xiandong Li, Yujin Wang, Yunhao Qiao, Yunsheng Zeng, Yuwei Miao","submitted_at":"2026-05-27T02:04:00Z","abstract_excerpt":"Large Reasoning Models are typically trained via reinforcement learning from verifiable rewards (RLVR). However, existing approaches adopt fixed weights for positive and negative samples, and the conclusions hardly generalize to open-ended question answering (QA). In this paper, we systematically investigate the roles of positive and negative samples in reinforcement learning for open-ended QA. We propose a reward-mean-based strategy for distinguishing positive from negative samples, and observe that negative samples predominantly govern response diversity and the performance upper bound, wher"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.27846","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"integrity":{"clean":true,"summary":{"advisory":0,"critical":0,"by_detector":{},"informational":0},"endpoint":"/pith/2605.27846/integrity.json","findings":[],"available":true,"detectors_run":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938"},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-28T01:04:50Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"k/mKzvkPwNRMAkFy0rsQI13zeborNHfaJf719X0RslNWMeE56LCP9/tmb8U+Om4+ImFwctFsnzoFVWCNWedUAQ==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-04T21:45:46.669959Z"},"content_sha256":"6e66e7178be286fd802f4e2474d263574413a8e518f5d6c883157eb39fbb1e1e","schema_version":"1.0","event_id":"sha256:6e66e7178be286fd802f4e2474d263574413a8e518f5d6c883157eb39fbb1e1e"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/3W4NRXBBQYDALFZEXJ7M4W3ELF/bundle.json","state_url":"https://pith.science/pith/3W4NRXBBQYDALFZEXJ7M4W3ELF/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/3W4NRXBBQYDALFZEXJ7M4W3ELF/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-04T21:45:46Z","links":{"resolver":"https://pith.science/pith/3W4NRXBBQYDALFZEXJ7M4W3ELF","bundle":"https://pith.science/pith/3W4NRXBBQYDALFZEXJ7M4W3ELF/bundle.json","state":"https://pith.science/pith/3W4NRXBBQYDALFZEXJ7M4W3ELF/state.json","well_known_bundle":"https://pith.science/.well-known/pith/3W4NRXBBQYDALFZEXJ7M4W3ELF/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2026:3W4NRXBBQYDALFZEXJ7M4W3ELF","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"9d7c852bebf3ff4dfff12a47772bda5619009a65f4a0e5682fb59e88f2b7d383","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2026-05-27T02:04:00Z","title_canon_sha256":"f8127510d0366adec4b585060cbaa5921866630f0e66390efa5379557b781add"},"schema_version":"1.0","source":{"id":"2605.27846","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"2605.27846","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"arxiv_version","alias_value":"2605.27846v1","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2605.27846","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"pith_short_12","alias_value":"3W4NRXBBQYDA","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"pith_short_16","alias_value":"3W4NRXBBQYDALFZE","created_at":"2026-05-28T01:04:50Z"},{"alias_kind":"pith_short_8","alias_value":"3W4NRXBB","created_at":"2026-05-28T01:04:50Z"}],"graph_snapshots":[{"event_id":"sha256:6e66e7178be286fd802f4e2474d263574413a8e518f5d6c883157eb39fbb1e1e","target":"graph","created_at":"2026-05-28T01:04:50Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"integrity":{"available":true,"clean":true,"detectors_run":[],"endpoint":"/pith/2605.27846/integrity.json","findings":[],"snapshot_sha256":"c28c3603d3b5d939e8dc4c7e95fa8dfce3d595e45f758748cecf8e644a296938","summary":{"advisory":0,"by_detector":{},"critical":0,"informational":0}},"paper":{"abstract_excerpt":"Large Reasoning Models are typically trained via reinforcement learning from verifiable rewards (RLVR). However, existing approaches adopt fixed weights for positive and negative samples, and the conclusions hardly generalize to open-ended question answering (QA). In this paper, we systematically investigate the roles of positive and negative samples in reinforcement learning for open-ended QA. We propose a reward-mean-based strategy for distinguishing positive from negative samples, and observe that negative samples predominantly govern response diversity and the performance upper bound, wher","authors_text":"Bo Yuan, Gen Li, Jianwei Lv, Junfeng Wang, Luning Wang, Siyu Chen, Xiandong Li, Yujin Wang, Yunhao Qiao, Yunsheng Zeng, Yuwei Miao","cross_cats":[],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2026-05-27T02:04:00Z","title":"EAPO: Entropy-Driven Adaptive Positive-Negative Sample Weighting for Policy Optimization in Open-Ended QA"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2605.27846","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:6100ec5facf484bfd660e6cc2693a6cc9cd547fe8b6c3a289154125fb4f450e6","target":"record","created_at":"2026-05-28T01:04:50Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"9d7c852bebf3ff4dfff12a47772bda5619009a65f4a0e5682fb59e88f2b7d383","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2026-05-27T02:04:00Z","title_canon_sha256":"f8127510d0366adec4b585060cbaa5921866630f0e66390efa5379557b781add"},"schema_version":"1.0","source":{"id":"2605.27846","kind":"arxiv","version":1}},"canonical_sha256":"ddb8d8dc218606059724ba7ece5b645964446b58956dfaa633c041a7dcbfbae8","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"ddb8d8dc218606059724ba7ece5b645964446b58956dfaa633c041a7dcbfbae8","first_computed_at":"2026-05-28T01:04:50.306873Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-28T01:04:50.306873Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"7Hfc9tOBTEP+hdq9NXWqIRfHZpbdZNYQ0ebAr53AIX/HbTfPX47MnGJhMW/GBK4W1Supq2PETeKhZyvUI4AGAA==","signature_status":"signed_v1","signed_at":"2026-05-28T01:04:50.307261Z","signed_message":"canonical_sha256_bytes"},"source_id":"2605.27846","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:6100ec5facf484bfd660e6cc2693a6cc9cd547fe8b6c3a289154125fb4f450e6","sha256:6e66e7178be286fd802f4e2474d263574413a8e518f5d6c883157eb39fbb1e1e"],"state_sha256":"c19fb6f8c718bc2ea6d6db48b3e67a8a570d6516683d8cbba941ef4487a7c8e2"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"68pnxDwlO3oSPeKCh19kFthyXrzgAorjiGtRdKMyPlDxZ1SgOY1QRa+pCFnkqKKSb3hhmHh8HaeOsS8dxTi9Dg==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-04T21:45:46.672020Z","bundle_sha256":"56befe26ec50732b039b44d9412bf2b09a65f386f6b1d260f15574079f4d2bec"}}