{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2018:OVQPPSWNPG2S3OYY2DSKQKADDJ","short_pith_number":"pith:OVQPPSWN","canonical_record":{"source":{"id":"1810.04303","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-10-10T00:02:55Z","cross_cats_sorted":["cs.AI","cs.RO","stat.ML"],"title_canon_sha256":"1cf0c04bf78b20278a9766b449246fdfb1c325037c2a4404b75e52ae6dd9b33a","abstract_canon_sha256":"91b01edfe71cc25400a55a701061437dd9c0781163c1599cca995b92e82587a4"},"schema_version":"1.0"},"canonical_sha256":"7560f7cacd79b52dbb18d0e4a828031a751ac8c97d34c28475fc365238b98a73","source":{"kind":"arxiv","id":"1810.04303","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1810.04303","created_at":"2026-05-18T00:03:40Z"},{"alias_kind":"arxiv_version","alias_value":"1810.04303v1","created_at":"2026-05-18T00:03:40Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1810.04303","created_at":"2026-05-18T00:03:40Z"},{"alias_kind":"pith_short_12","alias_value":"OVQPPSWNPG2S","created_at":"2026-05-18T12:32:43Z"},{"alias_kind":"pith_short_16","alias_value":"OVQPPSWNPG2S3OYY","created_at":"2026-05-18T12:32:43Z"},{"alias_kind":"pith_short_8","alias_value":"OVQPPSWN","created_at":"2026-05-18T12:32:43Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2018:OVQPPSWNPG2S3OYY2DSKQKADDJ","target":"record","payload":{"canonical_record":{"source":{"id":"1810.04303","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-10-10T00:02:55Z","cross_cats_sorted":["cs.AI","cs.RO","stat.ML"],"title_canon_sha256":"1cf0c04bf78b20278a9766b449246fdfb1c325037c2a4404b75e52ae6dd9b33a","abstract_canon_sha256":"91b01edfe71cc25400a55a701061437dd9c0781163c1599cca995b92e82587a4"},"schema_version":"1.0"},"canonical_sha256":"7560f7cacd79b52dbb18d0e4a828031a751ac8c97d34c28475fc365238b98a73","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:03:40.487708Z","signature_b64":"f9wC9xq1EX7+d0aaeX7CpdLwP50zbpDHphWedrOzy87lI/59FVuXCwRUxSgLGB+OsnIJcZCTfCm0SPRXooxNBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"7560f7cacd79b52dbb18d0e4a828031a751ac8c97d34c28475fc365238b98a73","last_reissued_at":"2026-05-18T00:03:40.487271Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:03:40.487271Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1810.04303","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:03:40Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"sdk0u5TRtcDbuRDKoxMA2WjI95MtXN0WWDjRL4ry85hLOWWb4elmXqOWL9+gaIQYPZf48MT4UsRktE6hFvo9DA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-28T07:24:35.590383Z"},"content_sha256":"15bc07bfe9e92c2c67a23f5889a9a5b09d715a0cb1f5132fd1f06948081a8056","schema_version":"1.0","event_id":"sha256:15bc07bfe9e92c2c67a23f5889a9a5b09d715a0cb1f5132fd1f06948081a8056"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2018:OVQPPSWNPG2S3OYY2DSKQKADDJ","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Batch Active Preference-Based Learning of Reward Functions","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI","cs.RO","stat.ML"],"primary_cat":"cs.LG","authors_text":"Dorsa Sadigh, Erdem B{\\i}y{\\i}k","submitted_at":"2018-10-10T00:02:55Z","abstract_excerpt":"Data generation and labeling are usually an expensive part of learning for robotics. While active learning methods are commonly used to tackle the former problem, preference-based learning is a concept that attempts to solve the latter by querying users with preference questions. In this paper, we will develop a new algorithm, batch active preference-based learning, that enables efficient learning of reward functions using as few data samples as possible while still having short query generation times. We introduce several approximations to the batch active learning problem, and provide theore"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1810.04303","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:03:40Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"UqL9QQiWry2CZUQlZ4/YRGU8DfFKBqMp1fAQzM65yY/IJMtqy72dCC16XXKZQ3jHCCBcMNkznBWPT+V6EyYFBA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-05-28T07:24:35.590736Z"},"content_sha256":"be1d1aa202b41e23bb54ef48527bb12fa8f3cd945893f5b2870c4a40ba6d029f","schema_version":"1.0","event_id":"sha256:be1d1aa202b41e23bb54ef48527bb12fa8f3cd945893f5b2870c4a40ba6d029f"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/OVQPPSWNPG2S3OYY2DSKQKADDJ/bundle.json","state_url":"https://pith.science/pith/OVQPPSWNPG2S3OYY2DSKQKADDJ/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/OVQPPSWNPG2S3OYY2DSKQKADDJ/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-05-28T07:24:35Z","links":{"resolver":"https://pith.science/pith/OVQPPSWNPG2S3OYY2DSKQKADDJ","bundle":"https://pith.science/pith/OVQPPSWNPG2S3OYY2DSKQKADDJ/bundle.json","state":"https://pith.science/pith/OVQPPSWNPG2S3OYY2DSKQKADDJ/state.json","well_known_bundle":"https://pith.science/.well-known/pith/OVQPPSWNPG2S3OYY2DSKQKADDJ/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2018:OVQPPSWNPG2S3OYY2DSKQKADDJ","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"91b01edfe71cc25400a55a701061437dd9c0781163c1599cca995b92e82587a4","cross_cats_sorted":["cs.AI","cs.RO","stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-10-10T00:02:55Z","title_canon_sha256":"1cf0c04bf78b20278a9766b449246fdfb1c325037c2a4404b75e52ae6dd9b33a"},"schema_version":"1.0","source":{"id":"1810.04303","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1810.04303","created_at":"2026-05-18T00:03:40Z"},{"alias_kind":"arxiv_version","alias_value":"1810.04303v1","created_at":"2026-05-18T00:03:40Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1810.04303","created_at":"2026-05-18T00:03:40Z"},{"alias_kind":"pith_short_12","alias_value":"OVQPPSWNPG2S","created_at":"2026-05-18T12:32:43Z"},{"alias_kind":"pith_short_16","alias_value":"OVQPPSWNPG2S3OYY","created_at":"2026-05-18T12:32:43Z"},{"alias_kind":"pith_short_8","alias_value":"OVQPPSWN","created_at":"2026-05-18T12:32:43Z"}],"graph_snapshots":[{"event_id":"sha256:be1d1aa202b41e23bb54ef48527bb12fa8f3cd945893f5b2870c4a40ba6d029f","target":"graph","created_at":"2026-05-18T00:03:40Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"Data generation and labeling are usually an expensive part of learning for robotics. While active learning methods are commonly used to tackle the former problem, preference-based learning is a concept that attempts to solve the latter by querying users with preference questions. In this paper, we will develop a new algorithm, batch active preference-based learning, that enables efficient learning of reward functions using as few data samples as possible while still having short query generation times. We introduce several approximations to the batch active learning problem, and provide theore","authors_text":"Dorsa Sadigh, Erdem B{\\i}y{\\i}k","cross_cats":["cs.AI","cs.RO","stat.ML"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-10-10T00:02:55Z","title":"Batch Active Preference-Based Learning of Reward Functions"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1810.04303","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:15bc07bfe9e92c2c67a23f5889a9a5b09d715a0cb1f5132fd1f06948081a8056","target":"record","created_at":"2026-05-18T00:03:40Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"91b01edfe71cc25400a55a701061437dd9c0781163c1599cca995b92e82587a4","cross_cats_sorted":["cs.AI","cs.RO","stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-10-10T00:02:55Z","title_canon_sha256":"1cf0c04bf78b20278a9766b449246fdfb1c325037c2a4404b75e52ae6dd9b33a"},"schema_version":"1.0","source":{"id":"1810.04303","kind":"arxiv","version":1}},"canonical_sha256":"7560f7cacd79b52dbb18d0e4a828031a751ac8c97d34c28475fc365238b98a73","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"7560f7cacd79b52dbb18d0e4a828031a751ac8c97d34c28475fc365238b98a73","first_computed_at":"2026-05-18T00:03:40.487271Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T00:03:40.487271Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"f9wC9xq1EX7+d0aaeX7CpdLwP50zbpDHphWedrOzy87lI/59FVuXCwRUxSgLGB+OsnIJcZCTfCm0SPRXooxNBg==","signature_status":"signed_v1","signed_at":"2026-05-18T00:03:40.487708Z","signed_message":"canonical_sha256_bytes"},"source_id":"1810.04303","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:15bc07bfe9e92c2c67a23f5889a9a5b09d715a0cb1f5132fd1f06948081a8056","sha256:be1d1aa202b41e23bb54ef48527bb12fa8f3cd945893f5b2870c4a40ba6d029f"],"state_sha256":"b38265f236c042cd22477566083f26a5288c93f4b11ae35f37843cff0c3b5bdd"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"Cxv4q7iYXZ5rZBGFA6qjC22VaIOQj7lLdKg5bdA5RkNhnxWyHUIvL3+Lwi8iPOuGRfOQSI3ktUH4HzkA21YABQ==","signed_message":"bundle_sha256_bytes","signed_at":"2026-05-28T07:24:35.592752Z","bundle_sha256":"36c50157ec61f061a69b4bb57fff8f10f92701ff4ba90b62ee1bdd42402c03c4"}}