{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2017:E44ACQ24YEML7ANAAE4C4UBXAM","short_pith_number":"pith:E44ACQ24","canonical_record":{"source":{"id":"1705.06342","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-05-17T20:55:15Z","cross_cats_sorted":[],"title_canon_sha256":"02f23835b865e92afb2920229d22d83aa1be2b3043b7579869a4c0612e65dd32","abstract_canon_sha256":"0552d303f102fbb90152c4f955227df0b7060cd3c406a804b788ca286241564a"},"schema_version":"1.0"},"canonical_sha256":"273801435cc118bf81a001382e5037031834cbc4833140fc57525d9614a20d47","source":{"kind":"arxiv","id":"1705.06342","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1705.06342","created_at":"2026-05-17T23:56:39Z"},{"alias_kind":"arxiv_version","alias_value":"1705.06342v1","created_at":"2026-05-17T23:56:39Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1705.06342","created_at":"2026-05-17T23:56:39Z"},{"alias_kind":"pith_short_12","alias_value":"E44ACQ24YEML","created_at":"2026-05-18T12:31:12Z"},{"alias_kind":"pith_short_16","alias_value":"E44ACQ24YEML7ANA","created_at":"2026-05-18T12:31:12Z"},{"alias_kind":"pith_short_8","alias_value":"E44ACQ24","created_at":"2026-05-18T12:31:12Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2017:E44ACQ24YEML7ANAAE4C4UBXAM","target":"record","payload":{"canonical_record":{"source":{"id":"1705.06342","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-05-17T20:55:15Z","cross_cats_sorted":[],"title_canon_sha256":"02f23835b865e92afb2920229d22d83aa1be2b3043b7579869a4c0612e65dd32","abstract_canon_sha256":"0552d303f102fbb90152c4f955227df0b7060cd3c406a804b788ca286241564a"},"schema_version":"1.0"},"canonical_sha256":"273801435cc118bf81a001382e5037031834cbc4833140fc57525d9614a20d47","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:56:39.048212Z","signature_b64":"LMDt5S7CKDACLoZR0z54wyKBkVDGRLfr+Qvg/bG/FVq83IbOqQc+hNXahyMwxuDBYdkXlRJiDdaQnp6YIgqkAA==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"273801435cc118bf81a001382e5037031834cbc4833140fc57525d9614a20d47","last_reissued_at":"2026-05-17T23:56:39.047705Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:56:39.047705Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1705.06342","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:56:39Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"CpFso31yXQzq3SJxGojbvPcdTwEW+ahE7kXelobniaXpFI8DbkDB0gOIryX5e7VRxZpJH+I0ls1AssPe4hjEDg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-04T15:24:01.804633Z"},"content_sha256":"99711550c4b50810369f4f10d2d04c40abc3720a052a5eb66e169a08fae951cd","schema_version":"1.0","event_id":"sha256:99711550c4b50810369f4f10d2d04c40abc3720a052a5eb66e169a08fae951cd"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2017:E44ACQ24YEML7ANAAE4C4UBXAM","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Identification and Off-Policy Learning of Multiple Objectives Using Adaptive Clustering","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":[],"primary_cat":"cs.AI","authors_text":"Erik Wilhelm, Thommen George Karimpanal","submitted_at":"2017-05-17T20:55:15Z","abstract_excerpt":"In this work, we present a methodology that enables an agent to make efficient use of its exploratory actions by autonomously identifying possible objectives in its environment and learning them in parallel. The identification of objectives is achieved using an online and unsupervised adaptive clustering algorithm. The identified objectives are learned (at least partially) in parallel using Q-learning. Using a simulated agent and environment, it is shown that the converged or partially converged value function weights resulting from off-policy learning can be used to accumulate knowledge about"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1705.06342","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-17T23:56:39Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"8Xl+/Cm1N7a9ucZQVeII6tBQubGqcCEtToY7mv5qIRw5Nnc8/gfkpBroH7OJdDIc//JRNiByNBtGfwOk0G2gBQ==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-04T15:24:01.805244Z"},"content_sha256":"21912d3cb1464c445ea7e03b2810a5cefe769c2a998197a9257db86ad9b07d41","schema_version":"1.0","event_id":"sha256:21912d3cb1464c445ea7e03b2810a5cefe769c2a998197a9257db86ad9b07d41"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/E44ACQ24YEML7ANAAE4C4UBXAM/bundle.json","state_url":"https://pith.science/pith/E44ACQ24YEML7ANAAE4C4UBXAM/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/E44ACQ24YEML7ANAAE4C4UBXAM/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-04T15:24:01Z","links":{"resolver":"https://pith.science/pith/E44ACQ24YEML7ANAAE4C4UBXAM","bundle":"https://pith.science/pith/E44ACQ24YEML7ANAAE4C4UBXAM/bundle.json","state":"https://pith.science/pith/E44ACQ24YEML7ANAAE4C4UBXAM/state.json","well_known_bundle":"https://pith.science/.well-known/pith/E44ACQ24YEML7ANAAE4C4UBXAM/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2017:E44ACQ24YEML7ANAAE4C4UBXAM","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"0552d303f102fbb90152c4f955227df0b7060cd3c406a804b788ca286241564a","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-05-17T20:55:15Z","title_canon_sha256":"02f23835b865e92afb2920229d22d83aa1be2b3043b7579869a4c0612e65dd32"},"schema_version":"1.0","source":{"id":"1705.06342","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1705.06342","created_at":"2026-05-17T23:56:39Z"},{"alias_kind":"arxiv_version","alias_value":"1705.06342v1","created_at":"2026-05-17T23:56:39Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1705.06342","created_at":"2026-05-17T23:56:39Z"},{"alias_kind":"pith_short_12","alias_value":"E44ACQ24YEML","created_at":"2026-05-18T12:31:12Z"},{"alias_kind":"pith_short_16","alias_value":"E44ACQ24YEML7ANA","created_at":"2026-05-18T12:31:12Z"},{"alias_kind":"pith_short_8","alias_value":"E44ACQ24","created_at":"2026-05-18T12:31:12Z"}],"graph_snapshots":[{"event_id":"sha256:21912d3cb1464c445ea7e03b2810a5cefe769c2a998197a9257db86ad9b07d41","target":"graph","created_at":"2026-05-17T23:56:39Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"In this work, we present a methodology that enables an agent to make efficient use of its exploratory actions by autonomously identifying possible objectives in its environment and learning them in parallel. The identification of objectives is achieved using an online and unsupervised adaptive clustering algorithm. The identified objectives are learned (at least partially) in parallel using Q-learning. Using a simulated agent and environment, it is shown that the converged or partially converged value function weights resulting from off-policy learning can be used to accumulate knowledge about","authors_text":"Erik Wilhelm, Thommen George Karimpanal","cross_cats":[],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-05-17T20:55:15Z","title":"Identification and Off-Policy Learning of Multiple Objectives Using Adaptive Clustering"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1705.06342","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:99711550c4b50810369f4f10d2d04c40abc3720a052a5eb66e169a08fae951cd","target":"record","created_at":"2026-05-17T23:56:39Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"0552d303f102fbb90152c4f955227df0b7060cd3c406a804b788ca286241564a","cross_cats_sorted":[],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.AI","submitted_at":"2017-05-17T20:55:15Z","title_canon_sha256":"02f23835b865e92afb2920229d22d83aa1be2b3043b7579869a4c0612e65dd32"},"schema_version":"1.0","source":{"id":"1705.06342","kind":"arxiv","version":1}},"canonical_sha256":"273801435cc118bf81a001382e5037031834cbc4833140fc57525d9614a20d47","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"273801435cc118bf81a001382e5037031834cbc4833140fc57525d9614a20d47","first_computed_at":"2026-05-17T23:56:39.047705Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-17T23:56:39.047705Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"LMDt5S7CKDACLoZR0z54wyKBkVDGRLfr+Qvg/bG/FVq83IbOqQc+hNXahyMwxuDBYdkXlRJiDdaQnp6YIgqkAA==","signature_status":"signed_v1","signed_at":"2026-05-17T23:56:39.048212Z","signed_message":"canonical_sha256_bytes"},"source_id":"1705.06342","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:99711550c4b50810369f4f10d2d04c40abc3720a052a5eb66e169a08fae951cd","sha256:21912d3cb1464c445ea7e03b2810a5cefe769c2a998197a9257db86ad9b07d41"],"state_sha256":"660d9df40ad88af273412de8b60647faea040bddae500ca066de120e856b0ffb"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"RBIZvytiBQXtXyKto8JqxkOzRMGx+VPm7s9eLKsWdJBfCM/sLJKcoKLiqqFlJ6kdyBEYV/Zso0ngpKoMzNhFDw==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-04T15:24:01.808206Z","bundle_sha256":"de80e60c73929a0729a7f349d47180aa4f0b497562365c3c7d740cc01654e908"}}