{"bundle_type":"pith_open_graph_bundle","bundle_version":"1.0","pith_number":"pith:2018:JDY75L2ATSU6YFINVS65SEUO3N","short_pith_number":"pith:JDY75L2A","canonical_record":{"source":{"id":"1805.10886","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-28T12:12:05Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"42caf6e57fad810dbc0fbcb813b25db28d31ee49a5aad6b58890dd485347329e","abstract_canon_sha256":"ad641f18984dccc8402541351b054cb12447a934dd15a6ca1d2f401426193445"},"schema_version":"1.0"},"canonical_sha256":"48f1feaf409ca9ec150dacbdd9128edb45e410bc5767df490cc1ece2a802f551","source":{"kind":"arxiv","id":"1805.10886","version":1},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1805.10886","created_at":"2026-05-18T00:14:51Z"},{"alias_kind":"arxiv_version","alias_value":"1805.10886v1","created_at":"2026-05-18T00:14:51Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1805.10886","created_at":"2026-05-18T00:14:51Z"},{"alias_kind":"pith_short_12","alias_value":"JDY75L2ATSU6","created_at":"2026-05-18T12:32:31Z"},{"alias_kind":"pith_short_16","alias_value":"JDY75L2ATSU6YFIN","created_at":"2026-05-18T12:32:31Z"},{"alias_kind":"pith_short_8","alias_value":"JDY75L2A","created_at":"2026-05-18T12:32:31Z"}],"events":[{"event_type":"record_created","subject_pith_number":"pith:2018:JDY75L2ATSU6YFINVS65SEUO3N","target":"record","payload":{"canonical_record":{"source":{"id":"1805.10886","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-28T12:12:05Z","cross_cats_sorted":["stat.ML"],"title_canon_sha256":"42caf6e57fad810dbc0fbcb813b25db28d31ee49a5aad6b58890dd485347329e","abstract_canon_sha256":"ad641f18984dccc8402541351b054cb12447a934dd15a6ca1d2f401426193445"},"schema_version":"1.0"},"canonical_sha256":"48f1feaf409ca9ec150dacbdd9128edb45e410bc5767df490cc1ece2a802f551","receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T00:14:51.112661Z","signature_b64":"Sv1+bdp6rK4ZLB2IP9/1yDc5IjGz67ENu/VwKBNms87McM0jnmr6WPlpmoEO6t7CrdLiLsDdEdgeuYziHo+7AQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"48f1feaf409ca9ec150dacbdd9128edb45e410bc5767df490cc1ece2a802f551","last_reissued_at":"2026-05-18T00:14:51.112012Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T00:14:51.112012Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"source_kind":"arxiv","source_id":"1805.10886","source_version":1,"attestation_state":"computed"},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:14:51Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"GPeTqdvB5zu1knB0v4R+XZ1lUx92gLS+vbNGkeULwaxBJaTUtM5uXwq3LlKXhyJB9mvWVMXnRAB3poecLQmvCg==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-05T13:19:28.730343Z"},"content_sha256":"c7990ba556f25355753d2a029a484ccdc6eed3d8ea2f018463f1c965b4c7569d","schema_version":"1.0","event_id":"sha256:c7990ba556f25355753d2a029a484ccdc6eed3d8ea2f018463f1c965b4c7569d"},{"event_type":"graph_snapshot","subject_pith_number":"pith:2018:JDY75L2ATSU6YFINVS65SEUO3N","target":"graph","payload":{"graph_snapshot":{"paper":{"title":"Importance Weighted Transfer of Samples in Reinforcement Learning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["stat.ML"],"primary_cat":"cs.LG","authors_text":"Andrea Sessa, Andrea Tirinzoni, Marcello Restelli, Matteo Pirotta","submitted_at":"2018-05-28T12:12:05Z","abstract_excerpt":"We consider the transfer of experience samples (i.e., tuples < s, a, s', r >) in reinforcement learning (RL), collected from a set of source tasks to improve the learning process in a given target task. Most of the related approaches focus on selecting the most relevant source samples for solving the target task, but then all the transferred samples are used without considering anymore the discrepancies between the task models. In this paper, we propose a model-based technique that automatically estimates the relevance (importance weight) of each source sample for solving the target task. In t"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1805.10886","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"verdict_id":null},"signer":{"signer_id":"pith.science","signer_type":"pith_registry","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"created_at":"2026-05-18T00:14:51Z","supersedes":[],"prev_event":null,"signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"w/9f9ZztWyxcCs4GmbmwlAT3+P4+Iq2/C2SZVnF7lfAlwyCZalUscx+yCmVGAUzbONnhPT3i4O5DfPfdeVOQBA==","signed_message":"open_graph_event_sha256_bytes","signed_at":"2026-06-05T13:19:28.730694Z"},"content_sha256":"2199bc597c3c2a82aedc1e24c4655931f8c6eccbc17475ee30562e2057bb1f0d","schema_version":"1.0","event_id":"sha256:2199bc597c3c2a82aedc1e24c4655931f8c6eccbc17475ee30562e2057bb1f0d"}],"timestamp_proofs":[],"mirror_hints":[{"mirror_type":"https","name":"Pith Resolver","base_url":"https://pith.science","bundle_url":"https://pith.science/pith/JDY75L2ATSU6YFINVS65SEUO3N/bundle.json","state_url":"https://pith.science/pith/JDY75L2ATSU6YFINVS65SEUO3N/state.json","well_known_bundle_url":"https://pith.science/.well-known/pith/JDY75L2ATSU6YFINVS65SEUO3N/bundle.json","status":"primary"}],"public_keys":[{"key_id":"pith-v1-2026-05","algorithm":"ed25519","format":"raw","public_key_b64":"stVStoiQhXFxp4s2pdzPNoqVNBMojDU/fJ2db5S3CbM=","public_key_hex":"b2d552b68890857171a78b36a5dccf368a953413288c353f7c9d9d6f94b709b3","fingerprint_sha256_b32_first128bits":"RVFV5Z2OI2J3ZUO7ERDEBCYNKS","fingerprint_sha256_hex":"8d4b5ee74e4693bcd1df2446408b0d54","rotates_at":null,"url":"https://pith.science/pith-signing-key.json","notes":"Pith uses this Ed25519 key to sign canonical record SHA-256 digests. Verify with: ed25519_verify(public_key, message=canonical_sha256_bytes, signature=base64decode(signature_b64))."}],"merge_version":"pith-open-graph-merge-v1","built_at":"2026-06-05T13:19:28Z","links":{"resolver":"https://pith.science/pith/JDY75L2ATSU6YFINVS65SEUO3N","bundle":"https://pith.science/pith/JDY75L2ATSU6YFINVS65SEUO3N/bundle.json","state":"https://pith.science/pith/JDY75L2ATSU6YFINVS65SEUO3N/state.json","well_known_bundle":"https://pith.science/.well-known/pith/JDY75L2ATSU6YFINVS65SEUO3N/bundle.json"},"state":{"state_type":"pith_open_graph_state","state_version":"1.0","pith_number":"pith:2018:JDY75L2ATSU6YFINVS65SEUO3N","merge_version":"pith-open-graph-merge-v1","event_count":2,"valid_event_count":2,"invalid_event_count":0,"equivocation_count":0,"current":{"canonical_record":{"metadata":{"abstract_canon_sha256":"ad641f18984dccc8402541351b054cb12447a934dd15a6ca1d2f401426193445","cross_cats_sorted":["stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-28T12:12:05Z","title_canon_sha256":"42caf6e57fad810dbc0fbcb813b25db28d31ee49a5aad6b58890dd485347329e"},"schema_version":"1.0","source":{"id":"1805.10886","kind":"arxiv","version":1}},"source_aliases":[{"alias_kind":"arxiv","alias_value":"1805.10886","created_at":"2026-05-18T00:14:51Z"},{"alias_kind":"arxiv_version","alias_value":"1805.10886v1","created_at":"2026-05-18T00:14:51Z"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1805.10886","created_at":"2026-05-18T00:14:51Z"},{"alias_kind":"pith_short_12","alias_value":"JDY75L2ATSU6","created_at":"2026-05-18T12:32:31Z"},{"alias_kind":"pith_short_16","alias_value":"JDY75L2ATSU6YFIN","created_at":"2026-05-18T12:32:31Z"},{"alias_kind":"pith_short_8","alias_value":"JDY75L2A","created_at":"2026-05-18T12:32:31Z"}],"graph_snapshots":[{"event_id":"sha256:2199bc597c3c2a82aedc1e24c4655931f8c6eccbc17475ee30562e2057bb1f0d","target":"graph","created_at":"2026-05-18T00:14:51Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"graph_snapshot":{"author_claims":{"count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","strong_count":0},"builder_version":"pith-number-builder-2026-05-17-v1","claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"paper":{"abstract_excerpt":"We consider the transfer of experience samples (i.e., tuples < s, a, s', r >) in reinforcement learning (RL), collected from a set of source tasks to improve the learning process in a given target task. Most of the related approaches focus on selecting the most relevant source samples for solving the target task, but then all the transferred samples are used without considering anymore the discrepancies between the task models. In this paper, we propose a model-based technique that automatically estimates the relevance (importance weight) of each source sample for solving the target task. In t","authors_text":"Andrea Sessa, Andrea Tirinzoni, Marcello Restelli, Matteo Pirotta","cross_cats":["stat.ML"],"headline":"","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-28T12:12:05Z","title":"Importance Weighted Transfer of Samples in Reinforcement Learning"},"references":{"count":0,"internal_anchors":0,"resolved_work":0,"sample":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1805.10886","kind":"arxiv","version":1},"verdict":{"created_at":null,"id":null,"model_set":{},"one_line_summary":"","pipeline_version":null,"pith_extraction_headline":"","strongest_claim":"","weakest_assumption":""}},"verdict_id":null}}],"author_attestations":[],"timestamp_anchors":[],"storage_attestations":[],"citation_signatures":[],"replication_records":[],"corrections":[],"mirror_hints":[],"record_created":{"event_id":"sha256:c7990ba556f25355753d2a029a484ccdc6eed3d8ea2f018463f1c965b4c7569d","target":"record","created_at":"2026-05-18T00:14:51Z","signer":{"key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signer_id":"pith.science","signer_type":"pith_registry"},"payload":{"attestation_state":"computed","canonical_record":{"metadata":{"abstract_canon_sha256":"ad641f18984dccc8402541351b054cb12447a934dd15a6ca1d2f401426193445","cross_cats_sorted":["stat.ML"],"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.LG","submitted_at":"2018-05-28T12:12:05Z","title_canon_sha256":"42caf6e57fad810dbc0fbcb813b25db28d31ee49a5aad6b58890dd485347329e"},"schema_version":"1.0","source":{"id":"1805.10886","kind":"arxiv","version":1}},"canonical_sha256":"48f1feaf409ca9ec150dacbdd9128edb45e410bc5767df490cc1ece2a802f551","receipt":{"algorithm":"ed25519","builder_version":"pith-number-builder-2026-05-17-v1","canonical_sha256":"48f1feaf409ca9ec150dacbdd9128edb45e410bc5767df490cc1ece2a802f551","first_computed_at":"2026-05-18T00:14:51.112012Z","key_id":"pith-v1-2026-05","kind":"pith_receipt","last_reissued_at":"2026-05-18T00:14:51.112012Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","receipt_version":"0.3","signature_b64":"Sv1+bdp6rK4ZLB2IP9/1yDc5IjGz67ENu/VwKBNms87McM0jnmr6WPlpmoEO6t7CrdLiLsDdEdgeuYziHo+7AQ==","signature_status":"signed_v1","signed_at":"2026-05-18T00:14:51.112661Z","signed_message":"canonical_sha256_bytes"},"source_id":"1805.10886","source_kind":"arxiv","source_version":1}}},"equivocations":[],"invalid_events":[],"applied_event_ids":["sha256:c7990ba556f25355753d2a029a484ccdc6eed3d8ea2f018463f1c965b4c7569d","sha256:2199bc597c3c2a82aedc1e24c4655931f8c6eccbc17475ee30562e2057bb1f0d"],"state_sha256":"22ed93b68261630c3e438cc7b3aba8fde4e6f795345cedf91dcd0e0c27dc1e8b"},"bundle_signature":{"signature_status":"signed_v1","algorithm":"ed25519","key_id":"pith-v1-2026-05","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54","signature_b64":"lMeRoUqK1dc32Goc69r5FUbdzIYEYjNFSq9KPbHz3ZR4KiR28zsEa+kX+EGvQfx7CTmu2iKcsGQdSreOfJe3AQ==","signed_message":"bundle_sha256_bytes","signed_at":"2026-06-05T13:19:28.732634Z","bundle_sha256":"9137c01e3a3e809333c40da37c3e05471dc192a4616080e2ed97d42537aa7336"}}