{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2010:D4IPYYT75FVQPOOVOR4HUMCMYH","short_pith_number":"pith:D4IPYYT7","schema_version":"1.0","canonical_sha256":"1f10fc627fe96b07b9d574787a304cc1f8be2b76d71ca218b8ff33ea04409c22","source":{"kind":"arxiv","id":"1012.3502","version":1},"attestation_state":"computed","paper":{"title":"Rules of Thumb for Information Acquisition from Large and Redundant Data","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.DB","physics.data-an"],"primary_cat":"cs.IR","authors_text":"Wolfgang Gatterbauer","submitted_at":"2010-12-16T02:36:13Z","abstract_excerpt":"We develop an abstract model of information acquisition from redundant data. We assume a random sampling process from data which provide information with bias and are interested in the fraction of information we expect to learn as function of (i) the sampled fraction (recall) and (ii) varying bias of information (redundancy distributions). We develop two rules of thumb with varying robustness. We first show that, when information bias follows a Zipf distribution, the 80-20 rule or Pareto principle does surprisingly not hold, and we rather expect to learn less than 40% of the information when r"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1012.3502","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.IR","submitted_at":"2010-12-16T02:36:13Z","cross_cats_sorted":["cs.DB","physics.data-an"],"title_canon_sha256":"f9cd4ed57abe247ca27a70eb06d1f7d2f522a9960c901e5f6fcec9050d138299","abstract_canon_sha256":"74ad96cd022a635050b0c56928d501e4e0a2ae0b647092e0f3b6b8fe253eb196"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T02:23:07.104614Z","signature_b64":"s0cF++sCQuOfch54a7dDzDXEM9KZKniO00jSzM4nzItE4RjUPY+V9YyBcsd7bLIV7p773YYBGLkY9khmpDmmDQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"1f10fc627fe96b07b9d574787a304cc1f8be2b76d71ca218b8ff33ea04409c22","last_reissued_at":"2026-05-18T02:23:07.104101Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T02:23:07.104101Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Rules of Thumb for Information Acquisition from Large and Redundant Data","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.DB","physics.data-an"],"primary_cat":"cs.IR","authors_text":"Wolfgang Gatterbauer","submitted_at":"2010-12-16T02:36:13Z","abstract_excerpt":"We develop an abstract model of information acquisition from redundant data. We assume a random sampling process from data which provide information with bias and are interested in the fraction of information we expect to learn as function of (i) the sampled fraction (recall) and (ii) varying bias of information (redundancy distributions). We develop two rules of thumb with varying robustness. We first show that, when information bias follows a Zipf distribution, the 80-20 rule or Pareto principle does surprisingly not hold, and we rather expect to learn less than 40% of the information when r"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1012.3502","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1012.3502","created_at":"2026-05-18T02:23:07.104172+00:00"},{"alias_kind":"arxiv_version","alias_value":"1012.3502v1","created_at":"2026-05-18T02:23:07.104172+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1012.3502","created_at":"2026-05-18T02:23:07.104172+00:00"},{"alias_kind":"pith_short_12","alias_value":"D4IPYYT75FVQ","created_at":"2026-05-18T12:26:06.534383+00:00"},{"alias_kind":"pith_short_16","alias_value":"D4IPYYT75FVQPOOV","created_at":"2026-05-18T12:26:06.534383+00:00"},{"alias_kind":"pith_short_8","alias_value":"D4IPYYT7","created_at":"2026-05-18T12:26:06.534383+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":0,"internal_anchor_count":0,"sample":[]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/D4IPYYT75FVQPOOVOR4HUMCMYH","json":"https://pith.science/pith/D4IPYYT75FVQPOOVOR4HUMCMYH.json","graph_json":"https://pith.science/api/pith-number/D4IPYYT75FVQPOOVOR4HUMCMYH/graph.json","events_json":"https://pith.science/api/pith-number/D4IPYYT75FVQPOOVOR4HUMCMYH/events.json","paper":"https://pith.science/paper/D4IPYYT7"},"agent_actions":{"view_html":"https://pith.science/pith/D4IPYYT75FVQPOOVOR4HUMCMYH","download_json":"https://pith.science/pith/D4IPYYT75FVQPOOVOR4HUMCMYH.json","view_paper":"https://pith.science/paper/D4IPYYT7","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1012.3502&json=true","fetch_graph":"https://pith.science/api/pith-number/D4IPYYT75FVQPOOVOR4HUMCMYH/graph.json","fetch_events":"https://pith.science/api/pith-number/D4IPYYT75FVQPOOVOR4HUMCMYH/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/D4IPYYT75FVQPOOVOR4HUMCMYH/action/timestamp_anchor","attest_storage":"https://pith.science/pith/D4IPYYT75FVQPOOVOR4HUMCMYH/action/storage_attestation","attest_author":"https://pith.science/pith/D4IPYYT75FVQPOOVOR4HUMCMYH/action/author_attestation","sign_citation":"https://pith.science/pith/D4IPYYT75FVQPOOVOR4HUMCMYH/action/citation_signature","submit_replication":"https://pith.science/pith/D4IPYYT75FVQPOOVOR4HUMCMYH/action/replication_record"}},"created_at":"2026-05-18T02:23:07.104172+00:00","updated_at":"2026-05-18T02:23:07.104172+00:00"}