{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2016:R5OGK36TOA2QFUSQ42KXATTWRJ","short_pith_number":"pith:R5OGK36T","schema_version":"1.0","canonical_sha256":"8f5c656fd3703502d250e695704e768a746ff9afa3fd72199c339793aaea7b4f","source":{"kind":"arxiv","id":"1602.07332","version":1},"attestation_state":"computed","paper":{"title":"Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.CV","authors_text":"David A. Shamma, Fei-Fei Li, Joshua Kravitz, Justin Johnson, Kenji Hata, Li-Jia Li, Michael S. Bernstein, Oliver Groth, Ranjay Krishna, Stephanie Chen, Yannis Kalantidis, Yuke Zhu","submitted_at":"2016-02-23T22:00:40Z","abstract_excerpt":"Despite progress in perceptual tasks such as image classification, computers still perform poorly on cognitive tasks such as image description and question answering. Cognition is core to tasks that involve not just recognizing, but reasoning about our visual world. However, models used to tackle the rich content in images for cognitive tasks are still being trained using the same datasets designed for perceptual tasks. To achieve success at cognitive tasks, models need to understand the interactions and relationships between objects in an image. When asked \"What vehicle is the person riding?\""},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1602.07332","kind":"arxiv","version":1},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2016-02-23T22:00:40Z","cross_cats_sorted":["cs.AI"],"title_canon_sha256":"03d00fb3920f8ccb27942944008938f1c1d37c9bec477900c01327dbdc254a45","abstract_canon_sha256":"4ecb0a01467bb4c13cc0540027be6f9c6185638bafba0139ab4fb3ce8782843d"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T01:20:05.994056Z","signature_b64":"o1kjkinsS80LeGItN1EODfOdSOZHxUY7FVL53EHtKeebaHbsU3DKbo0lW21q2djRuKJTmycLELugSgwsHMVYBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"8f5c656fd3703502d250e695704e768a746ff9afa3fd72199c339793aaea7b4f","last_reissued_at":"2026-05-18T01:20:05.993534Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T01:20:05.993534Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.AI"],"primary_cat":"cs.CV","authors_text":"David A. Shamma, Fei-Fei Li, Joshua Kravitz, Justin Johnson, Kenji Hata, Li-Jia Li, Michael S. Bernstein, Oliver Groth, Ranjay Krishna, Stephanie Chen, Yannis Kalantidis, Yuke Zhu","submitted_at":"2016-02-23T22:00:40Z","abstract_excerpt":"Despite progress in perceptual tasks such as image classification, computers still perform poorly on cognitive tasks such as image description and question answering. Cognition is core to tasks that involve not just recognizing, but reasoning about our visual world. However, models used to tackle the rich content in images for cognitive tasks are still being trained using the same datasets designed for perceptual tasks. To achieve success at cognitive tasks, models need to understand the interactions and relationships between objects in an image. When asked \"What vehicle is the person riding?\""},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1602.07332","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1602.07332","created_at":"2026-05-18T01:20:05.993618+00:00"},{"alias_kind":"arxiv_version","alias_value":"1602.07332v1","created_at":"2026-05-18T01:20:05.993618+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1602.07332","created_at":"2026-05-18T01:20:05.993618+00:00"},{"alias_kind":"pith_short_12","alias_value":"R5OGK36TOA2Q","created_at":"2026-05-18T12:30:41.710351+00:00"},{"alias_kind":"pith_short_16","alias_value":"R5OGK36TOA2QFUSQ","created_at":"2026-05-18T12:30:41.710351+00:00"},{"alias_kind":"pith_short_8","alias_value":"R5OGK36T","created_at":"2026-05-18T12:30:41.710351+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":13,"internal_anchor_count":9,"sample":[{"citing_arxiv_id":"1906.10770","citing_title":"Deep Modular Co-Attention Networks for Visual Question Answering","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2402.19339","citing_title":"Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision Transformers for High-Level Image Classification","ref_index":39,"is_internal_anchor":true},{"citing_arxiv_id":"2411.10446","citing_title":"VeriGraph: Scene Graphs for Execution Verifiable Robot Planning","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2509.10026","citing_title":"LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"1911.11641","citing_title":"PIQA: Reasoning about Physical Commonsense in Natural Language","ref_index":61,"is_internal_anchor":true},{"citing_arxiv_id":"2205.14100","citing_title":"GIT: A Generative Image-to-text Transformer for Vision and Language","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2111.11432","citing_title":"Florence: A New Foundation Model for Computer Vision","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2602.08373","citing_title":"Grounding Generative Planners in Verifiable Logic: A Hybrid Architecture for Trustworthy Embodied AI","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2305.03726","citing_title":"Otter: A Multi-Modal Model with In-Context Instruction Tuning","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2604.25072","citing_title":"Beyond Accuracy: Benchmarking Cross-Task Consistency in Unified Multimodal Models","ref_index":20,"is_internal_anchor":false},{"citing_arxiv_id":"2604.23145","citing_title":"UpstreamQA: A Modular Framework for Explicit Reasoning on Video Question Answering Tasks","ref_index":22,"is_internal_anchor":false},{"citing_arxiv_id":"2604.14779","citing_title":"AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning","ref_index":23,"is_internal_anchor":false},{"citing_arxiv_id":"2604.19054","citing_title":"Evaluation of Winning Solutions of 2025 Low Power Computer Vision Challenge","ref_index":19,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/R5OGK36TOA2QFUSQ42KXATTWRJ","json":"https://pith.science/pith/R5OGK36TOA2QFUSQ42KXATTWRJ.json","graph_json":"https://pith.science/api/pith-number/R5OGK36TOA2QFUSQ42KXATTWRJ/graph.json","events_json":"https://pith.science/api/pith-number/R5OGK36TOA2QFUSQ42KXATTWRJ/events.json","paper":"https://pith.science/paper/R5OGK36T"},"agent_actions":{"view_html":"https://pith.science/pith/R5OGK36TOA2QFUSQ42KXATTWRJ","download_json":"https://pith.science/pith/R5OGK36TOA2QFUSQ42KXATTWRJ.json","view_paper":"https://pith.science/paper/R5OGK36T","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1602.07332&json=true","fetch_graph":"https://pith.science/api/pith-number/R5OGK36TOA2QFUSQ42KXATTWRJ/graph.json","fetch_events":"https://pith.science/api/pith-number/R5OGK36TOA2QFUSQ42KXATTWRJ/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/R5OGK36TOA2QFUSQ42KXATTWRJ/action/timestamp_anchor","attest_storage":"https://pith.science/pith/R5OGK36TOA2QFUSQ42KXATTWRJ/action/storage_attestation","attest_author":"https://pith.science/pith/R5OGK36TOA2QFUSQ42KXATTWRJ/action/author_attestation","sign_citation":"https://pith.science/pith/R5OGK36TOA2QFUSQ42KXATTWRJ/action/citation_signature","submit_replication":"https://pith.science/pith/R5OGK36TOA2QFUSQ42KXATTWRJ/action/replication_record"}},"created_at":"2026-05-18T01:20:05.993618+00:00","updated_at":"2026-05-18T01:20:05.993618+00:00"}