{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2018:JD5WIRXXRXOFUNZ3T3A2HHJ7JR","short_pith_number":"pith:JD5WIRXX","schema_version":"1.0","canonical_sha256":"48fb6446f78ddc5a373b9ec1a39d3f4c68cba1873837c882adaf35900d6efad2","source":{"kind":"arxiv","id":"1809.02156","version":2},"attestation_state":"computed","paper":{"title":"Object Hallucination in Image Captioning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CV"],"primary_cat":"cs.CL","authors_text":"Anna Rohrbach, Kate Saenko, Kaylee Burns, Lisa Anne Hendricks, Trevor Darrell","submitted_at":"2018-09-06T18:25:18Z","abstract_excerpt":"Despite continuously improving performance, contemporary image captioning models are prone to \"hallucinating\" objects that are not actually in a scene. One problem is that standard metrics only measure similarity to ground truth captions and may not fully capture image relevance. In this work, we propose a new image relevance metric to evaluate current models with veridical visual labels and assess their rate of object hallucination. We analyze how captioning model architectures and learning objectives contribute to object hallucination, explore when hallucination is likely due to image miscla"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"1809.02156","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CL","submitted_at":"2018-09-06T18:25:18Z","cross_cats_sorted":["cs.CV"],"title_canon_sha256":"b587f17f4baae948ffe1d05ac60fbb9b6c005d2977917854db201f5c5d577f53","abstract_canon_sha256":"ad38a38ec5a45294e9dab5bb0f02a05ab57840394b284922507caa77397a0acd"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:49:52.569108Z","signature_b64":"TxzX6zTyfSeW0Qce6uX7M6FSdUYIgDx1Nlm0o7zljx5gTDUqz8ztnwvYoXneqcI22glQY89I7hpH2ctOyn2+AQ==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"48fb6446f78ddc5a373b9ec1a39d3f4c68cba1873837c882adaf35900d6efad2","last_reissued_at":"2026-05-17T23:49:52.568726Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:49:52.568726Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"Object Hallucination in Image Captioning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"","cross_cats":["cs.CV"],"primary_cat":"cs.CL","authors_text":"Anna Rohrbach, Kate Saenko, Kaylee Burns, Lisa Anne Hendricks, Trevor Darrell","submitted_at":"2018-09-06T18:25:18Z","abstract_excerpt":"Despite continuously improving performance, contemporary image captioning models are prone to \"hallucinating\" objects that are not actually in a scene. One problem is that standard metrics only measure similarity to ground truth captions and may not fully capture image relevance. In this work, we propose a new image relevance metric to evaluate current models with veridical visual labels and assess their rate of object hallucination. We analyze how captioning model architectures and learning objectives contribute to object hallucination, explore when hallucination is likely due to image miscla"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"1809.02156","kind":"arxiv","version":2},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1809.02156","created_at":"2026-05-17T23:49:52.568783+00:00"},{"alias_kind":"arxiv_version","alias_value":"1809.02156v2","created_at":"2026-05-17T23:49:52.568783+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1809.02156","created_at":"2026-05-17T23:49:52.568783+00:00"},{"alias_kind":"pith_short_12","alias_value":"JD5WIRXXRXOF","created_at":"2026-05-18T12:32:31.084164+00:00"},{"alias_kind":"pith_short_16","alias_value":"JD5WIRXXRXOFUNZ3","created_at":"2026-05-18T12:32:31.084164+00:00"},{"alias_kind":"pith_short_8","alias_value":"JD5WIRXX","created_at":"2026-05-18T12:32:31.084164+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":29,"internal_anchor_count":19,"sample":[{"citing_arxiv_id":"2507.12455","citing_title":"Mitigating Object Hallucinations via Sentence-Level Early Intervention","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2406.10185","citing_title":"Detecting and Evaluating Medical Hallucinations in Large Vision Language Models","ref_index":19,"is_internal_anchor":true},{"citing_arxiv_id":"2511.10292","citing_title":"Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2602.03454","citing_title":"Contextualized Visual Personalization in Vision-Language Models","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20950","citing_title":"Focus-then-Context: Subject-Centric Progressive Visual Token Reduction for Vision-Language Models","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15951","citing_title":"From Failure to Feedback: Group Revision Unlocks Hard Cases in Object-Level Grounding","ref_index":67,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16953","citing_title":"How do Humans Process AI-generated Hallucination Contents: a Neuroimaging Study","ref_index":8,"is_internal_anchor":true},{"citing_arxiv_id":"2505.21472","citing_title":"Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2506.13130","citing_title":"ZINA: Multimodal Fine-grained Hallucination Detection and Editing","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2401.03568","citing_title":"Agent AI: Surveying the Horizons of Multimodal Interaction","ref_index":190,"is_internal_anchor":true},{"citing_arxiv_id":"2402.11411","citing_title":"Aligning Modalities in Vision Large Language Models via Preference Fine-tuning","ref_index":170,"is_internal_anchor":true},{"citing_arxiv_id":"2309.05922","citing_title":"A Survey of Hallucination in Large Foundation Models","ref_index":141,"is_internal_anchor":true},{"citing_arxiv_id":"2411.10442","citing_title":"Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization","ref_index":82,"is_internal_anchor":true},{"citing_arxiv_id":"2602.03454","citing_title":"Contextualized Visual Personalization in Vision-Language Models","ref_index":1,"is_internal_anchor":true},{"citing_arxiv_id":"2310.09478","citing_title":"MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning","ref_index":40,"is_internal_anchor":true},{"citing_arxiv_id":"2311.07397","citing_title":"AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2602.11824","citing_title":"Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models","ref_index":6,"is_internal_anchor":true},{"citing_arxiv_id":"2309.14525","citing_title":"Aligning Large Multimodal Models with Factually Augmented RLHF","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2306.14565","citing_title":"Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.11808","citing_title":"Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement","ref_index":42,"is_internal_anchor":false},{"citing_arxiv_id":"2604.25642","citing_title":"Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models","ref_index":33,"is_internal_anchor":false},{"citing_arxiv_id":"2605.00323","citing_title":"Online Self-Calibration Against Hallucination in Vision-Language Models","ref_index":23,"is_internal_anchor":false},{"citing_arxiv_id":"2404.18930","citing_title":"Hallucination of Multimodal Large Language Models: A Survey","ref_index":141,"is_internal_anchor":false},{"citing_arxiv_id":"2604.10071","citing_title":"Spotlight and Shadow: Attention-Guided Dual-Anchor Introspective Decoding for MLLM Hallucination Mitigation","ref_index":26,"is_internal_anchor":false},{"citing_arxiv_id":"2408.01800","citing_title":"MiniCPM-V: A GPT-4V Level MLLM on Your Phone","ref_index":85,"is_internal_anchor":false}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/JD5WIRXXRXOFUNZ3T3A2HHJ7JR","json":"https://pith.science/pith/JD5WIRXXRXOFUNZ3T3A2HHJ7JR.json","graph_json":"https://pith.science/api/pith-number/JD5WIRXXRXOFUNZ3T3A2HHJ7JR/graph.json","events_json":"https://pith.science/api/pith-number/JD5WIRXXRXOFUNZ3T3A2HHJ7JR/events.json","paper":"https://pith.science/paper/JD5WIRXX"},"agent_actions":{"view_html":"https://pith.science/pith/JD5WIRXXRXOFUNZ3T3A2HHJ7JR","download_json":"https://pith.science/pith/JD5WIRXXRXOFUNZ3T3A2HHJ7JR.json","view_paper":"https://pith.science/paper/JD5WIRXX","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1809.02156&json=true","fetch_graph":"https://pith.science/api/pith-number/JD5WIRXXRXOFUNZ3T3A2HHJ7JR/graph.json","fetch_events":"https://pith.science/api/pith-number/JD5WIRXXRXOFUNZ3T3A2HHJ7JR/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/JD5WIRXXRXOFUNZ3T3A2HHJ7JR/action/timestamp_anchor","attest_storage":"https://pith.science/pith/JD5WIRXXRXOFUNZ3T3A2HHJ7JR/action/storage_attestation","attest_author":"https://pith.science/pith/JD5WIRXXRXOFUNZ3T3A2HHJ7JR/action/author_attestation","sign_citation":"https://pith.science/pith/JD5WIRXXRXOFUNZ3T3A2HHJ7JR/action/citation_signature","submit_replication":"https://pith.science/pith/JD5WIRXXRXOFUNZ3T3A2HHJ7JR/action/replication_record"}},"created_at":"2026-05-17T23:49:52.568783+00:00","updated_at":"2026-05-17T23:49:52.568783+00:00"}