{"paper":{"title":"Lifelong Learning in Vision-Language Models: Enhanced EWC with Cross-Modal Knowledge Retention","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"An enhanced elastic weight consolidation method allows vision-language models to learn tasks sequentially while cutting forgetting rates by 78 percent and keeping image-text alignment intact.","cross_cats":[],"primary_cat":"cs.RO","authors_text":"Hamza Ahmed Durrani, Rafay Suleman Durrani","submitted_at":"2026-05-12T22:05:30Z","abstract_excerpt":"Large language-vision models (LVLMs) such as CLIP, Flamingo, and BLIP have revolutionized AI by enabling understanding across textual and visual modalities. These models excel at tasks like image captioning, visual question answering, and cross-modal retrieval. However, they face catastrophic forgetting when learning new tasks sequentially, particularly challenging in multi-modal settings where preserving cross-modal alignments adds complexity to the learning process. This paper presents a comprehensive continual learning framework for LVLMs that combines enhanced Elastic Weight Consolidation "},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"The framework achieves a 78% reduction in forgetting rates relative to naive sequential training approaches through extensive evaluation testing. The framework also preserves alignment between modalities during sequential learning with only 15% additional computational cost.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the multi-modal Fisher Information Matrix calculation and adaptive regularization across visual and textual encoders will reliably capture cross-modal dependencies without introducing new forgetting modes or requiring extensive per-task hyperparameter search not described in the abstract.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"Enhanced EWC for LVLMs cuts forgetting rates by 78% versus naive training and keeps visual-textual alignment with 15% extra compute.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"An enhanced elastic weight consolidation method allows vision-language models to learn tasks sequentially while cutting forgetting rates by 78 percent and keeping image-text alignment intact.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"c7b7a5fd9430b5f1ff9767ba70012a6b97eb21fbeeb41ad0e5b0c69f356adabb"},"source":{"id":"2605.12789","kind":"arxiv","version":1},"verdict":{"id":"52642c8d-80dc-47a8-a0ff-aa66438bd0fb","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-14T19:44:52.559089Z","strongest_claim":"The framework achieves a 78% reduction in forgetting rates relative to naive sequential training approaches through extensive evaluation testing. The framework also preserves alignment between modalities during sequential learning with only 15% additional computational cost.","one_line_summary":"Enhanced EWC for LVLMs cuts forgetting rates by 78% versus naive training and keeps visual-textual alignment with 15% extra compute.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the multi-modal Fisher Information Matrix calculation and adaptive regularization across visual and textual encoders will reliably capture cross-modal dependencies without introducing new forgetting modes or requiring extensive per-task hyperparameter search not described in the abstract.","pith_extraction_headline":"An enhanced elastic weight consolidation method allows vision-language models to learn tasks sequentially while cutting forgetting rates by 78 percent and keeping image-text alignment intact."},"references":{"count":18,"sample":[{"doi":"","year":2021,"title":"W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S.,","work_id":"aff2ddbd-fadb-4678-93a0-b5fad9a1c90a","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2022,"title":"B., Donahue, J., Luc, P., Miech, A., Barr, I., Hasson, Y .,","work_id":"d16c7109-236d-44f5-b171-a71e9e718742","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2017,"title":"Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A. A., . . . & Hadsell, R. (2017). Overcoming catastrophic forgetting in neural networks.Proceedings of the National Aca","work_id":"53149204-6696-4dae-9364-3929d098376c","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2017,"title":"Li, Z., & Hoiem, D. (2017). Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(12), 2935–2947","work_id":"6f30fa50-bd61-48ba-9df1-3ca9327bf836","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2017,"title":"A., Kolesnikov, A., Sperl, G., & Lampert, C","work_id":"e690ef60-b492-46b7-97c9-3e2598da2052","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":18,"snapshot_sha256":"808dc1c7ab6fe99c5e430c819a84ed6f24f0c6b120ccb5745bf307ffa16953af","internal_anchors":3},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"}