Title resolution pending

Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

Title metadata for this work has not finished resolving. The hub is built from the citation graph; the title resolver retries DOI and OpenAlex on its next pass.

representative citing papers

Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

cs.CV · 2026-04-08 · unverdicted · novelty 7.0

A new cross-cultural benchmark shows vision-language models infer structured cultural metadata from images inconsistently, with fragmented signals and large performance gaps across regions and metadata types.

Enabling Collaborative Parametric Knowledge Calibration for Retrieval-Augmented Vision Question Answering

cs.CV · 2025-04-05 · unverdicted · novelty 7.0

A collaborative parametric knowledge calibration framework for retrieval-augmented KB-VQA enables bidirectional knowledge sharing between retriever and generator, yielding a 4.7% accuracy gain and 7.5% boost to base MLLMs via late interaction and reflective answering.

Text-Guided Visual Representation Learning for Robust Multimodal E-Commerce Recommendation

cs.IR · 2026-05-17 · unverdicted · novelty 6.0

TGQ-Former uses metadata-guided hybrid queries and dual-gated modulation to improve visual token selection in multimodal e-commerce retrieval, raising average Hit Rate@100 by 6.04% over baselines.

citing papers explorer

Showing 3 of 3 citing papers.

Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images cs.CV · 2026-04-08 · unverdicted · none · ref 30
A new cross-cultural benchmark shows vision-language models infer structured cultural metadata from images inconsistently, with fragmented signals and large performance gaps across regions and metadata types.
Enabling Collaborative Parametric Knowledge Calibration for Retrieval-Augmented Vision Question Answering cs.CV · 2025-04-05 · unverdicted · none · ref 21
A collaborative parametric knowledge calibration framework for retrieval-augmented KB-VQA enables bidirectional knowledge sharing between retriever and generator, yielding a 4.7% accuracy gain and 7.5% boost to base MLLMs via late interaction and reflective answering.
Text-Guided Visual Representation Learning for Robust Multimodal E-Commerce Recommendation cs.IR · 2026-05-17 · unverdicted · none · ref 20
TGQ-Former uses metadata-guided hybrid queries and dual-gated modulation to improve visual token selection in multimodal e-commerce retrieval, raising average Hit Rate@100 by 6.04% over baselines.

Title resolution pending

fields

years

verdicts

representative citing papers

citing papers explorer