{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2025:BP2MKXXL2SCTJX3KA6WVAJKXEW","short_pith_number":"pith:BP2MKXXL","schema_version":"1.0","canonical_sha256":"0bf4c55eebd48534df6a07ad502557259f6c207ce686c1589db71f712631929b","source":{"kind":"arxiv","id":"2507.04590","version":1},"attestation_state":"computed","paper":{"title":"VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.CV","authors_text":"Caiming Xiong, Can Qin, Mingyi Su, Ran Xu, Rui Meng, Semih Yavuz, Wenhu Chen, Xinyi Yang, Ye Liu, Yingbo Zhou, Yuepeng Fu, Zeyuan Chen, Ziyan Jiang","submitted_at":"2025-07-07T00:51:57Z","abstract_excerpt":"Multimodal embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering over different modalities. However, existing multimodal embeddings like VLM2Vec, E5-V, GME are predominantly focused on natural images, with limited support for other visual forms such as videos and visual documents. This restricts their applicability in real-world scenarios, including AI agents, multi-modal search and recommendation, and retrieval-augmented generation (RAG). To close this gap, we propose VLM2Vec-V2, a unified framework for learn"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":false,"formal_links_present":false},"canonical_record":{"source":{"id":"2507.04590","kind":"arxiv","version":1},"metadata":{"license":"http://creativecommons.org/licenses/by/4.0/","primary_cat":"cs.CV","submitted_at":"2025-07-07T00:51:57Z","cross_cats_sorted":["cs.CL"],"title_canon_sha256":"770639c941a8e127cae28198abdbfa05641bba94f2b0b7b476930fcb69512fc0","abstract_canon_sha256":"241f92326e99282f30f2da9a6ec904fef1d1d8d4eafb4475ea3030afd9c95b12"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-18T14:03:49.029853Z","signature_b64":"iH8kHKCgwXA1LBHKwkZ3WlNU5V5nhDXSN/qDSKBdYB7GI99RcAuRrUzHzyhAxNwJoIIrvo3ATild9eZ/H3vYBg==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"0bf4c55eebd48534df6a07ad502557259f6c207ce686c1589db71f712631929b","last_reissued_at":"2026-05-18T14:03:49.027205Z","signature_status":"signed_v1","first_computed_at":"2026-05-18T14:03:49.027205Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents","license":"http://creativecommons.org/licenses/by/4.0/","headline":"","cross_cats":["cs.CL"],"primary_cat":"cs.CV","authors_text":"Caiming Xiong, Can Qin, Mingyi Su, Ran Xu, Rui Meng, Semih Yavuz, Wenhu Chen, Xinyi Yang, Ye Liu, Yingbo Zhou, Yuepeng Fu, Zeyuan Chen, Ziyan Jiang","submitted_at":"2025-07-07T00:51:57Z","abstract_excerpt":"Multimodal embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering over different modalities. However, existing multimodal embeddings like VLM2Vec, E5-V, GME are predominantly focused on natural images, with limited support for other visual forms such as videos and visual documents. This restricts their applicability in real-world scenarios, including AI agents, multi-modal search and recommendation, and retrieval-augmented generation (RAG). To close this gap, we propose VLM2Vec-V2, a unified framework for learn"},"claims":{"count":0,"items":[],"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"source":{"id":"2507.04590","kind":"arxiv","version":1},"verdict":{"id":null,"model_set":{},"created_at":null,"strongest_claim":"","one_line_summary":"","pipeline_version":null,"weakest_assumption":"","pith_extraction_headline":""},"references":{"count":0,"sample":[],"resolved_work":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57","internal_anchors":0},"formal_canon":{"evidence_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"2507.04590","created_at":"2026-05-18T14:03:49.027334+00:00"},{"alias_kind":"arxiv_version","alias_value":"2507.04590v1","created_at":"2026-05-18T14:03:49.027334+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.2507.04590","created_at":"2026-05-18T14:03:49.027334+00:00"},{"alias_kind":"pith_short_12","alias_value":"BP2MKXXL2SCT","created_at":"2026-05-18T14:03:49.027334+00:00"},{"alias_kind":"pith_short_16","alias_value":"BP2MKXXL2SCTJX3K","created_at":"2026-05-18T14:03:49.027334+00:00"},{"alias_kind":"pith_short_8","alias_value":"BP2MKXXL","created_at":"2026-05-18T14:03:49.027334+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":24,"internal_anchor_count":24,"sample":[{"citing_arxiv_id":"2602.10445","citing_title":"End-to-End Semantic ID Generation for Generative Advertisement Recommendation","ref_index":17,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21832","citing_title":"FLUID: From Ephemeral IDs to Multimodal Semantic Codes for Industrial-Scale Livestreaming Recommendation","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22552","citing_title":"FashionLens: Toward Versatile Fashion Image Retrieval via Task-Adaptive Learning","ref_index":15,"is_internal_anchor":true},{"citing_arxiv_id":"2605.16638","citing_title":"TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2509.18095","citing_title":"MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2509.24621","citing_title":"FreeRet: MLLMs as Training-Free Retrievers","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2512.13511","citing_title":"Adapting MLLMs for Nuanced Video Retrieval","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2601.21262","citing_title":"CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2603.12572","citing_title":"LMEB: Long-horizon Memory Embedding Benchmark","ref_index":22,"is_internal_anchor":true},{"citing_arxiv_id":"2605.13277","citing_title":"Utility-Oriented Visual Evidence Selection for Multimodal Retrieval-Augmented Generation","ref_index":2,"is_internal_anchor":true},{"citing_arxiv_id":"2604.02073","citing_title":"PLUME: Latent Reasoning Based Universal Multimodal Embedding","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03652","citing_title":"AniMatrix: An Anime Video Generation Model that Thinks in Art, Not Physics","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2601.04720","citing_title":"Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2604.26565","citing_title":"DenseStep2M: A Scalable, Training-Free Pipeline for Dense Instructional Video Annotation","ref_index":52,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03652","citing_title":"AniMatrix: An Anime Video Generation Model that Thinks in Art, Not Physics","ref_index":55,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23321","citing_title":"MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models","ref_index":23,"is_internal_anchor":true},{"citing_arxiv_id":"2604.22280","citing_title":"Beyond Chain-of-Thought: Rewrite as a Universal Interface for Generative Multimodal Embeddings","ref_index":37,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11095","citing_title":"Bottleneck Tokens for Unified Multimodal Retrieval","ref_index":16,"is_internal_anchor":true},{"citing_arxiv_id":"2604.10167","citing_title":"Visual Late Chunking: An Empirical Study of Contextual Chunking for Efficient Visual Document Retrieval","ref_index":25,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11539","citing_title":"CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2604.15663","citing_title":"CodeMMR: Bridging Natural Language, Code, and Image for Unified Retrieval","ref_index":21,"is_internal_anchor":true},{"citing_arxiv_id":"2604.15628","citing_title":"SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2604.17375","citing_title":"When Text Hijacks Vision: Benchmarking and Mitigating Text Overlay-Induced Hallucination in Vision Language Models","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.03652","citing_title":"AniMatrix: An Anime Video Generation Model that Thinks in Art, Not Physics","ref_index":55,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":0,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/BP2MKXXL2SCTJX3KA6WVAJKXEW","json":"https://pith.science/pith/BP2MKXXL2SCTJX3KA6WVAJKXEW.json","graph_json":"https://pith.science/api/pith-number/BP2MKXXL2SCTJX3KA6WVAJKXEW/graph.json","events_json":"https://pith.science/api/pith-number/BP2MKXXL2SCTJX3KA6WVAJKXEW/events.json","paper":"https://pith.science/paper/BP2MKXXL"},"agent_actions":{"view_html":"https://pith.science/pith/BP2MKXXL2SCTJX3KA6WVAJKXEW","download_json":"https://pith.science/pith/BP2MKXXL2SCTJX3KA6WVAJKXEW.json","view_paper":"https://pith.science/paper/BP2MKXXL","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=2507.04590&json=true","fetch_graph":"https://pith.science/api/pith-number/BP2MKXXL2SCTJX3KA6WVAJKXEW/graph.json","fetch_events":"https://pith.science/api/pith-number/BP2MKXXL2SCTJX3KA6WVAJKXEW/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/BP2MKXXL2SCTJX3KA6WVAJKXEW/action/timestamp_anchor","attest_storage":"https://pith.science/pith/BP2MKXXL2SCTJX3KA6WVAJKXEW/action/storage_attestation","attest_author":"https://pith.science/pith/BP2MKXXL2SCTJX3KA6WVAJKXEW/action/author_attestation","sign_citation":"https://pith.science/pith/BP2MKXXL2SCTJX3KA6WVAJKXEW/action/citation_signature","submit_replication":"https://pith.science/pith/BP2MKXXL2SCTJX3KA6WVAJKXEW/action/replication_record"}},"created_at":"2026-05-18T14:03:49.027334+00:00","updated_at":"2026-05-18T14:03:49.027334+00:00"}