Thirty-seventh Conference on Neural Information Processing Systems , year=

Visual Instruction Tuning , author=

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

representative citing papers

DoRA: Weight-Decomposed Low-Rank Adaptation

cs.CL · 2024-02-14 · accept · novelty 6.0

DoRA improves LoRA by decomposing weights into magnitude and direction and updating only direction with low-rank matrices, closing much of the gap to full fine-tuning.

Investigating Cross-Modal Skill Injection: Scenarios, Methods, and Hyperparameters

cs.CL · 2026-05-19 · unverdicted · novelty 5.0

Systematic evaluation finds cross-modal skill injection via model merging succeeds in instruction-following and cross-lingual scenarios but fails in mathematical reasoning, with TA and DARE methods outperforming others after hyperparameter analysis.

Self-Captioning Multimodal Interaction Tuning: Amplifying Exploitable Redundancies for Robust Vision Language Models

cs.CV · 2026-05-03 · unverdicted · novelty 4.0

Introduces self-captioning and a Multimodal Interaction Gate to amplify redundant multimodal interactions, reporting 38.3% reduction in visual-induced errors and 16.8% consistency improvement.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Investigating Cross-Modal Skill Injection: Scenarios, Methods, and Hyperparameters cs.CL · 2026-05-19 · unverdicted · none · ref 46
Systematic evaluation finds cross-modal skill injection via model merging succeeds in instruction-following and cross-lingual scenarios but fails in mathematical reasoning, with TA and DARE methods outperforming others after hyperparameter analysis.
Self-Captioning Multimodal Interaction Tuning: Amplifying Exploitable Redundancies for Robust Vision Language Models cs.CV · 2026-05-03 · unverdicted · none · ref 66
Introduces self-captioning and a Multimodal Interaction Gate to amplify redundant multimodal interactions, reporting 38.3% reduction in visual-induced errors and 16.8% consistency improvement.

Thirty-seventh Conference on Neural Information Processing Systems , year=

fields

years

verdicts

representative citing papers

citing papers explorer