Vision-rwkv: Efficient and scalable visual perception with rwkv-like architectures.arXiv preprint arXiv:2403.02308

Yuchen Duan, Weiyun Wang, Zhe Chen, et al · 2024 · arXiv 2403.02308

6 Pith papers cite this work. Polarity classification is still indexing.

6 Pith papers citing it

read on arXiv browse 6 citing papers

citation-role summary

background 1 baseline 1

citation-polarity summary

background 1 baseline 1

representative citing papers

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents

cs.AI · 2026-05-11 · unverdicted · novelty 7.0

PaperFit uses rendered page images in a closed loop to diagnose and repair typesetting defects in LaTeX documents, outperforming baselines on a new benchmark of 200 papers.

HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet

cs.CV · 2026-04-16 · unverdicted · novelty 6.0

HAMSA achieves 85.7% ImageNet-1K top-1 accuracy as a spectral-domain SSM with 2.2x faster inference and lower memory than transformers or scanning-based SSMs.

SCRWKV: Ultra-Compact Structure-Calibrated Vision-RWKV for Topological Crack Segmentation

cs.CV · 2026-05-14 · unverdicted · novelty 5.0

SCRWKV is a 1.22M-parameter Vision-RWKV model using Structure-Field Encoder with AMCM and SCIU modules plus CSHF decoder that reports F1 0.8428 and mIoU 0.8512 on TUT crack dataset while claiming to outperform prior SOTA.

PestVL-Net: Enabling Multimodal Pest Learning via Fine-grained Vision-Language Interaction

cs.CV · 2026-04-19 · unverdicted · novelty 5.0

PestVL-Net combines an RWKV visual backbone with saliency-guided window partitioning and MLLM-derived linguistic priors via multimodal chain-of-thought to enable fine-grained multimodal pest recognition on dedicated datasets.

MFC-RFNet: A Multi-scale Guided Rectified Flow Network for Radar Sequence Prediction

cs.CV · 2026-01-07 · unverdicted · novelty 5.0

MFC-RFNet integrates multi-scale bidirectional communication, condition-guided alignment, and rectified flow to produce clearer and more skillful radar precipitation forecasts than prior baselines on four public datasets.

Cross-Modal Iteration Distillation for Robust IHD Screening: The IDNet Framework and A New Benchmark

cs.CV · 2026-06-29 · unverdicted · novelty 4.0

IDNet uses cross-modal distillation to integrate eye images and clinical variables, outperforming baselines on a new benchmark of 50,410 UK Biobank images for IHD screening.

citing papers explorer

Showing 6 of 6 citing papers after filters.

PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents cs.AI · 2026-05-11 · unverdicted · none · ref 55
PaperFit uses rendered page images in a closed loop to diagnose and repair typesetting defects in LaTeX documents, outperforming baselines on a new benchmark of 200 papers.
HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet cs.CV · 2026-04-16 · unverdicted · none · ref 7
HAMSA achieves 85.7% ImageNet-1K top-1 accuracy as a spectral-domain SSM with 2.2x faster inference and lower memory than transformers or scanning-based SSMs.
SCRWKV: Ultra-Compact Structure-Calibrated Vision-RWKV for Topological Crack Segmentation cs.CV · 2026-05-14 · unverdicted · none · ref 2
SCRWKV is a 1.22M-parameter Vision-RWKV model using Structure-Field Encoder with AMCM and SCIU modules plus CSHF decoder that reports F1 0.8428 and mIoU 0.8512 on TUT crack dataset while claiming to outperform prior SOTA.
PestVL-Net: Enabling Multimodal Pest Learning via Fine-grained Vision-Language Interaction cs.CV · 2026-04-19 · unverdicted · none · ref 8
PestVL-Net combines an RWKV visual backbone with saliency-guided window partitioning and MLLM-derived linguistic priors via multimodal chain-of-thought to enable fine-grained multimodal pest recognition on dedicated datasets.
MFC-RFNet: A Multi-scale Guided Rectified Flow Network for Radar Sequence Prediction cs.CV · 2026-01-07 · unverdicted · none · ref 22
MFC-RFNet integrates multi-scale bidirectional communication, condition-guided alignment, and rectified flow to produce clearer and more skillful radar precipitation forecasts than prior baselines on four public datasets.
Cross-Modal Iteration Distillation for Robust IHD Screening: The IDNet Framework and A New Benchmark cs.CV · 2026-06-29 · unverdicted · none · ref 16
IDNet uses cross-modal distillation to integrate eye images and clinical variables, outperforming baselines on a new benchmark of 50,410 UK Biobank images for IHD screening.

Vision-rwkv: Efficient and scalable visual perception with rwkv-like architectures.arXiv preprint arXiv:2403.02308

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer