Exploring models and data for remote sensing image caption generation,

· 2017

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

browse 3 citing papers

representative citing papers

D2-CDIG: Controlled Diffusion Remote Sensing Image Generation with Dual Priors of DEM and Cloud-Fog

cs.CV · 2026-05-14 · unverdicted · novelty 6.0

D2-CDIG conditions diffusion models on DEM and cloud-fog priors to generate controlled remote sensing images with decoupled terrain and atmospheric control.

Sentinel2Cap: A Human-Annotated Benchmark Dataset for Multimodal Remote Sensing Image Captioning

cs.CV · 2026-05-04 · unverdicted · novelty 6.0

Sentinel2Cap provides human-annotated captions for multimodal Sentinel satellite images, with zero-shot tests showing RGB outperforming SAR and prompts helping performance.

JSSFF: A Joint Structural-Semantic Fusion Framework for Remote Sensing Image Captioning

cs.CV · 2026-04-27 · unverdicted · novelty 4.0

JSSFF improves remote sensing image captioning by fusing structural edge details with semantic features in an encoder-decoder model and using fairness-based beam search, outperforming baselines on quantitative and qualitative measures.

citing papers explorer

Showing 3 of 3 citing papers.

D2-CDIG: Controlled Diffusion Remote Sensing Image Generation with Dual Priors of DEM and Cloud-Fog cs.CV · 2026-05-14 · unverdicted · none · ref 27
D2-CDIG conditions diffusion models on DEM and cloud-fog priors to generate controlled remote sensing images with decoupled terrain and atmospheric control.
Sentinel2Cap: A Human-Annotated Benchmark Dataset for Multimodal Remote Sensing Image Captioning cs.CV · 2026-05-04 · unverdicted · none · ref 8
Sentinel2Cap provides human-annotated captions for multimodal Sentinel satellite images, with zero-shot tests showing RGB outperforming SAR and prompts helping performance.
JSSFF: A Joint Structural-Semantic Fusion Framework for Remote Sensing Image Captioning cs.CV · 2026-04-27 · unverdicted · none · ref 7
JSSFF improves remote sensing image captioning by fusing structural edge details with semantic features in an encoder-decoder model and using fairness-based beam search, outperforming baselines on quantitative and qualitative measures.

Exploring models and data for remote sensing image caption generation,

fields

years

verdicts

representative citing papers

citing papers explorer