Film: Visual reasoning with a general conditioning layer

· 2018

9 Pith papers cite this work. Polarity classification is still indexing.

9 Pith papers citing it

browse 9 citing papers

citation-role summary

method 3

citation-polarity summary

use method 3

representative citing papers

SetFlow: Generating Structured Sets of Representations for Multiple Instance Learning

cs.LG · 2026-03-20 · unverdicted · novelty 7.0

SetFlow is a flow-matching generative model for permutation-invariant MIL bags in representation space that produces synthetic data improving classification performance and enabling training on synthetic data alone.

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

cs.CV · 2026-03-07 · unverdicted · novelty 7.0

PSG-UIENet fuses Retinex physics with CLIP-derived text semantics and a new multimodal dataset to enhance underwater images, claiming better results than fifteen prior methods.

Building Deep Graph Predictors with Graph Imitation Learning

cs.CV · 2026-01-21 · unverdicted · novelty 7.0

GRAIL trains graph predictors via imitation learning by modeling generation as sequential decisions on partial graph embeddings, matching or exceeding prior methods on 18 benchmarks.

Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

eess.AS · 2026-04-21 · unverdicted · novelty 6.0

Chain-of-Details (CoD) is a cascaded TTS method that explicitly models temporal coarse-to-fine dynamics with a shared decoder, achieving competitive performance using significantly fewer parameters.

Diffusion Sequence Models for Generative In-Context Meta-Learning of Robot Dynamics

cs.LG · 2026-04-15 · unverdicted · novelty 6.0

Diffusion models for in-context meta-learning of robot dynamics outperform deterministic Transformers in robustness to distribution shifts while enabling real-time operation via warm-started sampling.

Task-Guided Prompting for Unified Remote Sensing Image Restoration

eess.IV · 2026-04-03 · unverdicted · novelty 6.0

TGPNet unifies denoising, cloud removal, shadow removal, deblurring, and SAR despeckling into one model via task-guided prompting and reports state-of-the-art results on a new multi-modal benchmark.

Learning Tactile-Aware Quadrupedal Loco-Manipulation Policies

cs.RO · 2026-04-29 · unverdicted · novelty 5.0 · 2 refs

A hierarchical tactile-aware policy combines human-demonstration training for contact cue prediction with sim-to-real reinforcement learning to improve quadrupedal loco-manipulation performance by 28.54% over vision baselines on contact-rich tasks.

Spatial-Aware Conditioned Fusion for Audio-Visual Navigation

cs.SD · 2026-04-02 · unverdicted · novelty 5.0

SACF discretizes target direction and distance from audio-visual cues then applies conditioned fusion to improve navigation efficiency and generalization to unheard sounds.

Toward Efficient and Robust Behavior Models for Multi-Agent Driving Simulation

cs.RO · 2025-12-05 · unverdicted · novelty 5.0

An instance-centric representation with local frames, relative positional encodings, and adaptive reward transformation in adversarial IRL yields scalable, accurate, and robust behavior models for multi-agent driving simulation.

citing papers explorer

Showing 3 of 3 citing papers after filters.

Task-Guided Prompting for Unified Remote Sensing Image Restoration eess.IV · 2026-04-03 · unverdicted · none · ref 46
TGPNet unifies denoising, cloud removal, shadow removal, deblurring, and SAR despeckling into one model via task-guided prompting and reports state-of-the-art results on a new multi-modal benchmark.
Learning Tactile-Aware Quadrupedal Loco-Manipulation Policies cs.RO · 2026-04-29 · unverdicted · none · ref 27 · 2 links
A hierarchical tactile-aware policy combines human-demonstration training for contact cue prediction with sim-to-real reinforcement learning to improve quadrupedal loco-manipulation performance by 28.54% over vision baselines on contact-rich tasks.
Spatial-Aware Conditioned Fusion for Audio-Visual Navigation cs.SD · 2026-04-02 · unverdicted · none · ref 7
SACF discretizes target direction and distance from audio-visual cues then applies conditioned fusion to improve navigation efficiency and generalization to unheard sounds.

Film: Visual reasoning with a general conditioning layer

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer