LLM-JEPA: Large language models meet joint embedding predictive architectures

Hai Huang, Yann LeCun, Randall Balestriero · 2025 · arXiv 2509.14252

7 Pith papers cite this work. Polarity classification is still indexing.

7 Pith papers citing it

read on arXiv browse 7 citing papers

citation-role summary

background 2

citation-polarity summary

background 2

representative citing papers

ProteinJEPA: Latent prediction complements protein language models

cs.LG · 2026-05-08 · unverdicted · novelty 7.0

Masked-position MLM plus JEPA latent prediction outperforms MLM-only pretraining on 10-11 of 16 downstream tasks for 35M-150M protein models while JEPA alone fails.

Semantic Step Prediction: Multi-Step Latent Forecasting in LLM Reasoning Trajectories via Step Sampling

cs.LG · 2026-04-20 · unverdicted · novelty 7.0

Applying STP at consecutive semantic reasoning steps achieves 168x more accurate multi-step latent prediction on ProcessBench than frozen baselines, with trajectories forming smooth curves best captured by non-linear predictors.

Crys-JEPA: Accelerating Crystal Discovery via Embedding Screening and Generative Refinement

cs.LG · 2026-05-14 · unverdicted · novelty 6.0

Crys-JEPA introduces a joint embedding predictive architecture that creates an energy-aware latent space, enabling embedding-based stability screening and a refinement pipeline that yields up to 72.7% gains on the V.S.U.N. metric for crystal generation.

Clin-JEPA: A Multi-Phase Co-Training Framework for Joint-Embedding Predictive Pretraining on EHR Patient Trajectories

cs.LG · 2026-05-11 · unverdicted · novelty 6.0 · 3 refs

Clin-JEPA is a multi-phase co-training framework for JEPA pretraining on EHR data that achieves convergent latent rollouts and improved multi-task AUROC on MIMIC-IV ICU records.

Beyond Thinking: Imagining in 360$^\circ$ for Humanoid Visual Search

cs.CV · 2026-05-09 · unverdicted · novelty 6.0

Imagining in 360° decouples visual search into a single-step probabilistic semantic layout predictor and an actor, removing the need for multi-turn CoT reasoning and trajectory annotations while improving efficiency in 360° environments.

DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models

cs.CL · 2026-05-24 · unverdicted · novelty 5.0

DLLM-JEPA pairs JEPA with masked diffusion LMs to enable single-pass self-supervised fine-tuning that improves task accuracy, lowers held-out loss, and preserves base-model performance.

Representation Without Reward: A JEPA Audit for LLM Fine-Tuning

cs.LG · 2026-05-14 · conditional · novelty 5.0

An empirical audit of 22 JEPA-style training auxiliaries on Llama-3.2-1B fine-tuning for regex generation finds no statistically significant task improvement after multiple-testing correction, even when auxiliaries visibly alter hidden-state geometry.

citing papers explorer

Showing 0 of 0 citing papers after filters.

No citing papers match the current filters.

LLM-JEPA: Large language models meet joint embedding predictive architectures

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer