Dhen: A deep and hierarchical ensemble network for large-scale click-through rate prediction

Buyun Zhang, Liang Luo, Xi Liu, Jay Li, Zeliang Chen, Weilin Zhang, Xiaohan Wei, Yuchen Hao, Michael Tsang, Wenjun Wang, et al · 2022 · arXiv 2203.11014

11 Pith papers cite this work. Polarity classification is still indexing.

11 Pith papers citing it

read on arXiv browse 11 citing papers

citation-role summary

background 3

citation-polarity summary

background 3

representative citing papers

LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

cs.IR · 2026-04-21 · unverdicted · novelty 7.0

LoopCTR trains CTR models with recursive layer reuse and process supervision so that zero-loop inference outperforms baselines on public and industrial datasets.

Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation

cs.IR · 2026-04-04 · accept · novelty 7.0

Releases TencentGR-1M and TencentGR-10M datasets with baselines for all-modality generative recommendation in advertising, including weighted evaluation for conversions.

LoKA: Low-precision Kernel Applications for Recommendation Models At Scale

cs.LG · 2026-05-11 · unverdicted · novelty 6.0 · 2 refs

LoKA enables practical FP8 use in numerically sensitive large recommendation models via online profiling of activations, reusable model modifications for stability, and dynamic kernel dispatching.

Efficient Retrieval Scaling with Hierarchical Indexing for Large Scale Recommendation

cs.IR · 2026-04-14 · unverdicted · novelty 6.0

A jointly learned hierarchical index with cross-attention and residual quantization scales exact retrieval in foundational recommendation models, deployed at Meta with additional performance from test-time training on index nodes.

FLAME: Condensing Ensemble Diversity into a Single Network for Efficient Sequential Recommendation

cs.IR · 2026-04-05 · conditional · novelty 6.0

FLAME condenses ensemble diversity into a single network via modular ensemble simulation and guided mutual learning during training, delivering ensemble-level performance with single-network inference speed on sequential recommendation tasks.

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel

cs.DC · 2023-04-21 · unverdicted · novelty 6.0

PyTorch Fully Sharded Data Parallel enables training of significantly larger models than Distributed Data Parallel with comparable speed and near-linear TFLOPS scaling.

GR2 Technical Report

cs.IR · 2026-06-30 · unverdicted · novelty 5.0

GR2 applies mid-training on semantic IDs, reasoning distillation, RL with conditional verifiable rewards, and a context compressor to re-ranking in industrial recsys, reporting +18.7% R@1 over baselines.

DeMix: Debugging Training Data with Mixed Data Error Types by Investigating Influence Vectors

cs.LG · 2026-06-10 · unverdicted · novelty 5.0

DeMix diagnoses mixed error types in training data via influence-vector-based multi-label classification with an intervention strategy, reporting 22.61% F1 gain and 9.32% downstream improvement on 11 tasks.

Memento: Personalized RAG-Style Long-Retention Data Scaling for META Ads Recommendation

cs.IR · 2026-05-22 · unverdicted · novelty 5.0

Memento applies personalized RAG-style retrieval to long user history for Meta ads models, delivering 5-10x efficiency, sub-10ms latency, and 1% CTR / 1.2% CVR lifts in production.

On the Practice of Scaling Search Conversion Rate Prediction

cs.IR · 2026-05-28 · unverdicted · novelty 2.0

Empirical scaling of backbone, embeddings, and data shows largely independent additive gains, enabling a deployed model with 2.5x data and 8x compute that delivers +2.6% CVR improvement with minimal latency change.

SOLARIS: Speculative Offloading of Latent-bAsed Representation for Inference Scaling

cs.LG · 2026-04-13

citing papers explorer

Showing 11 of 11 citing papers.

LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction cs.IR · 2026-04-21 · unverdicted · none · ref 24
LoopCTR trains CTR models with recursive layer reuse and process supervision so that zero-loop inference outperforms baselines on public and industrial datasets.
Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation cs.IR · 2026-04-04 · accept · none · ref 67
Releases TencentGR-1M and TencentGR-10M datasets with baselines for all-modality generative recommendation in advertising, including weighted evaluation for conversions.
LoKA: Low-precision Kernel Applications for Recommendation Models At Scale cs.LG · 2026-05-11 · unverdicted · none · ref 84 · 2 links
LoKA enables practical FP8 use in numerically sensitive large recommendation models via online profiling of activations, reusable model modifications for stability, and dynamic kernel dispatching.
Efficient Retrieval Scaling with Hierarchical Indexing for Large Scale Recommendation cs.IR · 2026-04-14 · unverdicted · none · ref 72
A jointly learned hierarchical index with cross-attention and residual quantization scales exact retrieval in foundational recommendation models, deployed at Meta with additional performance from test-time training on index nodes.
FLAME: Condensing Ensemble Diversity into a Single Network for Efficient Sequential Recommendation cs.IR · 2026-04-05 · conditional · none · ref 58
FLAME condenses ensemble diversity into a single network via modular ensemble simulation and guided mutual learning during training, delivering ensemble-level performance with single-network inference speed on sequential recommendation tasks.
PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel cs.DC · 2023-04-21 · unverdicted · none · ref 35
PyTorch Fully Sharded Data Parallel enables training of significantly larger models than Distributed Data Parallel with comparable speed and near-linear TFLOPS scaling.
GR2 Technical Report cs.IR · 2026-06-30 · unverdicted · none · ref 17
GR2 applies mid-training on semantic IDs, reasoning distillation, RL with conditional verifiable rewards, and a context compressor to re-ranking in industrial recsys, reporting +18.7% R@1 over baselines.
DeMix: Debugging Training Data with Mixed Data Error Types by Investigating Influence Vectors cs.LG · 2026-06-10 · unverdicted · none · ref 40
DeMix diagnoses mixed error types in training data via influence-vector-based multi-label classification with an intervention strategy, reporting 22.61% F1 gain and 9.32% downstream improvement on 11 tasks.
Memento: Personalized RAG-Style Long-Retention Data Scaling for META Ads Recommendation cs.IR · 2026-05-22 · unverdicted · none · ref 11
Memento applies personalized RAG-style retrieval to long user history for Meta ads models, delivering 5-10x efficiency, sub-10ms latency, and 1% CTR / 1.2% CVR lifts in production.
On the Practice of Scaling Search Conversion Rate Prediction cs.IR · 2026-05-28 · unverdicted · none · ref 33
Empirical scaling of backbone, embeddings, and data shows largely independent additive gains, enabling a deployed model with 2.5x data and 8x compute that delivers +2.6% CVR improvement with minimal latency change.
SOLARIS: Speculative Offloading of Latent-bAsed Representation for Inference Scaling cs.LG · 2026-04-13 · unreviewed · ref 43

Dhen: A deep and hierarchical ensemble network for large-scale click-through rate prediction

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer