Datasets for large language models: A comprehensive survey

· 2024 · arXiv 2402.18041

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

read on arXiv browse 5 citing papers

citation-role summary

background 2

citation-polarity summary

background 2

representative citing papers

Pop Quiz Attack: Black-box Membership Inference Attacks Against Large Language Models

cs.CR · 2026-05-07 · unverdicted · novelty 6.0

PopQuiz Attack infers LLM training data membership by turning examples into quiz questions and measuring answer accuracy, reaching 0.873 average ROC-AUC across six models and outperforming prior methods by 20.6%.

Bridging Generation and Training: A Systematic Review of Quality Issues in LLMs for Code

cs.SE · 2026-05-06 · accept · novelty 6.0

A review of 114 studies creates taxonomies for code and data quality issues, formalizes 18 propagation mechanisms from training data defects to LLM-generated code defects, and synthesizes detection and mitigation techniques.

Malicious ML Model Detection by Learning Dynamic Behaviors

cs.CR · 2026-04-21 · unverdicted · novelty 6.0

DynaHug trains an OCSVM on dynamic runtime behaviors of benign PTMs and achieves up to 44% higher F1-score than static, dynamic, and LLM-based baselines on over 25,000 models.

Distributional Statistics Restore Training Data Auditability in One-step Distilled Diffusion Models

cs.LG · 2025-02-05 · unverdicted · novelty 6.0

Kernel-based distributional discrepancy enables auditing of upstream training data in distilled one-step diffusion models by detecting preserved distributional alignment rather than per-instance memorization.

STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator

cs.AI · 2026-04-27 · unverdicted · novelty 5.0

STELLAR-E modifies the TGRT Self-Instruct framework to produce tailored synthetic LLM evaluation datasets that score an average 5.7% higher on LLM-as-a-judge metrics than existing language-specific benchmarks.

citing papers explorer

Showing 5 of 5 citing papers.

Pop Quiz Attack: Black-box Membership Inference Attacks Against Large Language Models cs.CR · 2026-05-07 · unverdicted · none · ref 27
PopQuiz Attack infers LLM training data membership by turning examples into quiz questions and measuring answer accuracy, reaching 0.873 average ROC-AUC across six models and outperforming prior methods by 20.6%.
Bridging Generation and Training: A Systematic Review of Quality Issues in LLMs for Code cs.SE · 2026-05-06 · accept · none · ref 76
A review of 114 studies creates taxonomies for code and data quality issues, formalizes 18 propagation mechanisms from training data defects to LLM-generated code defects, and synthesizes detection and mitigation techniques.
Malicious ML Model Detection by Learning Dynamic Behaviors cs.CR · 2026-04-21 · unverdicted · none · ref 48
DynaHug trains an OCSVM on dynamic runtime behaviors of benign PTMs and achieves up to 44% higher F1-score than static, dynamic, and LLM-based baselines on over 25,000 models.
Distributional Statistics Restore Training Data Auditability in One-step Distilled Diffusion Models cs.LG · 2025-02-05 · unverdicted · none · ref 6
Kernel-based distributional discrepancy enables auditing of upstream training data in distilled one-step diffusion models by detecting preserved distributional alignment rather than per-instance memorization.
STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator cs.AI · 2026-04-27 · unverdicted · none · ref 18
STELLAR-E modifies the TGRT Self-Instruct framework to produce tailored synthetic LLM evaluation datasets that score an average 5.7% higher on LLM-as-a-judge metrics than existing language-specific benchmarks.

Datasets for large language models: A comprehensive survey

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer