-C., van der Schaar, M.: SynthCity: facilitating innovative use cases of synthetic data in different data modalities

Zhaozhi Qian, Bogdan-Constantin Cebere, Mihaela van der Schaar · 2023 · arXiv 2301.07573

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

representative citing papers

When Tables Leak: Attacking String Memorization in LLM-Based Tabular Data Generation

cs.LG · 2025-12-09 · conditional · novelty 7.0

LLM tabular generators leak memorized numeric strings, allowing a no-box attack to achieve near-perfect membership inference on some state-of-the-art models.

GenTS: A Comprehensive Benchmark Library for Generative Time Series Models

cs.LG · 2026-05-18 · unverdicted · novelty 6.0

GenTS is a modular benchmark library providing unified data pipelines, generative models, and evaluation metrics for time series synthesis, forecasting, and imputation, with open-source code and initial benchmarking experiments.

Quality Degradation Attack in Synthetic Data

cs.CR · 2026-01-06 · unverdicted · novelty 6.0

Adversaries can degrade synthetic data quality via small manipulations such as label flipping or feature-importance interventions, substantially harming downstream model performance and increasing statistical divergence from real data.

Can Synthetic Data be Fair and Private? A Comparative Study of Synthetic Data Generation and Fairness Algorithms

cs.LG · 2025-01-03 · unverdicted · novelty 5.0

DECAF synthetic data generator best balances privacy and fairness while fairness pre-processing improves outcomes more on synthetic data than real data, though at some cost to predictive accuracy.

Creating Artificial Students that Never Existed: Leveraging Large Language Models and CTGANs for Synthetic Data Generation

cs.LG · 2025-01-03 · unverdicted · novelty 3.0

CTGAN and LLMs generate synthetic student data that passes statistical and predictive utility checks for learning analytics.

citing papers explorer

Showing 5 of 5 citing papers.

When Tables Leak: Attacking String Memorization in LLM-Based Tabular Data Generation cs.LG · 2025-12-09 · conditional · none · ref 41
LLM tabular generators leak memorized numeric strings, allowing a no-box attack to achieve near-perfect membership inference on some state-of-the-art models.
GenTS: A Comprehensive Benchmark Library for Generative Time Series Models cs.LG · 2026-05-18 · unverdicted · none · ref 43
GenTS is a modular benchmark library providing unified data pipelines, generative models, and evaluation metrics for time series synthesis, forecasting, and imputation, with open-source code and initial benchmarking experiments.
Quality Degradation Attack in Synthetic Data cs.CR · 2026-01-06 · unverdicted · none · ref 19
Adversaries can degrade synthetic data quality via small manipulations such as label flipping or feature-importance interventions, substantially harming downstream model performance and increasing statistical divergence from real data.
Can Synthetic Data be Fair and Private? A Comparative Study of Synthetic Data Generation and Fairness Algorithms cs.LG · 2025-01-03 · unverdicted · none · ref 47
DECAF synthetic data generator best balances privacy and fairness while fairness pre-processing improves outcomes more on synthetic data than real data, though at some cost to predictive accuracy.
Creating Artificial Students that Never Existed: Leveraging Large Language Models and CTGANs for Synthetic Data Generation cs.LG · 2025-01-03 · unverdicted · none · ref 44
CTGAN and LLMs generate synthetic student data that passes statistical and predictive utility checks for learning analytics.

-C., van der Schaar, M.: SynthCity: facilitating innovative use cases of synthetic data in different data modalities

fields

years

verdicts

representative citing papers

citing papers explorer