Reinforcement learning from multi-role debates as feedback for bias mitigation in llms,

· 2024 · arXiv 2404.10160

1 Pith paper cite this work. Polarity classification is still indexing.

1 Pith paper citing it

representative citing papers

Membership Inference for Contrastive Pre-training Models with Text-only PII Queries

cs.CR · 2026-03-15 · unverdicted · novelty 7.0

UMID infers membership in contrastive pre-training data using only text queries by performing latent inversion and comparing similarity and variability signals to synthetic gibberish references via unsupervised anomaly detection.

citing papers explorer

Showing 1 of 1 citing paper.

Membership Inference for Contrastive Pre-training Models with Text-only PII Queries cs.CR · 2026-03-15 · unverdicted · none · ref 37
UMID infers membership in contrastive pre-training data using only text queries by performing latent inversion and comparing similarity and variability signals to synthetic gibberish references via unsupervised anomaly detection.

Reinforcement learning from multi-role debates as feedback for bias mitigation in llms,

fields

years

verdicts

representative citing papers

citing papers explorer