Can LLM s Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric

Koh, Hyukhun, Kim, Dohyung, Lee, Minwoo, Jung, Kyomin · 2024 · DOI 10.18653/v1/2024.findings-emnlp.353

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

open at publisher browse 3 citing papers

representative citing papers

Casual as an Anchor: Resolving Supervision Misalignment in Formality Transfer Dataset

cs.CL · 2026-05-28 · unverdicted · novelty 7.0

The authors introduce a three-level formality spectrum (informal, casual, formal) and the 3LF dataset to correct supervision misalignment in formality transfer, reporting large gains in informal-to-formal performance on models including GPT variants.

Safety is Contextual, LLM-Judges Are Not: Navigating the Rigid Priors of Evaluators

cs.AI · 2026-06-05 · unverdicted · novelty 5.0

LLM safety judges resist adjusting evaluations when given contradictory context or new safety definitions, despite some ability to learn from new information.

A Survey of Toxicity Detection and Mitigation Strategies for Multilingual Language Models

cs.CL · 2026-06-24 · unverdicted · novelty 1.0

A survey that catalogs threat models, detection approaches, and mitigation strategies for toxicity in multilingual LLMs while identifying challenges such as uneven language coverage and culturally variable harm definitions.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Casual as an Anchor: Resolving Supervision Misalignment in Formality Transfer Dataset cs.CL · 2026-05-28 · unverdicted · none · ref 19
The authors introduce a three-level formality spectrum (informal, casual, formal) and the 3LF dataset to correct supervision misalignment in formality transfer, reporting large gains in informal-to-formal performance on models including GPT variants.
A Survey of Toxicity Detection and Mitigation Strategies for Multilingual Language Models cs.CL · 2026-06-24 · unverdicted · none · ref 64
A survey that catalogs threat models, detection approaches, and mitigation strategies for toxicity in multilingual LLMs while identifying challenges such as uneven language coverage and culturally variable harm definitions.

Can LLM s Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric

fields

years

verdicts

representative citing papers

citing papers explorer