Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

Sander Land, Max Bartolo · 2024 · DOI 10.18653/v1/2024.emnlp-main.649

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

open at publisher browse 3 citing papers

citation-role summary

other 1

citation-polarity summary

unclear 1

representative citing papers

ReTokSync: Self-Synchronizing Tokenization Disambiguation for Generative Linguistic Steganography

cs.CR · 2026-04-28 · unverdicted · novelty 7.0

ReTokSync resolves tokenization ambiguity in generative linguistic steganography via targeted self-synchronizing resets, achieving over 99.7% extraction accuracy and 100% recovery with an auxiliary channel while matching baseline security and quality.

Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization

cs.CL · 2026-05-17 · unverdicted · novelty 6.0

Vocabulary adaptation via targeted token addition and replacement improves semantic similarity, domain word usage, and training efficiency for LLM summarization in legal and medical domains.

Tokenization with Split Trees

cs.CL · 2026-05-21

citing papers explorer

Showing 3 of 3 citing papers.

ReTokSync: Self-Synchronizing Tokenization Disambiguation for Generative Linguistic Steganography cs.CR · 2026-04-28 · unverdicted · none · ref 12
ReTokSync resolves tokenization ambiguity in generative linguistic steganography via targeted self-synchronizing resets, achieving over 99.7% extraction accuracy and 100% recovery with an auxiliary channel while matching baseline security and quality.
Learning Faster with Better Tokens: Parameter-Efficient Vocabulary Adaptation for Specialized Text Summarization cs.CL · 2026-05-17 · unverdicted · none · ref 64
Vocabulary adaptation via targeted token addition and replacement improves semantic similarity, domain word usage, and training efficiency for LLM summarization in legal and medical domains.
Tokenization with Split Trees cs.CL · 2026-05-21 · unreviewed · ref 56

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer