UNK s everywhere: A dapting multilingual language models to new scripts

Sebastian Ruder · 2021 · DOI 10.18653/v1/2021.emnlp-main.800

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

open at publisher browse 3 citing papers

representative citing papers

TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment

cs.CL · 2026-05-13 · unverdicted · novelty 7.0

TokAlign++ learns token alignments between LLM vocabularies from monolingual representations to enable faster adaptation, better text compression, and effective token-level distillation across 15 languages with minimal steps.

Adapting TrOCR for Printed Tigrinya Text Recognition: Word-Aware Loss Weighting for Cross-Script Transfer Learning

cs.CV · 2026-04-22 · conditional · novelty 6.0

First TrOCR adaptation for Tigrinya achieves 0.22% CER and 97.2% exact match using tokenizer extension plus Word-Aware Loss Weighting on 5000 synthetic GLOCR images.

ANGOFA: Leveraging OFA Embedding Initialization and Synthetic Data for Angolan Language Model

cs.CL · 2024-04-03 · unverdicted · novelty 4.0

Four MAFT-based PLMs for Angolan languages report 12.3-point gains over AfroXLMR-base and 3.8-point gains over OFA baselines on downstream tasks.

citing papers explorer

Showing 3 of 3 citing papers.

TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment cs.CL · 2026-05-13 · unverdicted · none · ref 25
TokAlign++ learns token alignments between LLM vocabularies from monolingual representations to enable faster adaptation, better text compression, and effective token-level distillation across 15 languages with minimal steps.
Adapting TrOCR for Printed Tigrinya Text Recognition: Word-Aware Loss Weighting for Cross-Script Transfer Learning cs.CV · 2026-04-22 · conditional · none · ref 15
First TrOCR adaptation for Tigrinya achieves 0.22% CER and 97.2% exact match using tokenizer extension plus Word-Aware Loss Weighting on 5000 synthetic GLOCR images.
ANGOFA: Leveraging OFA Embedding Initialization and Synthetic Data for Angolan Language Model cs.CL · 2024-04-03 · unverdicted · none · ref 20
Four MAFT-based PLMs for Angolan languages report 12.3-point gains over AfroXLMR-base and 3.8-point gains over OFA baselines on downstream tasks.

UNK s everywhere: A dapting multilingual language models to new scripts

fields

years

verdicts

representative citing papers

citing papers explorer