IT Technology

· 2023 · arXiv 2308.04948

3 Pith papers cite this work. Polarity classification is still indexing.

3 Pith papers citing it

representative citing papers

TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment

cs.CL · 2026-05-13 · unverdicted · novelty 7.0

TokAlign++ learns token alignments between LLM vocabularies from monolingual representations to enable faster adaptation, better text compression, and effective token-level distillation across 15 languages with minimal steps.

The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models

cs.CL · 2026-04-22 · unverdicted · novelty 7.0

GaoYao supplies a unified three-layer framework and 182k native-quality samples in 26 languages to diagnose LLMs on general multilingual, cross-cultural, and monocultural tasks.

M-DaQ: Retrieving Samples with Multilingual Diversity and Quality for Instruction Fine-Tuning Datasets

cs.CL · 2025-09-19 · unverdicted · novelty 5.0

M-DaQ introduces a diversity-aware sampling framework combining a quality scoring model with maximal marginal relevance selection to build multilingual instruction fine-tuning datasets, yielding models with over 60% average win rates on Alpaca-Eval and MT-Bench across 18 languages.

citing papers explorer

Showing 3 of 3 citing papers.

TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment cs.CL · 2026-05-13 · unverdicted · none · ref 69
TokAlign++ learns token alignments between LLM vocabularies from monolingual representations to enable faster adaptation, better text compression, and effective token-level distillation across 15 languages with minimal steps.
The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models cs.CL · 2026-04-22 · unverdicted · none · ref 7
GaoYao supplies a unified three-layer framework and 182k native-quality samples in 26 languages to diagnose LLMs on general multilingual, cross-cultural, and monocultural tasks.
M-DaQ: Retrieving Samples with Multilingual Diversity and Quality for Instruction Fine-Tuning Datasets cs.CL · 2025-09-19 · unverdicted · none · ref 31
M-DaQ introduces a diversity-aware sampling framework combining a quality scoring model with maximal marginal relevance selection to build multilingual instruction fine-tuning datasets, yielding models with over 60% average win rates on Alpaca-Eval and MT-Bench across 18 languages.

IT Technology

fields

years

verdicts

representative citing papers

citing papers explorer