arXiv preprint arXiv:2412.16516 , year=

Jun Wang, Jiamu Zhou, Muning Wen, Xiaoyun Mo, Haoyu Zhang, Qiqiang Lin, Cheng Jin, Xihuai Wang, Weinan Zhang, Qiuying Peng · 2024 · arXiv 2412.16516

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

read on arXiv browse 2 citing papers

representative citing papers

MirrorBench: A Benchmark to Evaluate Conversational User-Proxy Agents for Human-Likeness

cs.AI · 2026-01-13 · unverdicted · novelty 6.0

MirrorBench defines a reproducible benchmark combining lexical metrics (MATTR, Yule's K, HD-D) and LLM-judge metrics with calibration controls to measure human-likeness of user-proxy agents across four datasets.

R2IF: Aligning Reasoning with Decisions via Composite Rewards for Interpretable LLM Function Calling

cs.LG · 2026-04-22 · conditional · novelty 5.0 · 2 refs

R2IF uses a composite reward (binary correctness, CoT effectiveness, and parameter-level SMV) under GRPO to align LLM reasoning with function-calling decisions, improving accuracy and reasoning quality on BFCL/ACEBench.

citing papers explorer

Showing 0 of 0 citing papers after filters.

No citing papers match the current filters.

arXiv preprint arXiv:2412.16516 , year=

fields

years

verdicts

representative citing papers

citing papers explorer