Optimizing temperature for language models with multi-sample inference.arXiv preprint arXiv:2502.05234

Optimizing temperature for language models with multi-sample inference , author= · 2025 · arXiv 2502.05234

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

read on arXiv browse 5 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

FLIPS: Instance-Fingerprinting for LLMs via Pseudo-random Sequences

cs.LG · 2026-06-02 · unverdicted · novelty 8.0

FLIPS identifies LLM instances with 96% closed-set and 90% open-set accuracy by exploiting biases in generated binary random sequences across 237 instances.

SCOPE-RL: Stable and Quantitative Control of Policy Entropy in RL Post-Training

cs.LG · 2025-10-09 · unverdicted · novelty 6.0

SCOPE-RL adds a regularization term built from high-temperature positive samples to quantitatively control entropy dynamics and maintain exploration in RL post-training of reasoning LLMs.

Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs

cs.CL · 2026-05-19 · unverdicted · novelty 5.0

LLMs can generate coherent multimodal behaviors for SIAs that align with intended ability and benevolence levels as confirmed by user perceptions, while also reproducing gender stereotypes.

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models

cs.AI · 2025-03-12 · unverdicted · novelty 5.0

The paper unifies perspectives on Long CoT in reasoning LLMs by introducing a taxonomy, detailing characteristics of deep reasoning and reflection, and discussing emergence phenomena and future directions.

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

cs.CL · 2026-03-18 · unverdicted · novelty 3.0

Zero-shot prompting reaches 59% accuracy at moderate temperatures while chain-of-thought prompting excels at temperature extremes on Olympiad-level math problems, with extended reasoning gains scaling to 14.3x at high temperature.

citing papers explorer

Showing 2 of 2 citing papers after filters.

Towards Trust Calibration in Socially Interactive Agents: Investigating Gendered Multimodal Behaviors Generation with LLMs cs.CL · 2026-05-19 · unverdicted · none · ref 12
LLMs can generate coherent multimodal behaviors for SIAs that align with intended ability and benevolence levels as confirmed by user perceptions, while also reproducing gender stereotypes.
Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models cs.CL · 2026-03-18 · unverdicted · none · ref 16
Zero-shot prompting reaches 59% accuracy at moderate temperatures while chain-of-thought prompting excels at temperature extremes on Olympiad-level math problems, with extended reasoning gains scaling to 14.3x at high temperature.

Optimizing temperature for language models with multi-sample inference.arXiv preprint arXiv:2502.05234

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer