Re-evaluating GPT-4’s bar exam performance

Eric Martínez · 2024 · DOI 10.1007/s10506-024-09396-9

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open at publisher browse 2 citing papers

representative citing papers

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

cs.HC · 2025-09-30 · unverdicted · novelty 6.0

A human-centered design workshop with journalism practitioners yields an evaluation cookbook and design requirements for contextualized, value-aligned generative AI benchmarks.

Surrogate modeling for interpreting black-box LLMs in medical predictions

cs.CL · 2026-04-22 · unverdicted · novelty 5.0

A surrogate modeling method approximates LLM-encoded medical knowledge via prompting to quantify variable influence and flag inaccuracies and racial biases.

citing papers explorer

Showing 2 of 2 citing papers.

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners cs.HC · 2025-09-30 · unverdicted · none · ref 40
A human-centered design workshop with journalism practitioners yields an evaluation cookbook and design requirements for contextualized, value-aligned generative AI benchmarks.
Surrogate modeling for interpreting black-box LLMs in medical predictions cs.CL · 2026-04-22 · unverdicted · none · ref 49
A surrogate modeling method approximates LLM-encoded medical knowledge via prompting to quantify variable influence and flag inaccuracies and racial biases.

Re-evaluating GPT-4’s bar exam performance

fields

years

verdicts

representative citing papers

citing papers explorer