L ogic B ench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

Parmar, Mihir, Patel, Nisarg, Varshney, Neeraj, Nakamura, Mutsumi, Luo, Man, Mashetty, Santosh · 2024 · DOI 10.18653/v1/2024.acl-long.739

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

open at publisher browse 5 citing papers

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

MixRea: Benchmarking Explicit-Implicit Reasoning in Large Language Models

cs.CL · 2026-05-19 · unverdicted · novelty 6.0

MixRea benchmark reveals LLMs achieve at most 42.8% consistency on explicit-implicit reasoning tasks, with PRCP prompting proposed to recover overlooked relations.

FinReasoning: A Hierarchical Benchmark for Reliable Financial Research Reporting

cs.CL · 2026-02-25 · unverdicted · novelty 6.0

FinReasoning is a hierarchical benchmark that decomposes LLM financial research capabilities into semantic consistency, data alignment, and deep insight, revealing model-type differences in auditing versus insight generation.

Early-Stage Product Line Validation Using LLMs: A Study on Semi-Formal Blueprint Analysis

cs.SE · 2026-04-22 · unverdicted · novelty 4.0

Reasoning-optimized LLMs achieve 88-89% accuracy on 16 feature model analysis operations applied to semi-formal textual blueprints, approaching solver-based FLAMA performance.

Position: Logical Soundness is not a Reliable Criterion for Neurosymbolic Fact-Checking with LLMs

cs.CL · 2026-04-05 · unverdicted · novelty 4.0

Logical soundness is not a reliable criterion for neurosymbolic fact-checking with LLMs because it systematically diverges from human pragmatic inferences.

GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations

cs.CL · 2026-05-08

citing papers explorer

Showing 5 of 5 citing papers.

MixRea: Benchmarking Explicit-Implicit Reasoning in Large Language Models cs.CL · 2026-05-19 · unverdicted · none · ref 48
MixRea benchmark reveals LLMs achieve at most 42.8% consistency on explicit-implicit reasoning tasks, with PRCP prompting proposed to recover overlooked relations.
FinReasoning: A Hierarchical Benchmark for Reliable Financial Research Reporting cs.CL · 2026-02-25 · unverdicted · none · ref 22
FinReasoning is a hierarchical benchmark that decomposes LLM financial research capabilities into semantic consistency, data alignment, and deep insight, revealing model-type differences in auditing versus insight generation.
Early-Stage Product Line Validation Using LLMs: A Study on Semi-Formal Blueprint Analysis cs.SE · 2026-04-22 · unverdicted · none · ref 31
Reasoning-optimized LLMs achieve 88-89% accuracy on 16 feature model analysis operations applied to semi-formal textual blueprints, approaching solver-based FLAMA performance.
Position: Logical Soundness is not a Reliable Criterion for Neurosymbolic Fact-Checking with LLMs cs.CL · 2026-04-05 · unverdicted · none · ref 4
Logical soundness is not a reliable criterion for neurosymbolic fact-checking with LLMs because it systematically diverges from human pragmatic inferences.
GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations cs.CL · 2026-05-08 · unreviewed · ref 79

L ogic B ench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer