Reasoning

Tag: Reasoning

4 items tagged with "Reasoning"

Slide

Test-Time Scaling Under Budget

November 21, 2025

M.Sc. Thesis in Computer Science

Slide

Psychometric Modeling of LLM Evaluation Datasets

October 27, 2025

A principled Bayesian framework that replaces Pass@k with posterior estimates, credible intervals, and stable rankings for LLM evaluation

Post

Simulating LLM Evaluation Datasets Using Psychometric Models

October 23, 2025

Explore how Item Response Theory (IRT) and other psychometric models can simulate and analyze LLM evaluation datasets. Learn how difficulty, discrimination, and guessing parameters reveal model reasoning patterns, with interactive examples across multiple reading levels.

Paper

Don’t Pass@𝑘: A Bayesian Framework for Large Language Model Evaluation

Mohsen Hariri, Amirhossein Samandar, Michael Hinczewski, Vipin Chaudhary

October 21, 2025

A Bayesian framework for evaluating large language models that replaces unstable Pass@k metrics with posterior estimates and credible intervals. The method improves sample efficiency, supports graded outcomes, and enables statistically sound model comparisons.