Manuscripts | Desiderata Kashkul

Don’t Pass@𝑘: A Bayesian Framework for Large Language Model Evaluation

Mohsen Hariri, Amirhossein Samandar, Michael Hinczewski, Vipin Chaudhary

October 21, 2025

Don’t Pass@k introduces a Bayesian approach to language model evaluation, estimating Bayes@k with posterior uncertainty, credible intervals, and rubric-aware scoring.

Statistics Bayesian LLMs Inference Reasoning Simulation Test-Time Scaling