Slides

Ranking Reasoning LLMs under Test-Time Scaling

July 6, 2026

ACL 2026 presentation on ranking reasoning LLMs under test-time scaling: dense repeated-trial evaluation, Bayes@N as a practical default, low-budget priors, categorical ranking, and the Scorio toolkit.

Statistics Bayesian LLM Ranking Test-Time Scaling Benchmarking Scorio

Serving Reasoning LLMs Efficiently and Reliably [No Anime]

July 6, 2026

Serving reasoning LLMs efficiently and reliably: lossless DFloat11 compression, KV-cache quantization, and Bayes@N evaluation and ranking under test-time scaling.

Compression Statistics LLMs Efficiency Inference Quantization Test-Time Scaling LLM Evaluation Bayesian Benchmarking

Serving Reasoning LLMs Efficiently and Reliably

July 6, 2026

Serving reasoning LLMs efficiently and reliably: lossless DFloat11 compression, KV-cache quantization, and Bayes@N evaluation and ranking under test-time scaling.

Compression Statistics LLMs Efficiency Inference Quantization Test-Time Scaling LLM Evaluation Bayesian Benchmarking

Quantize What Counts: More for Keys, Less for Values

June 12, 2026

ACL 2026 presentation on Quantize What Counts: More for Keys, Less for Values, explaining key-value norm disparity, key-prioritized quantization, and practical KV-cache compression guidance.

Compression LLMs Quantization KV Cache Inference Efficiency Theory

Python Environments

May 21, 2026

Python environments, how to create and reproduce them, and when to use pip, conda, micromamba, uv, pipx, lockfiles, and containers.

Statistics Tools Tutorial

Don't Pass@k: A Bayesian Framework for LLM Evaluation

January 25, 2026

ICLR 2026 presentation on Don't Pass@k: a Bayesian evaluation framework (Bayes@N) with Dirichlet posteriors, credible intervals, a non-overlap decision rule, categorical rubric scoring, and the Scorio toolkit.

Statistics Bayesian LLM Evaluation Test-Time Scaling Benchmarking Scorio

Virtual Agentic Lab!

January 18, 2026

SCIPE Workshop on Large Language Models • Final Presentation

Agents LLMs

LLM Research Directions

January 18, 2026

SCIPE Workshop on LLMs - Day 3

LLMs Reasoning Models Test-Time Scaling Bayesian

Tool Use (Function Calling) & RAG

January 17, 2026

SCIPE Workshop on LLMs - Day 2

LLMs Tools RAG

State of Large Language Models

January 16, 2026

SCIPE Workshop on LLMs

LLMs AI

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

December 2, 2025

NeurIPS 2025 presentation on Dynamic-Length Float (DFloat11/DF11): a lossless format that Huffman-codes BFloat16 exponents down to ~11 bits, cutting model size ~30% with bit-for-bit identical outputs and a GPU kernel that makes compressed inference fast.

Compression LLMs Lossless Compression GPU Inference Efficiency Information Theory

Test-Time Scaling Under Budget

November 21, 2025

M.Sc. Thesis in Computer Science

LLMs Bayesian Reasoning Compression Quantization

Psychometric Modeling of LLM Evaluation Datasets

October 27, 2025

A principled Bayesian framework that replaces Pass@k with posterior estimates, credible intervals, and stable rankings for LLM evaluation

LLMs Evaluation Reasoning Datasets