PANOPTES
← all runs

run panoptes-e86ef9e3

2026-06-04 18:12:07·strategy: all·demo_calibration.duckdb
items
34
judge calls
764
UQ results
69
cost
$4.74
497.5k tokens
cost by judge
total
$4.74
claude-sonnet$3.49gpt-4o$1.26
score distribution (point pass, by judge)
items
itemfamilyscoresUQ
calib·HumanEval/0code
claude-sonnet
0.950
gpt-4o
0.800
2 blob(s)drill
calib·HumanEval/1code
claude-sonnet
1.000
gpt-4o
0.800
2 blob(s)drill
calib·HumanEval/10code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/11code
claude-sonnet
0.800
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/12code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/13code
claude-sonnet
0.950
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/14code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/15code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/16code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/17code
claude-sonnet
0.950
gpt-4o
0.800
2 blob(s)drill
calib·HumanEval/18code
claude-sonnet
0.950
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/19code
claude-sonnet
0.950
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/2code
claude-sonnet
0.950
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/20code
claude-sonnet
0.950
gpt-4o
0.500
2 blob(s)drill
calib·HumanEval/21code
claude-sonnet
0.950
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/22code
claude-sonnet
0.950
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/23code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/24code
claude-sonnet
0.800
gpt-4o
0.800
2 blob(s)drill
calib·HumanEval/25code
claude-sonnet
0.950
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/26code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/27code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/28code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/29code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/3code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/30code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/31code
claude-sonnet
0.800
gpt-4o
0.500
2 blob(s)drill
calib·HumanEval/32code
claude-sonnet
0.850
gpt-4o
0.800
2 blob(s)drill
calib·HumanEval/33code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/4code
claude-sonnet
0.950
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/5code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/6code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/7code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/8code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill
calib·HumanEval/9code
claude-sonnet
1.000
gpt-4o
1.000
2 blob(s)drill