English learderboard, v2
Last updated: 2024-11-26 10:29:28
| # | Model name | Length norm score | Length norm score | Length norm score | Length norm score | Avg score | Avg score | Avg score | Avg score | Refusal ratio | Stay in character score | Language fluency score | Entertain score | Num cases | Avg length |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | claude_3_5_sonnet | 4.65±0.07 | 4.56±0.08 | 4.68±0.07 | 4.72±0.06 | 4.65±0.07 | 4.56±0.08 | 4.67±0.07 | 4.72±0.06 | 0.28 | 4.74 | 4.93 | 4.29 | 64 | 418 |
| 1 | llama31_405b_it | 4.63±0.06 | 4.55±0.07 | 4.64±0.06 | 4.70±0.05 | 4.65±0.06 | 4.58±0.07 | 4.66±0.06 | 4.72±0.05 | 0.06 | 4.68 | 4.93 | 4.35 | 64 | 548 |
| 1 | llama31_70b_it | 4.63±0.06 | 4.55±0.06 | 4.64±0.06 | 4.69±0.04 | 4.66±0.06 | 4.58±0.06 | 4.67±0.06 | 4.73±0.05 | 0.00 | 4.71 | 4.93 | 4.33 | 64 | 562 |
| 4 | gpt_4o_mini | 4.56±0.07 | 4.45±0.08 | 4.57±0.07 | 4.66±0.06 | 4.56±0.06 | 4.45±0.08 | 4.57±0.07 | 4.65±0.05 | 0.00 | 4.60 | 4.94 | 4.14 | 64 | 457 |
| 4 | claude_3_opus | 4.54±0.05 | 4.48±0.06 | 4.55±0.06 | 4.59±0.05 | 4.71±0.05 | 4.65±0.06 | 4.72±0.06 | 4.76±0.05 | 0.22 | 4.75 | 4.92 | 4.46 | 64 | 1032 |
| 4 | gemini_pro_1_5_002 | 4.53±0.09 | 4.42±0.10 | 4.55±0.09 | 4.63±0.07 | 4.53±0.08 | 4.42±0.10 | 4.56±0.09 | 4.63±0.07 | 0.00 | 4.63 | 4.90 | 4.08 | 64 | 307 |
| 4 | gemma2_ataraxy_9b | 4.52±0.06 | 4.43±0.08 | 4.54±0.06 | 4.59±0.05 | 4.52±0.06 | 4.43±0.07 | 4.54±0.06 | 4.59±0.05 | 0.00 | 4.60 | 4.79 | 4.17 | 64 | 358 |
| 4 | qwen25_72b_it | 4.51±0.07 | 4.40±0.09 | 4.52±0.08 | 4.60±0.06 | 4.52±0.07 | 4.41±0.09 | 4.53±0.07 | 4.61±0.06 | 0.00 | 4.55 | 4.91 | 4.09 | 64 | 526 |
| 4 | gemma2_27b_it | 4.51±0.06 | 4.40±0.08 | 4.52±0.06 | 4.62±0.05 | 4.51±0.07 | 4.40±0.08 | 4.52±0.07 | 4.62±0.05 | 0.00 | 4.56 | 4.92 | 4.06 | 64 | 291 |
| 4 | gpt_4o | 4.50±0.09 | 4.38±0.10 | 4.52±0.09 | 4.61±0.07 | 4.50±0.10 | 4.38±0.10 | 4.52±0.09 | 4.61±0.08 | 0.00 | 4.56 | 4.94 | 4.02 | 64 | 484 |
| 4 | gemini_pro_1_5 | 4.50±0.08 | 4.39±0.09 | 4.51±0.08 | 4.59±0.07 | 4.50±0.08 | 4.39±0.09 | 4.51±0.08 | 4.59±0.06 | 0.02 | 4.54 | 4.87 | 4.07 | 64 | 265 |
| 12 | qwen2_72b_it | 4.49±0.08 | 4.38±0.10 | 4.49±0.09 | 4.60±0.07 | 4.49±0.08 | 4.38±0.10 | 4.49±0.08 | 4.60±0.07 | 0.00 | 4.48 | 4.93 | 4.05 | 64 | 510 |
| 12 | mistral_nemo_gutenberg_12b_v2 | 4.49±0.08 | 4.41±0.09 | 4.51±0.08 | 4.55±0.07 | 4.56±0.08 | 4.49±0.09 | 4.58±0.07 | 4.63±0.07 | 0.00 | 4.65 | 4.81 | 4.25 | 64 | 664 |
| 12 | llama31_8b_it | 4.48±0.09 | 4.40±0.09 | 4.47±0.09 | 4.55±0.09 | 4.51±0.09 | 4.43±0.08 | 4.51±0.09 | 4.59±0.09 | 0.02 | 4.50 | 4.83 | 4.20 | 64 | 568 |
| 12 | command_r_plus_104b_0824 | 4.48±0.08 | 4.36±0.09 | 4.50±0.08 | 4.58±0.06 | 4.50±0.07 | 4.39±0.09 | 4.52±0.08 | 4.60±0.06 | 0.00 | 4.57 | 4.90 | 4.04 | 64 | 553 |
| 12 | llama31_euryale_70b_v2_2 | 4.48±0.08 | 4.38±0.09 | 4.48±0.09 | 4.58±0.07 | 4.48±0.08 | 4.38±0.10 | 4.48±0.09 | 4.58±0.07 | 0.02 | 4.47 | 4.88 | 4.08 | 64 | 384 |
| 12 | magnum_v2_123b | 4.48±0.07 | 4.41±0.07 | 4.47±0.08 | 4.57±0.05 | 4.59±0.07 | 4.51±0.07 | 4.58±0.08 | 4.68±0.05 | 0.00 | 4.54 | 4.94 | 4.28 | 64 | 768 |
| 12 | nous_hermes_3_405b | 4.47±0.10 | 4.38±0.11 | 4.46±0.12 | 4.58±0.08 | 4.47±0.09 | 4.38±0.10 | 4.45±0.12 | 4.58±0.08 | 0.00 | 4.41 | 4.90 | 4.10 | 64 | 471 |
| 12 | llama3_lunaris_8b | 4.46±0.07 | 4.38±0.08 | 4.46±0.08 | 4.55±0.06 | 4.54±0.08 | 4.45±0.08 | 4.53±0.09 | 4.63±0.06 | 0.00 | 4.53 | 4.89 | 4.19 | 64 | 673 |
| 12 | gemma2_9b_it | 4.45±0.09 | 4.36±0.10 | 4.43±0.11 | 4.57±0.07 | 4.45±0.09 | 4.36±0.09 | 4.43±0.11 | 4.57±0.07 | 0.00 | 4.37 | 4.91 | 4.09 | 64 | 324 |
| 12 | mistral_large_123b_2407 | 4.45±0.08 | 4.32±0.09 | 4.48±0.08 | 4.55±0.07 | 4.45±0.08 | 4.32±0.09 | 4.47±0.08 | 4.55±0.07 | 0.02 | 4.55 | 4.86 | 3.95 | 64 | 325 |
| 12 | command_r_35b_0824 | 4.44±0.07 | 4.32±0.08 | 4.43±0.08 | 4.56±0.06 | 4.44±0.07 | 4.32±0.08 | 4.43±0.08 | 4.56±0.06 | 0.00 | 4.40 | 4.94 | 3.98 | 64 | 460 |
| 23 | wizardlm_2_8x22b | 4.39±0.07 | 4.30±0.08 | 4.40±0.08 | 4.48±0.06 | 4.57±0.07 | 4.47±0.08 | 4.58±0.07 | 4.66±0.06 | 0.00 | 4.62 | 4.92 | 4.18 | 64 | 1143 |
| 23 | deepseek_chat_v2_0628 | 4.35±0.10 | 4.20±0.11 | 4.35±0.12 | 4.50±0.08 | 4.35±0.10 | 4.21±0.11 | 4.35±0.11 | 4.50±0.08 | 0.00 | 4.34 | 4.94 | 3.77 | 64 | 399 |
| 23 | llama31_8b_stheno_v3_4 | 4.35±0.08 | 4.28±0.08 | 4.35±0.09 | 4.43±0.08 | 4.45±0.08 | 4.37±0.09 | 4.45±0.10 | 4.53±0.10 | 0.00 | 4.44 | 4.77 | 4.14 | 64 | 736 |
| 23 | claude_3_haiku | 4.34±0.10 | 4.24±0.10 | 4.32±0.13 | 4.45±0.09 | 4.43±0.10 | 4.34±0.11 | 4.41±0.13 | 4.55±0.09 | 0.03 | 4.36 | 4.89 | 4.05 | 64 | 750 |
| 23 | solar_pro | 4.33±0.10 | 4.19±0.12 | 4.32±0.11 | 4.47±0.08 | 4.33±0.10 | 4.19±0.11 | 4.32±0.10 | 4.48±0.08 | 0.00 | 4.30 | 4.92 | 3.77 | 63 | 300 |
| 28 | star_command_r_32b_v1 | 4.31±0.10 | 4.21±0.10 | 4.30±0.10 | 4.41±0.09 | 4.40±0.10 | 4.31±0.10 | 4.39±0.11 | 4.51±0.09 | 0.00 | 4.37 | 4.81 | 4.03 | 64 | 748 |
| 29 | llama31_70b_arliai_rpmax_v1_1 | 4.18±0.13 | 4.08±0.15 | 4.15±0.14 | 4.32±0.13 | 4.22±0.14 | 4.12±0.16 | 4.19±0.16 | 4.37±0.12 | 0.00 | 4.07 | 4.79 | 3.81 | 63 | 587 |
| 29 | arliai_rpmax_12b_v1_1 | 4.16±0.11 | 4.08±0.11 | 4.16±0.11 | 4.23±0.11 | 4.25±0.12 | 4.17±0.11 | 4.26±0.11 | 4.32±0.11 | 0.02 | 4.27 | 4.55 | 3.93 | 64 | 743 |
| 29 | mistral_nemo_starcannon_12b | 4.13±0.12 | 4.03±0.13 | 4.12±0.14 | 4.25±0.11 | 4.27±0.12 | 4.16±0.12 | 4.25±0.14 | 4.39±0.11 | 0.02 | 4.20 | 4.76 | 3.84 | 64 | 940 |
| 29 | lyra4_gutenberg_12b | 4.13±0.11 | 4.01±0.11 | 4.15±0.11 | 4.24±0.10 | 4.30±0.11 | 4.18±0.13 | 4.32±0.10 | 4.40±0.10 | 0.00 | 4.38 | 4.72 | 3.81 | 64 | 1133 |
| 29 | mistral_nemo_12b | 4.13±0.10 | 3.95±0.12 | 4.15±0.10 | 4.30±0.09 | 4.13±0.10 | 3.95±0.11 | 4.16±0.10 | 4.30±0.09 | 0.00 | 4.22 | 4.79 | 3.38 | 64 | 224 |
| 29 | jamba_1_5_large | 4.12±0.17 | 3.98±0.18 | 4.11±0.18 | 4.30±0.15 | 4.13±0.17 | 3.98±0.18 | 4.11±0.18 | 4.30±0.15 | 0.00 | 4.06 | 4.80 | 3.53 | 64 | 345 |
| 35 | qwen2_7b_it | 4.11±0.13 | 3.96±0.13 | 4.09±0.14 | 4.28±0.12 | 4.11±0.12 | 3.97±0.12 | 4.09±0.15 | 4.28±0.12 | 0.02 | 4.01 | 4.79 | 3.53 | 64 | 354 |
| 36 | mythomax_13b | 4.02±0.12 | 3.87±0.13 | 3.97±0.14 | 4.22±0.10 | 4.02±0.12 | 3.87±0.13 | 3.97±0.15 | 4.22±0.11 | 0.00 | 3.81 | 4.82 | 3.42 | 64 | 388 |
| 37 | phi_3_5_mini_4b_it | 3.94±0.11 | 3.81±0.12 | 3.89±0.13 | 4.13±0.10 | 4.03±0.12 | 3.90±0.12 | 3.98±0.14 | 4.23±0.10 | 0.00 | 3.81 | 4.81 | 3.49 | 64 | 768 |