pingpong

A benchmark for role-playing LLMs

View on GitHub

Russian learderboard, v2

Last updated: 2024-11-26 10:29:28

# Model name Length norm score Length norm score Length norm score Length norm score Avg score Avg score Avg score Avg score Refusal ratio Stay in character score Language fluency score Entertain score Num cases Avg length
1 claude_3_5_sonnet 4.62±0.07 4.56±0.08 4.65±0.08 4.65±0.06 4.68±0.07 4.62±0.08 4.71±0.08 4.71±0.06 0.30 4.80 4.80 4.44 64 388
2 gemini_pro_1_5_002 4.51±0.10 4.40±0.11 4.56±0.10 4.58±0.08 4.51±0.10 4.40±0.11 4.56±0.10 4.58±0.08 0.00 4.69 4.79 4.06 64 223
2 gemini_pro_1_5 4.49±0.08 4.40±0.08 4.52±0.08 4.56±0.06 4.49±0.08 4.40±0.09 4.52±0.08 4.56±0.07 0.02 4.60 4.75 4.13 64 213
2 gpt_4o_mini 4.48±0.06 4.37±0.07 4.52±0.07 4.56±0.05 4.49±0.06 4.38±0.07 4.52±0.07 4.57±0.05 0.00 4.62 4.82 4.04 64 329
2 gpt_4o 4.47±0.08 4.35±0.09 4.51±0.09 4.56±0.07 4.47±0.08 4.35±0.09 4.51±0.09 4.56±0.07 0.02 4.61 4.82 3.99 64 301
2 gemma2_ataraxy_9b 4.45±0.07 4.39±0.08 4.49±0.07 4.47±0.08 4.45±0.08 4.39±0.07 4.49±0.08 4.47±0.07 0.00 4.61 4.53 4.21 64 302
2 qwen25_72b_it 4.45±0.07 4.34±0.08 4.47±0.08 4.53±0.06 4.45±0.07 4.35±0.09 4.48±0.08 4.54±0.06 0.02 4.54 4.80 4.02 64 326
8 nous_hermes_3_405b 4.44±0.09 4.35±0.10 4.46±0.10 4.52±0.08 4.44±0.09 4.34±0.09 4.47±0.10 4.52±0.08 0.00 4.53 4.74 4.05 62 286
8 mistral_nemo_vikhr_12b 4.44±0.07 4.35±0.08 4.45±0.08 4.53±0.06 4.44±0.07 4.35±0.08 4.45±0.09 4.53±0.06 0.00 4.48 4.79 4.07 64 315
8 claude_3_opus 4.44±0.06 4.40±0.06 4.46±0.07 4.45±0.06 4.62±0.06 4.59±0.06 4.65±0.07 4.64±0.06 0.05 4.71 4.68 4.48 64 753
8 gemma2_ifable_9b 4.43±0.08 4.38±0.08 4.47±0.09 4.44±0.07 4.43±0.08 4.39±0.08 4.48±0.09 4.44±0.08 0.00 4.60 4.46 4.23 64 314
8 qwen25_32b_it 4.42±0.09 4.32±0.09 4.45±0.09 4.49±0.08 4.42±0.08 4.32±0.09 4.45±0.09 4.50±0.08 0.00 4.54 4.71 4.01 64 267
8 qwen2_72b_it 4.41±0.08 4.30±0.09 4.42±0.10 4.52±0.07 4.41±0.09 4.30±0.09 4.42±0.10 4.52±0.07 0.00 4.43 4.85 3.96 64 242
8 gemma2_27b_it 4.41±0.08 4.28±0.08 4.46±0.07 4.49±0.07 4.41±0.07 4.28±0.08 4.47±0.07 4.49±0.06 0.00 4.63 4.73 3.88 64 210
8 llama31_405b_it 4.41±0.06 4.34±0.07 4.44±0.07 4.44±0.06 4.53±0.07 4.47±0.07 4.56±0.07 4.57±0.06 0.00 4.66 4.69 4.26 64 536
16 command_r_plus_104b_0824 4.37±0.08 4.29±0.08 4.38±0.10 4.43±0.08 4.47±0.08 4.39±0.08 4.48±0.09 4.54±0.07 0.00 4.52 4.73 4.16 64 470
16 mistral_nemo_gutenberg_12b_v2 4.36±0.09 4.30±0.09 4.35±0.10 4.41±0.07 4.52±0.09 4.46±0.09 4.52±0.10 4.57±0.08 0.00 4.52 4.73 4.30 64 661
16 llama31_70b_it 4.33±0.08 4.29±0.08 4.37±0.08 4.31±0.10 4.43±0.09 4.41±0.08 4.48±0.09 4.42±0.11 0.00 4.62 4.38 4.31 64 499
16 gemma2_9b_it_sppo_iter3 4.32±0.10 4.26±0.10 4.38±0.10 4.34±0.10 4.33±0.10 4.26±0.10 4.38±0.10 4.34±0.10 0.00 4.54 4.38 4.06 64 226
20 claude_3_haiku 4.31±0.08 4.23±0.09 4.31±0.10 4.39±0.07 4.46±0.09 4.37±0.09 4.45±0.10 4.54±0.07 0.00 4.45 4.79 4.13 64 589
20 mistral_nemo_12b 4.29±0.11 4.16±0.12 4.28±0.13 4.42±0.10 4.29±0.12 4.16±0.12 4.29±0.13 4.41±0.09 0.03 4.28 4.80 3.77 64 313
20 gemma2_ataraxy_gemmasutra_9b 4.29±0.11 4.15±0.11 4.30±0.10 4.41±0.09 4.28±0.10 4.15±0.11 4.31±0.11 4.40±0.09 0.00 4.36 4.75 3.75 64 256
20 magnum_v2_123b 4.28±0.11 4.21±0.10 4.28±0.12 4.34±0.09 4.39±0.10 4.32±0.10 4.39±0.12 4.46±0.09 0.00 4.39 4.66 4.11 64 506
20 qwen25_14b_it 4.27±0.11 4.18±0.11 4.29±0.12 4.35±0.11 4.27±0.11 4.18±0.11 4.29±0.12 4.35±0.10 0.00 4.36 4.58 3.88 64 278
25 llama31_vikhr_8b 4.24±0.12 4.17±0.11 4.27±0.11 4.28±0.13 4.30±0.11 4.23±0.11 4.32±0.12 4.33±0.12 0.00 4.41 4.45 4.03 64 396
25 gemma2_9b_it_simpo 4.20±0.11 4.16±0.12 4.26±0.11 4.17±0.11 4.20±0.11 4.16±0.12 4.26±0.12 4.18±0.12 0.00 4.45 4.11 4.05 64 322
25 command_r_35b_0824 4.20±0.10 4.07±0.11 4.19±0.12 4.35±0.08 4.20±0.11 4.07±0.11 4.19±0.12 4.35±0.08 0.00 4.15 4.79 3.67 64 209
25 command_r_plus_104b_0424 4.20±0.08 4.13±0.09 4.19±0.11 4.26±0.07 4.34±0.09 4.27±0.09 4.34±0.11 4.41±0.08 0.00 4.33 4.64 4.07 64 615
29 deepseek_chat_v2_0628 4.17±0.11 4.04±0.12 4.17±0.13 4.28±0.10 4.18±0.12 4.06±0.13 4.19±0.13 4.30±0.10 0.00 4.21 4.66 3.68 64 337
29 wizardlm_2_8x22b 4.12±0.12 4.08±0.12 4.12±0.13 4.17±0.10 4.31±0.12 4.27±0.12 4.30±0.13 4.35±0.11 0.00 4.28 4.49 4.15 64 832
31 llama31_8b_it 4.09±0.12 4.01±0.11 4.14±0.11 4.11±0.12 4.09±0.12 4.02±0.12 4.14±0.12 4.11±0.13 0.00 4.30 4.17 3.80 64 325
31 gemma2_9b_it 4.03±0.12 3.97±0.12 4.10±0.12 4.00±0.14 4.03±0.13 3.97±0.12 4.10±0.13 4.00±0.13 0.00 4.34 3.92 3.81 64 224
31 gemma2_9b_it_abl 4.03±0.11 3.95±0.11 4.07±0.11 4.06±0.12 4.02±0.12 3.94±0.11 4.07±0.12 4.06±0.13 0.00 4.19 4.18 3.71 64 162
34 jamba_1_5_large 3.98±0.13 3.83±0.12 4.01±0.14 4.12±0.11 3.99±0.12 3.83±0.12 4.01±0.14 4.12±0.11 0.00 4.07 4.51 3.38 64 203
34 mini_magnum_12b_v1_1 3.95±0.15 3.87±0.16 3.94±0.16 4.05±0.13 4.08±0.16 3.99±0.16 4.06±0.17 4.19±0.14 0.00 4.02 4.50 3.72 64 575
34 qwen2_7b_it 3.94±0.14 3.81±0.14 3.90±0.14 4.11±0.12 3.94±0.14 3.80±0.14 3.90±0.14 4.11±0.10 0.00 3.77 4.61 3.42 64 276
34 saiga_llama3_8b 3.94±0.10 3.79±0.11 3.94±0.12 4.10±0.10 3.94±0.10 3.79±0.11 3.94±0.13 4.10±0.09 0.00 3.93 4.57 3.33 64 207
34 ruadapt_llama3_kto_abl 3.93±0.13 3.83±0.13 3.94±0.14 4.01±0.13 3.96±0.13 3.86±0.13 3.97±0.13 4.04±0.13 0.00 4.02 4.26 3.59 64 357
39 yandexgpt_pro 3.83±0.11 3.66±0.11 3.81±0.12 4.03±0.10 3.83±0.11 3.66±0.11 3.81±0.12 4.02±0.10 0.14 3.75 4.61 3.14 64 226
40 llama31_euryale_70b_v2_2 3.49±0.19 3.49±0.16 3.56±0.18 3.41±0.18 3.55±0.18 3.56±0.18 3.63±0.17 3.48±0.19 0.00 3.85 3.25 3.57 63 439
41 vikhr_gemma_2b_it 2.81±0.13 2.85±0.13 2.83±0.13 2.74±0.14 2.89±0.13 2.95±0.13 2.92±0.14 2.82±0.16 0.00 3.00 2.60 3.09 63 576
41 phi_35_mini_4b_it 2.80±0.11 2.83±0.11 2.83±0.13 2.75±0.13 2.85±0.11 2.88±0.11 2.87±0.13 2.79±0.13 0.00 2.94 2.62 2.98 64 417