Спорт — liveЛИИ-Спорт-Bench-RU / 2026-05-18

ЛИИ-Спорт-Bench-RU: рейтинг LLM для русского спортивного домена.

ЛИИ-Спорт-Bench-RU сравнивает ответы моделей на русскоязычных спортивных задачах по точности, полноте, полезным дополнениям и качеству русского языка. Текущий пилот: 7 моделей, 199 проверенных вопросов, 3 судейские модели.

Рейтинг моделей

Основная таблица сортируется по итоговой оценке; рядом видны базовые компоненты качества ответа.

Место	Модель	Итог	Точность	Полнота	Бонус	Русский	N
#1	claude-opus-4.7 anthropic/claude-opus-4.7	9,1	8,67	9,16	8,92	9,65	200
#2	gemini-3.1-pro-preview google/gemini-3.1-pro-preview	8,88	8,58	8,72	8,49	9,74	200
#3	gpt-5.5 openai/gpt-5.5	8,53	8,54	8,35	7,55	9,68	200
#4	deepseek-v4-flash deepseek/deepseek-v4-flash	8,03	7,75	8,06	7,28	9,05	193
#5	qwen3.5-27b qwen/qwen3.5-27b	7,52	7,07	7,46	6,53	9,03	199
#6	gemma-4-31b-it google/gemma-4-31b-it	7,45	7,3	7,39	6,14	8,98	200
#7	qwen3.6-27b qwen/qwen3.6-27b	6,67	6,21	6,31	5,76	8,42	200

Срезы качества

После общего рейтинга идут диагностические срезы: сложность вопроса, роль пользователя и раскрытие self-judging.

Матрица сложности

Срезы по базовым, прикладным и экспертным вопросам.

claude-opus-4.7

anthropic/claude-opus-4.7

База

8,91

Практика

9,18

Эксперт

9,17

gemini-3.1-pro-preview

google/gemini-3.1-pro-preview

База

8,56

Практика

8,98

Эксперт

9,1

gpt-5.5

openai/gpt-5.5

База

8,42

Практика

8,5

Эксперт

8,78

deepseek-v4-flash

deepseek/deepseek-v4-flash

База

7,93

Практика

8,06

Эксперт

8,11

qwen3.5-27b

qwen/qwen3.5-27b

База

7,18

Практика

7,53

Эксперт

8,04

gemma-4-31b-it

google/gemma-4-31b-it

База

7,2

Практика

7,48

Эксперт

7,79

qwen3.6-27b

qwen/qwen3.6-27b

База

6,73

Практика

6,71

Эксперт

6,49

Матрица аудиторий

Оценки по роли пользователя: аналитик, вуз, медик, спортсмен, СШОР, тренер, функционер.

Модель	АНАЛИТИК	ВУЗ	МЕДИК	СПОРТСМЕН	СШОР	ТРЕНЕР	ФУНКЦИОНЕР
claude-opus-4.7	9,13	9,59	9,61	9,59	8,24	9,24	8,87
gemini-3.1-pro-preview	8,88	9,23	9,41	9,27	8,17	9,01	8,66
gpt-5.5	9,12	9,2	8,84	9,23	7,68	8,52	8,37
deepseek-v4-flash	6,5	8,23	8,82	8,46	7,48	8,09	7,85
qwen3.5-27b	6,73	7,13	8,95	8,67	6,47	7,72	7,05
gemma-4-31b-it	7,13	6,65	8,44	8,46	6,37	7,65	7,23
qwen3.6-27b	5,69	5,28	7,49	7,88	5,73	6,92	6,52

Смещение self-judging опубликовано, а не спрятано

Когда модель-судья оценивает кандидата из своей же семьи, оценка может сдвигаться в любую сторону. В пилоте отдельно показаны self-score, cross-score и delta.

google/gemini-3.1-pro-preview

n self 200 / n cross 400

Self: 9,4
Cross: 8,63
Delta: +0,77

openai/gpt-5.5

n self 200 / n cross 400

Self: 8,36
Cross: 8,62
Delta: -0,26

anthropic/claude-opus-4.7

n self 200 / n cross 400

Self: 9,2
Cross: 9,05
Delta: +0,15

Воспроизводимость

Публичный репозиторий владеет corpus, raw outputs, scores и готовым data/leaderboard.json. Сайт использует зафиксированный JSON-снимок из монорепозитория.

pnpm --filter @csylabs/bench refresh:leaderboard
git diff apps/bench/data/leaderboard.json
pnpm --filter @csylabs/bench build

Публичный репозиторий