csylabs.bench
Публичные LLM-бенчмарки
Спорт — liveЛИИ-Спорт-Bench-RU / 2026-05-18

ЛИИ-Спорт-Bench-RU: рейтинг LLM для русского спортивного домена.

ЛИИ-Спорт-Bench-RU сравнивает ответы моделей на русскоязычных спортивных задачах по точности, полноте, полезным дополнениям и качеству русского языка. Текущий пилот: 7 моделей, 199 проверенных вопросов, 3 судейские модели.

Рейтинг моделей

Основная таблица сортируется по итоговой оценке; рядом видны базовые компоненты качества ответа.

МестоМодельИтогТочностьПолнотаБонусРусскийN
#1
claude-opus-4.7
anthropic/claude-opus-4.7
9,1
8,679,168,929,65200
#2
gemini-3.1-pro-preview
google/gemini-3.1-pro-preview
8,88
8,588,728,499,74200
#3
gpt-5.5
openai/gpt-5.5
8,53
8,548,357,559,68200
#4
deepseek-v4-flash
deepseek/deepseek-v4-flash
8,03
7,758,067,289,05193
#5
qwen3.5-27b
qwen/qwen3.5-27b
7,52
7,077,466,539,03199
#6
gemma-4-31b-it
google/gemma-4-31b-it
7,45
7,37,396,148,98200
#7
qwen3.6-27b
qwen/qwen3.6-27b
6,67
6,216,315,768,42200

Срезы качества

После общего рейтинга идут диагностические срезы: сложность вопроса, роль пользователя и раскрытие self-judging.

Матрица сложности

Срезы по базовым, прикладным и экспертным вопросам.

claude-opus-4.7
anthropic/claude-opus-4.7
База
8,91
Практика
9,18
Эксперт
9,17
gemini-3.1-pro-preview
google/gemini-3.1-pro-preview
База
8,56
Практика
8,98
Эксперт
9,1
gpt-5.5
openai/gpt-5.5
База
8,42
Практика
8,5
Эксперт
8,78
deepseek-v4-flash
deepseek/deepseek-v4-flash
База
7,93
Практика
8,06
Эксперт
8,11
qwen3.5-27b
qwen/qwen3.5-27b
База
7,18
Практика
7,53
Эксперт
8,04
gemma-4-31b-it
google/gemma-4-31b-it
База
7,2
Практика
7,48
Эксперт
7,79
qwen3.6-27b
qwen/qwen3.6-27b
База
6,73
Практика
6,71
Эксперт
6,49

Матрица аудиторий

Оценки по роли пользователя: аналитик, вуз, медик, спортсмен, СШОР, тренер, функционер.

МодельАНАЛИТИКВУЗМЕДИКСПОРТСМЕНСШОРТРЕНЕРФУНКЦИОНЕР
claude-opus-4.79,139,599,619,598,249,248,87
gemini-3.1-pro-preview8,889,239,419,278,179,018,66
gpt-5.59,129,28,849,237,688,528,37
deepseek-v4-flash6,58,238,828,467,488,097,85
qwen3.5-27b6,737,138,958,676,477,727,05
gemma-4-31b-it7,136,658,448,466,377,657,23
qwen3.6-27b5,695,287,497,885,736,926,52

Смещение self-judging опубликовано, а не спрятано

Когда модель-судья оценивает кандидата из своей же семьи, оценка может сдвигаться в любую сторону. В пилоте отдельно показаны self-score, cross-score и delta.

google/gemini-3.1-pro-preview
n self 200 / n cross 400
Self
9,4
Cross
8,63
Delta
+0,77
openai/gpt-5.5
n self 200 / n cross 400
Self
8,36
Cross
8,62
Delta
-0,26
anthropic/claude-opus-4.7
n self 200 / n cross 400
Self
9,2
Cross
9,05
Delta
+0,15

Воспроизводимость

Публичный репозиторий владеет corpus, raw outputs, scores и готовым data/leaderboard.json. Сайт использует зафиксированный JSON-снимок из монорепозитория.

pnpm --filter @csylabs/bench refresh:leaderboard
git diff apps/bench/data/leaderboard.json
pnpm --filter @csylabs/bench build
Публичный репозиторий
csylabs.bench — открытый рейтинг LLM