ЛИИ-Спорт-Bench-RU: рейтинг LLM для русского спортивного домена.
ЛИИ-Спорт-Bench-RU сравнивает ответы моделей на русскоязычных спортивных задачах по точности, полноте, полезным дополнениям и качеству русского языка. Текущий пилот: 7 моделей, 199 проверенных вопросов, 3 судейские модели.
Рейтинг моделей
Основная таблица сортируется по итоговой оценке; рядом видны базовые компоненты качества ответа.
| Место | Модель | Итог | Точность | Полнота | Бонус | Русский | N |
|---|---|---|---|---|---|---|---|
| #1 | claude-opus-4.7 anthropic/claude-opus-4.7 | 9,1 | 8,67 | 9,16 | 8,92 | 9,65 | 200 |
| #2 | gemini-3.1-pro-preview google/gemini-3.1-pro-preview | 8,88 | 8,58 | 8,72 | 8,49 | 9,74 | 200 |
| #3 | gpt-5.5 openai/gpt-5.5 | 8,53 | 8,54 | 8,35 | 7,55 | 9,68 | 200 |
| #4 | deepseek-v4-flash deepseek/deepseek-v4-flash | 8,03 | 7,75 | 8,06 | 7,28 | 9,05 | 193 |
| #5 | qwen3.5-27b qwen/qwen3.5-27b | 7,52 | 7,07 | 7,46 | 6,53 | 9,03 | 199 |
| #6 | gemma-4-31b-it google/gemma-4-31b-it | 7,45 | 7,3 | 7,39 | 6,14 | 8,98 | 200 |
| #7 | qwen3.6-27b qwen/qwen3.6-27b | 6,67 | 6,21 | 6,31 | 5,76 | 8,42 | 200 |
Срезы качества
После общего рейтинга идут диагностические срезы: сложность вопроса, роль пользователя и раскрытие self-judging.
Матрица сложности
Срезы по базовым, прикладным и экспертным вопросам.
Матрица аудиторий
Оценки по роли пользователя: аналитик, вуз, медик, спортсмен, СШОР, тренер, функционер.
| Модель | АНАЛИТИК | ВУЗ | МЕДИК | СПОРТСМЕН | СШОР | ТРЕНЕР | ФУНКЦИОНЕР |
|---|---|---|---|---|---|---|---|
| claude-opus-4.7 | 9,13 | 9,59 | 9,61 | 9,59 | 8,24 | 9,24 | 8,87 |
| gemini-3.1-pro-preview | 8,88 | 9,23 | 9,41 | 9,27 | 8,17 | 9,01 | 8,66 |
| gpt-5.5 | 9,12 | 9,2 | 8,84 | 9,23 | 7,68 | 8,52 | 8,37 |
| deepseek-v4-flash | 6,5 | 8,23 | 8,82 | 8,46 | 7,48 | 8,09 | 7,85 |
| qwen3.5-27b | 6,73 | 7,13 | 8,95 | 8,67 | 6,47 | 7,72 | 7,05 |
| gemma-4-31b-it | 7,13 | 6,65 | 8,44 | 8,46 | 6,37 | 7,65 | 7,23 |
| qwen3.6-27b | 5,69 | 5,28 | 7,49 | 7,88 | 5,73 | 6,92 | 6,52 |
Смещение self-judging опубликовано, а не спрятано
Когда модель-судья оценивает кандидата из своей же семьи, оценка может сдвигаться в любую сторону. В пилоте отдельно показаны self-score, cross-score и delta.
- Self
- 9,4
- Cross
- 8,63
- Delta
- +0,77
- Self
- 8,36
- Cross
- 8,62
- Delta
- -0,26
- Self
- 9,2
- Cross
- 9,05
- Delta
- +0,15
Воспроизводимость
Публичный репозиторий владеет corpus, raw outputs, scores и готовым data/leaderboard.json. Сайт использует зафиксированный JSON-снимок из монорепозитория.
pnpm --filter @csylabs/bench refresh:leaderboard
git diff apps/bench/data/leaderboard.json
pnpm --filter @csylabs/bench buildПубличный репозиторий