csylabs.bench
Публичные LLM-бенчмарки
Образование — liveEduBench-RU / 2026-03-21

EduBench-RU: рейтинг LLM для российской школы.

EduBench-RU оценивает модели на русскоязычных педагогических задачах: ФГОС-ориентированное планирование, объяснения ученикам, контрольные материалы, copilot-сценарии учителя и ChuvashBench. Публичный срез: 30 моделей протестировано, 29 моделей в рейтинге, 50 промптов, 3 судейские модели.

Рейтинг моделей

Основная таблица сортируется по AVG на шкале 1-4; EduRU отделяет школьные модули A-C от ChuvashBench.

МестоМодельAVGEduRUChvBnТип
#1
Gemini 3.1 Pro
google/gemini-3.1-pro
3,61
3,643,43Cloud
#2
Gemini 3.1 Flash Lite
google/gemini-3.1-flash-lite
3,40
3,513,02Cloud
#3
Claude Opus 4.6
anthropic/claude-opus-4.6
3,36
3,463,00Cloud
#4
Gemini 2.5 Pro
google/gemini-2.5-pro
3,34
3,383,16Cloud
#5
Claude Sonnet 4.6
anthropic/claude-sonnet-4.6
3,33
3,433,00Cloud
#6
DeepSeek V3.2
deepseek/deepseek-v3.2
3,24
3,372,77Cloud
#7
Mistral Large 3
mistral/mistral-large-3
3,24
3,352,82Open
#8
Kimi K2.5
moonshotai/kimi-k2.5
3,22
3,352,51Cloud
#9
EduLLM-RU 27B Q6_K (ours)
lii/edullm-ru-27b-q6_k
3,21
3,352,64Self-hosted
#10
GLM 5
zai-org/glm-5
3,20
3,342,77Cloud
#11
GPT-5.4
openai/gpt-5.4
3,20
3,332,82Cloud
#12
GPT-5.4 Mini
openai/gpt-5.4-mini
3,07
3,262,50Cloud
#13
Gemini 2.5 Flash
google/gemini-2.5-flash
3,01
3,032,86Cloud
#14
Qwen3.5 27B (base)
qwen/qwen3.5-27b-base
3,00
3,132,47Open
#15
Grok 4.1 Fast
xai/grok-4.1-fast
2,94
3,152,22Cloud
#16
Qwen3 235B A22B
qwen/qwen3-235b-a22b
2,83
3,121,96Open
#17
EduLLM-RU 32B Q6_K (ours)
lii/edullm-ru-32b-q6_k
2,69
2,882,04Self-hosted
#18
GLM 4.7 Flash
zai-org/glm-4.7-flash
2,68
2,792,14Cloud
#19
Qwen3 32B
qwen/qwen3-32b
2,61
2,901,77Open
#20
Llama 4 Maverick
meta/llama-4-maverick
2,58
2,682,30Open
#21
YandexGPT 5.1 Pro
yandex/yandexgpt-5.1-pro
2,51
2,711,89Russian cloud
#22
Qwen3 14B
qwen/qwen3-14b
2,41
2,681,67Open
#23
GigaChat-2 Max
sber/gigachat-2-max
2,39
2,591,81Russian cloud
#24
GigaChat-2 Pro
sber/gigachat-2-pro
2,36
2,571,76Russian cloud
#25
Qwen3 8B
qwen/qwen3-8b
2,34
2,561,69Open
#26
YandexGPT 5 Lite
yandex/yandexgpt-5-lite
2,27
2,451,78Russian cloud
#27
Command A
cohere/command-a
2,23
2,391,74Cloud
#28
GigaChat-2 Lite
sber/gigachat-2-lite
2,16
2,301,73Russian cloud
#29
Phi-4 14B
microsoft/phi-4-14b
1,57
1,601,44Open

Источник данных

Страница использует зафиксированный JSON-снимок в монорепозитории. Runtime-запросов к GitHub нет; обновление проходит через публичный EduBench-RU.

Воспроизводимость

Публичный репозиторий владеет prompts, raw results и score files. До появления upstream data/leaderboard.json сайт использует зафиксированный JSON-снимок, собранный из публичного summary.

curl https://raw.githubusercontent.com/csylabs-org/edubench-ru/main/data/RESULTS-SUMMARY.md
git diff apps/bench/data/edubench-leaderboard.json
pnpm --filter @csylabs/bench type-check
pnpm --filter @csylabs/bench build
Репозиторий EduBench-RU
csylabs.bench — открытый рейтинг LLM