Образование — liveEduBench-RU / 2026-03-21
EduBench-RU: рейтинг LLM для российской школы.
EduBench-RU оценивает модели на русскоязычных педагогических задачах: ФГОС-ориентированное планирование, объяснения ученикам, контрольные материалы, copilot-сценарии учителя и ChuvashBench. Публичный срез: 30 моделей протестировано, 29 моделей в рейтинге, 50 промптов, 3 судейские модели.
Рейтинг моделей
Основная таблица сортируется по AVG на шкале 1-4; EduRU отделяет школьные модули A-C от ChuvashBench.
| Место | Модель | AVG | EduRU | ChvBn | Тип |
|---|---|---|---|---|---|
| #1 | Gemini 3.1 Pro google/gemini-3.1-pro | 3,61 | 3,64 | 3,43 | Cloud |
| #2 | Gemini 3.1 Flash Lite google/gemini-3.1-flash-lite | 3,40 | 3,51 | 3,02 | Cloud |
| #3 | Claude Opus 4.6 anthropic/claude-opus-4.6 | 3,36 | 3,46 | 3,00 | Cloud |
| #4 | Gemini 2.5 Pro google/gemini-2.5-pro | 3,34 | 3,38 | 3,16 | Cloud |
| #5 | Claude Sonnet 4.6 anthropic/claude-sonnet-4.6 | 3,33 | 3,43 | 3,00 | Cloud |
| #6 | DeepSeek V3.2 deepseek/deepseek-v3.2 | 3,24 | 3,37 | 2,77 | Cloud |
| #7 | Mistral Large 3 mistral/mistral-large-3 | 3,24 | 3,35 | 2,82 | Open |
| #8 | Kimi K2.5 moonshotai/kimi-k2.5 | 3,22 | 3,35 | 2,51 | Cloud |
| #9 | EduLLM-RU 27B Q6_K (ours) lii/edullm-ru-27b-q6_k | 3,21 | 3,35 | 2,64 | Self-hosted |
| #10 | GLM 5 zai-org/glm-5 | 3,20 | 3,34 | 2,77 | Cloud |
| #11 | GPT-5.4 openai/gpt-5.4 | 3,20 | 3,33 | 2,82 | Cloud |
| #12 | GPT-5.4 Mini openai/gpt-5.4-mini | 3,07 | 3,26 | 2,50 | Cloud |
| #13 | Gemini 2.5 Flash google/gemini-2.5-flash | 3,01 | 3,03 | 2,86 | Cloud |
| #14 | Qwen3.5 27B (base) qwen/qwen3.5-27b-base | 3,00 | 3,13 | 2,47 | Open |
| #15 | Grok 4.1 Fast xai/grok-4.1-fast | 2,94 | 3,15 | 2,22 | Cloud |
| #16 | Qwen3 235B A22B qwen/qwen3-235b-a22b | 2,83 | 3,12 | 1,96 | Open |
| #17 | EduLLM-RU 32B Q6_K (ours) lii/edullm-ru-32b-q6_k | 2,69 | 2,88 | 2,04 | Self-hosted |
| #18 | GLM 4.7 Flash zai-org/glm-4.7-flash | 2,68 | 2,79 | 2,14 | Cloud |
| #19 | Qwen3 32B qwen/qwen3-32b | 2,61 | 2,90 | 1,77 | Open |
| #20 | Llama 4 Maverick meta/llama-4-maverick | 2,58 | 2,68 | 2,30 | Open |
| #21 | YandexGPT 5.1 Pro yandex/yandexgpt-5.1-pro | 2,51 | 2,71 | 1,89 | Russian cloud |
| #22 | Qwen3 14B qwen/qwen3-14b | 2,41 | 2,68 | 1,67 | Open |
| #23 | GigaChat-2 Max sber/gigachat-2-max | 2,39 | 2,59 | 1,81 | Russian cloud |
| #24 | GigaChat-2 Pro sber/gigachat-2-pro | 2,36 | 2,57 | 1,76 | Russian cloud |
| #25 | Qwen3 8B qwen/qwen3-8b | 2,34 | 2,56 | 1,69 | Open |
| #26 | YandexGPT 5 Lite yandex/yandexgpt-5-lite | 2,27 | 2,45 | 1,78 | Russian cloud |
| #27 | Command A cohere/command-a | 2,23 | 2,39 | 1,74 | Cloud |
| #28 | GigaChat-2 Lite sber/gigachat-2-lite | 2,16 | 2,30 | 1,73 | Russian cloud |
| #29 | Phi-4 14B microsoft/phi-4-14b | 1,57 | 1,60 | 1,44 | Open |
Источник данных
Страница использует зафиксированный JSON-снимок в монорепозитории. Runtime-запросов к GitHub нет; обновление проходит через публичный EduBench-RU.
Воспроизводимость
Публичный репозиторий владеет prompts, raw results и score files. До появления upstream data/leaderboard.json сайт использует зафиксированный JSON-снимок, собранный из публичного summary.
curl https://raw.githubusercontent.com/csylabs-org/edubench-ru/main/data/RESULTS-SUMMARY.md
git diff apps/bench/data/edubench-leaderboard.json
pnpm --filter @csylabs/bench type-check
pnpm --filter @csylabs/bench buildРепозиторий EduBench-RU