Образование — liveEduBench-RU / 2026-03-21

EduBench-RU: рейтинг LLM для российской школы.

EduBench-RU оценивает модели на русскоязычных педагогических задачах: ФГОС-ориентированное планирование, объяснения ученикам, контрольные материалы, copilot-сценарии учителя и ChuvashBench. Публичный срез: 30 моделей протестировано, 29 моделей в рейтинге, 50 промптов, 3 судейские модели.

Рейтинг моделей

Основная таблица сортируется по AVG на шкале 1-4; EduRU отделяет школьные модули A-C от ChuvashBench.

Место	Модель	AVG	EduRU	ChvBn	Тип
#1	Gemini 3.1 Pro google/gemini-3.1-pro	3,61	3,64	3,43	Cloud
#2	Gemini 3.1 Flash Lite google/gemini-3.1-flash-lite	3,40	3,51	3,02	Cloud
#3	Claude Opus 4.6 anthropic/claude-opus-4.6	3,36	3,46	3,00	Cloud
#4	Gemini 2.5 Pro google/gemini-2.5-pro	3,34	3,38	3,16	Cloud
#5	Claude Sonnet 4.6 anthropic/claude-sonnet-4.6	3,33	3,43	3,00	Cloud
#6	DeepSeek V3.2 deepseek/deepseek-v3.2	3,24	3,37	2,77	Cloud
#7	Mistral Large 3 mistral/mistral-large-3	3,24	3,35	2,82	Open
#8	Kimi K2.5 moonshotai/kimi-k2.5	3,22	3,35	2,51	Cloud
#9	EduLLM-RU 27B Q6_K (ours) lii/edullm-ru-27b-q6_k	3,21	3,35	2,64	Self-hosted
#10	GLM 5 zai-org/glm-5	3,20	3,34	2,77	Cloud
#11	GPT-5.4 openai/gpt-5.4	3,20	3,33	2,82	Cloud
#12	GPT-5.4 Mini openai/gpt-5.4-mini	3,07	3,26	2,50	Cloud
#13	Gemini 2.5 Flash google/gemini-2.5-flash	3,01	3,03	2,86	Cloud
#14	Qwen3.5 27B (base) qwen/qwen3.5-27b-base	3,00	3,13	2,47	Open
#15	Grok 4.1 Fast xai/grok-4.1-fast	2,94	3,15	2,22	Cloud
#16	Qwen3 235B A22B qwen/qwen3-235b-a22b	2,83	3,12	1,96	Open
#17	EduLLM-RU 32B Q6_K (ours) lii/edullm-ru-32b-q6_k	2,69	2,88	2,04	Self-hosted
#18	GLM 4.7 Flash zai-org/glm-4.7-flash	2,68	2,79	2,14	Cloud
#19	Qwen3 32B qwen/qwen3-32b	2,61	2,90	1,77	Open
#20	Llama 4 Maverick meta/llama-4-maverick	2,58	2,68	2,30	Open
#21	YandexGPT 5.1 Pro yandex/yandexgpt-5.1-pro	2,51	2,71	1,89	Russian cloud
#22	Qwen3 14B qwen/qwen3-14b	2,41	2,68	1,67	Open
#23	GigaChat-2 Max sber/gigachat-2-max	2,39	2,59	1,81	Russian cloud
#24	GigaChat-2 Pro sber/gigachat-2-pro	2,36	2,57	1,76	Russian cloud
#25	Qwen3 8B qwen/qwen3-8b	2,34	2,56	1,69	Open
#26	YandexGPT 5 Lite yandex/yandexgpt-5-lite	2,27	2,45	1,78	Russian cloud
#27	Command A cohere/command-a	2,23	2,39	1,74	Cloud
#28	GigaChat-2 Lite sber/gigachat-2-lite	2,16	2,30	1,73	Russian cloud
#29	Phi-4 14B microsoft/phi-4-14b	1,57	1,60	1,44	Open

Источник данных

Страница использует зафиксированный JSON-снимок в монорепозитории. Runtime-запросов к GitHub нет; обновление проходит через публичный EduBench-RU.

Воспроизводимость

Публичный репозиторий владеет prompts, raw results и score files. До появления upstream data/leaderboard.json сайт использует зафиксированный JSON-снимок, собранный из публичного summary.

curl https://raw.githubusercontent.com/csylabs-org/edubench-ru/main/data/RESULTS-SUMMARY.md
git diff apps/bench/data/edubench-leaderboard.json
pnpm --filter @csylabs/bench type-check
pnpm --filter @csylabs/bench build

Репозиторий EduBench-RU