Benchmark-first
Мы не начинаем с корпуса и красивого model card. Сначала создаётся русскоязычная проверочная поверхность: доменные вопросы, аудитории, уровни сложности, эталонные критерии и понятная схема публикации.
Методология
Подход общий для всех треков: сначала фиксируется проверяемый доменный бенчмарк, затем прогоняются базовые модели, публикуется leaderboard и только после этого принимаются решения о дообучении.
Мы не начинаем с корпуса и красивого model card. Сначала создаётся русскоязычная проверочная поверхность: доменные вопросы, аудитории, уровни сложности, эталонные критерии и понятная схема публикации.
Основной формат — свободный профессиональный ответ, а не multiple choice. Это ближе к реальному использованию: тренер, учитель, функционер или методист спрашивает модель и оценивает качество действия, а не выбор варианта.
Ответы оцениваются по доменной рубрике. Для Sport это точность, полнота, полезный дополнительный insight и русский язык. Для EduBench — педагогическое качество, язык, фактическая точность, применимость и российский контекст.
Если модель-судья оценивает кандидата из своей же семьи, такой self-judging выделяется отдельно. Мы показываем self-score, cross-score и delta, чтобы читатель видел, где оценка может сдвигаться.
Публичный репозиторий должен хранить исходные вопросы или prompts, raw outputs/results, scores и итоговый leaderboard snapshot. Сайт не ходит в GitHub во время запроса; он публикует зафиксированную версию.
Sport, Education, Legal или Clinical отличаются корпусом, рубрикой и safety-границами, но не каркасом. Это позволяет масштабировать bench.csylabs.com без переписывания методологии для каждого нового трека.
Русский спортивный трек построен от SportQA gap analysis: российские федерации, ФССП, РУСАДА/ВАДА, спортивная методология, аудитории тренера, спортсмена, СШОР, медика, аналитика и функционера.
Образовательный трек покрывает ФГОС-педагогику, предметные знания, copilot-сценарии учителя и ChuvashBench как маркер локализации для национальных языков России.
Каждый live-трек явно показывает, какие judge-модели использовались. Это часть методологии, потому что состав жюри влияет на результат так же, как корпус и рубрика.
| Трек | Судьи |
|---|---|
| ЛИИ-Спорт-Bench-RU | google/gemini-3.1-pro-previewanthropic/claude-opus-4.7openai/gpt-5.5 |
| EduBench-RU | GPT-5.4Claude Sonnet 4.6Gemini 3.1 Pro |
Для Sport сейчас опубликована доля вопросов по каждой модели, где разногласие между судьями было достаточно высоким для флага. Для EduBench это будет добавлено после публикации upstream leaderboard JSON.
| Модель | Флаги | Всего | % |
|---|---|---|---|
| claude-opus-4.7 | 26 | 199 | 13.1% |
| gemini-3.1-pro-preview | 26 | 199 | 13.1% |
| gpt-5.5 | 8 | 199 | 4% |
| deepseek-v4-flash | 40 | 199 | 20.1% |
| qwen3.5-27b | 29 | 199 | 14.6% |
| gemma-4-31b-it | 14 | 199 | 7% |
| qwen3.6-27b | 50 | 199 | 25.1% |