Методология

Единая методология публичных бенчмарков ЛИИ

Подход общий для всех треков: сначала фиксируется проверяемый доменный бенчмарк, затем прогоняются базовые модели, публикуется leaderboard и только после этого принимаются решения о дообучении.

Benchmark-first

Мы не начинаем с корпуса и красивого model card. Сначала создаётся русскоязычная проверочная поверхность: доменные вопросы, аудитории, уровни сложности, эталонные критерии и понятная схема публикации.

Открытый ответ вместо угадывания

Основной формат — свободный профессиональный ответ, а не multiple choice. Это ближе к реальному использованию: тренер, учитель, функционер или методист спрашивает модель и оценивает качество действия, а не выбор варианта.

Рубрика и судейский ансамбль

Ответы оцениваются по доменной рубрике. Для Sport это точность, полнота, полезный дополнительный insight и русский язык. Для EduBench — педагогическое качество, язык, фактическая точность, применимость и российский контекст.

Публикуем bias, а не прячем

Если модель-судья оценивает кандидата из своей же семьи, такой self-judging выделяется отдельно. Мы показываем self-score, cross-score и delta, чтобы читатель видел, где оценка может сдвигаться.

Воспроизводимые артефакты

Публичный репозиторий должен хранить исходные вопросы или prompts, raw outputs/results, scores и итоговый leaderboard snapshot. Сайт не ходит в GitHub во время запроса; он публикует зафиксированную версию.

Доменный слой поверх общего каркаса

Sport, Education, Legal или Clinical отличаются корпусом, рубрикой и safety-границами, но не каркасом. Это позволяет масштабировать bench.csylabs.com без переписывания методологии для каждого нового трека.

Текущие треки

Live v0.1

ЛИИ-Спорт-Bench-RU

Русский спортивный трек построен от SportQA gap analysis: российские федерации, ФССП, РУСАДА/ВАДА, спортивная методология, аудитории тренера, спортсмена, СШОР, медика, аналитика и функционера.

Live public summary

EduBench-RU

Образовательный трек покрывает ФГОС-педагогику, предметные знания, copilot-сценарии учителя и ChuvashBench как маркер локализации для национальных языков России.

Ансамбль судей

Каждый live-трек явно показывает, какие judge-модели использовались. Это часть методологии, потому что состав жюри влияет на результат так же, как корпус и рубрика.

Трек	Судьи
ЛИИ-Спорт-Bench-RU	google/gemini-3.1-pro-previewanthropic/claude-opus-4.7openai/gpt-5.5
EduBench-RU	GPT-5.4Claude Sonnet 4.6Gemini 3.1 Pro

Флаги разногласий судей

Для Sport сейчас опубликована доля вопросов по каждой модели, где разногласие между судьями было достаточно высоким для флага. Для EduBench это будет добавлено после публикации upstream leaderboard JSON.

Модель	Флаги	Всего	%
claude-opus-4.7	26	199	13.1%
gemini-3.1-pro-preview	26	199	13.1%
gpt-5.5	8	199	4%
deepseek-v4-flash	40	199	20.1%
qwen3.5-27b	29	199	14.6%
gemma-4-31b-it	14	199	7%
qwen3.6-27b	50	199	25.1%

Внутренние документы, из которых собрана публичная версия

METHODOLOGY-DECK-SECTION-2026-05-14.md — общий methodology-forward pitch block
LII-SPORT-BENCH-DESIGN-2026-05-02.md — SportQA gap, аудитории, категории, генерация вопросов
EVAL-HARNESS-DESIGN-2026-05-03.md — TypeScript harness, output schema, aggregation
EDUBENCH-RU-DESIGN.md — модули, 1-4 rubric, ChuvashBench