Вакансия: Руководитель аналитики метрик качества GigaChat (LLM Evaluation)

Зарплата: руб.

Регион: г. Москва

Опубликовано: 04.03.2026

Форма занятости:

Метод работы: Полный рабочий день

Задачи: Мы — команда GigaChat ML. Делаем полный цикл обучения модели, от претрейна до алайнмента. Нам нужен руководитель, который будет фултайм владеть системой метрик качества GigaChat: Измерять качество на бенчмарках и реальных логах. Находить слабые места и причины деградаций. Развивать метрики и процессы, ускорять внедрение новых бенчмарков и системы замера. Эта роль про фунадментальное качество модели и измерения (не про продуктовые метрики DAU/Retention и не про сбор данных как основной фокус). Обязанности Владение системой качества и метрик (end-to-end ownership) Определять и поддерживать “quality scorecard” для GigaChat: что считаем качеством, какие метрики ключевые, какие — нет. Держать фокус на эффективности системы и снижать стоимость измерений. Бенчмарки и регрессионное тестирование Постоянно актуализировать пакет бенчмарков под ключевые сценарии, чтобы успевать за быстро развивающейся сферой LLM. Внедрить регулярное сравнительное тестирование версий модели и конкурентов по единой. Аналитика логов и диагностика слабых мест Анализировать логи и пользовательский фидбэк с позиции качества: кластеризация проблем, тематические срезы, частотность, тяжесть. Связывать проблемы в логах с бенчмарками: проблемы должны быть измеримы. Разработка и внедрение метрик качества Разрабатывать новые метрики/прокси метрики (автоматические и полуавтоматические), калибровать их против эталонных оценок. Продумывать, где нужна человеческая оценка, где достаточно автоматики, как снижать стоимость измерений без потери достоверности. Внедрять метрики в процессы: CI/релизные проверки, мониторинг качества, алерты. Эксперименты и принятие решений Проектировать и анализировать A/B-эксперименты качества (в онлайне и/или в контролируемых тестах), делать выводы: “что улучшилось/ухудшилось”, “почему”, “что делать дальше”, “можно ли катить в прод”. Требования Сильный Python (pandas, NumPy), уверенная аналитика данных, умение быстро превращать «сырые логи» в выводы. Хорошее понимание оценки качества LLM: какие типы метрик бывают, где они ломаются, как валидировать метрику, как избегать “gaming”. Понимание статистики и экспериментов: доверительные интервалы, тесты, множественные сравнения, дизайн A/B, интерпретация результатов. Практический опыт работы с LLM (Open Source и/или proprietary): понимание специфики инструкционного поведения, галлюцинаций, safety ограничений. Навыки продуктового и инженерного мышления: формулировать критерии качества так, чтобы они становились механизмом управления. Будет плюсом Опыт построения evaluation фреймворков и “evaluation harness” (любые внутренние/внешние тулзы), интеграция оценок в CI/CD. Опыт с LLM based evaluation (LLM judge) и методами калибровки/контроля смещения судьи. Знание систем аналитики и хранилищ (SQL, ClickHouse/BigQuery/Spark/S3), мониторинг/дашборды (Grafana/Superset/Looker и аналоги). Условия Удалённо Возможность оформления в аккредитованную IT-компанию. Годовая премия по итогам работы до 6 окладов. Регулярный пересмотр зарплат. Корпоративный спортзал и зоны отдыха. Более 400 программ СберУниверситета для роста. Программа адаптации и помощь руководителя на старте. Крупнейшее DS AI community — более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы. Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа. Ипотека для сотрудников по дисконтной программе. СберПрайм+ и скидки у партнёров. Бонус за рекомендации в команду.

Образование: Не указано