Вакансия: Стажер NLP Engineer (команда GigaChat Pretrain)
Зарплата: руб.
Форма занятости:
Полная занятость
Метод работы:
Полный рабочий день
Задачи: Мы в GigaChat делаем core-технологию генеративной языковой модели: она пишет тексты, генерирует изображения, пишет код, отвечает на вопросы и ведёт диалоги. Прошлой осенью мы выпустили сильную русскоязычную модель GigaChat MAX уровня GPT-4 (метрики — в статье на Habr). Зимой выложили в открытый доступ одну из наших MoE-моделей. И на этом не остановились — двигаемся дальше! Сейчас у нас фокус в несколько направлений: 1. Исследования и эксперименты — стабилизация и развитие архитектур (новые виды attention, улучшение тестового стенда изменений) — методы улучшения обучения (оптимизация, лоссы и режимы вроде FIM/MTP, балансировка MoE) — скейлинг-законы (для гиперпараметров, качества и стоимости) — постоянный разбор свежих статей и идей индустрии 2. Инфраструктура и параллельные тренировки 5-D параллелизм, ускорение мультимодальных и гигантских MoE-моделей на больших кластерах. 3. Фреймворк распределённого обучения Разработка GigaFSDP, эксперименты с FP8/mixed-precision, устойчивость и эффективность обучения на больших масштабах. 4. Низкоуровневые оптимизации Оптимизация операций на уровне CUDA/triton ядер, улучшение производительности NCCL, профилирование и устранение узких мест. 5. Качество и метрики Развитие оценки GigaChat: от международных олимпиадных задач до метрик, специфичных для русского языка. Ищем NLP Engineer, с кем будем делать GigaChat умнее. Для экспериментов у нас — кластер с большим числом A100/H100. Обязанности * Доводить качество на русском до уровня ChatGPT и выше. * Придумывать и проверять идеи, которые дают практический выигрыш. * Помогать решать задачи внутренних клиентов Сбера — с прицелом на внешних пользователей. * Следить за индустрией: читать статьи, быстро проверять гипотезы, делиться результатами. Требования * Уверенный Python и PyTorch. * База по алгоритмам и математике (линейная алгебра, оптимизация, вероятности). * Опыт обучения DL-моделей: от «просто моделей» до больших. * Теоретическое понимание алгоритмов распределенного обучения. * Представление о текущем ландшафте LLM и трендах. Плюсом будет: опыт с распределённым обучением (DDP/FSDP/параллелизмы), CUDA/NCCL/профилирование, MoE/FP8, мультимодальные модели, построение метрик качества. Даже если у тебя нет опыта с LLM, но ты много занимался NLP исследованиями или инженерными оптимизациями — не стесняйся откликнуться! Условия Формат и условия * Удалённо * Возможность оформления в акктеритованную IT-компанию. * Годовая премия по итогам работы до 6 окладов. * Регулярный пересмотр зарплат. * Корпоративный спортзал и зоны отдыха. * Более 400 программ СберУниверситета для роста. * Программа адаптации и помощь руководителя на старте. * Крупнейшее DS AI community – более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы. * Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа. * Ипотека для сотрудников по дисконтной программе. * СберПрайм+ и скидки у партнёров. * Бонус за рекомендации в команду.
Образование:
Не указано
Контакты:
Для просмотра контактов необходимо авторизоваться на сайте.
Войти