Вакансия: Data Engineer
Зарплата: руб.
Форма занятости:
Полная занятость
Метод работы:
Полный рабочий день
Задачи: Мы - команда ML-инженеров, специализирующаяся на инфраструктуре данных и валидации моделей. Наша команда создает критически важные инструменты для оценки качества моделей, разрабатывает пайплайны обработки данных и фокусируется на генерации высококачественных технических и кодовых данных для обучения моделей. Наши основные направления: • Validation Metrics – инструменты валидации и замера моделей • Data Engineering – пайплайны чистки и синтеза данных • Code Technical Data – генерация кодовых/технических данных • MLOps – хостинг и использование opensource моделей • Model Training – эксперименты с LoRA и SFT Если тебе интересно создавать инфраструктуру для развития LLM и работать с передовыми технологиями в области данных — приходи к нам. Обязанности Validation Metrics разрабатывать инструменты для валидации и замера качества моделей создавать метрики оценки производительности и точности LLM автоматизировать процессы тестирования и бенчмаркинга Data Engineering строить и оптимизировать пайплайны чистки и синтеза данных разрабатывать системы контроля качества данных автоматизировать процессы фильтрации и предобработки Code Technical Data генерировать высококачественные кодовые и технические датасеты работать с различными форматами программного кода и технической документации создавать синтетические данные для обучения моделей на технических задачах MLOps: развертывать и поддерживать инфраструктуру для хостинга opensource моделей интегрировать и использовать opensource модели в продуктовых решениях обеспечивать мониторинг и масштабирование ML-сервисов Model Training Experiments обучать LoRA адаптеры для экспериментальных задач проводить SFT обучение в рамках исследований данных анализировать результаты экспериментов и итерировать подходы. Требования отличное знание Python и опыт работы с ML-библиотеками (LangChain/LangGraph, PyTorch, llm-foundry, verl) опыт работы с LLM (как opensource: Llama, Mistral, Qwen, так и проприетарными: GPT, Claude) понимание принципов работы с данными для обучения моделей: сбор, очистка, валидация навыки построения ML пайплайнов и автоматизации процессов понимание процессов, знание подходов к валидации и тестированию моделей машинного обучения понимание основ MLOps и работы с контейнеризацией (Docker). Будет плюсом: опыт с фреймворками для работы с агентами и RAG знание подходов к fine-tuning (LoRA, QLoRA, SFT) опыт работы с системами версионирования данных и экспериментов (DVC, MLflow, W B) понимание принципов работы с кодовыми данными и техническими текстами опыт развертывания и мониторинга ML-моделей в production. Условия комфортный современный офис - м. Кутузовская ежегодный пересмотр зарплаты, годовой бонус корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера корпоративная пенсионная программа.
Образование:
Не указано
Опыт:
5
Контакты:
Для просмотра контактов необходимо авторизоваться на сайте.
Войти