Вакансия: Data Engineer (Kandinsky)
Зарплата: руб.
Форма занятости:
Полная занятость
Метод работы:
Полный рабочий день
Задачи: Kandinsky — линейка моделей для генерации изображений и видео по текстовому описанию. Наша команда занимается обучением и развитием модели, аналитикой и построением метрик её работы, специализируется на создании инновационных решений в области искусственного интеллекта и нейросетей. Мы разрабатываем модели, направленные на улучшение взаимодействия между человеком и AI, автоматизацию процессов анализа больших объемов данных, распознавание изображений и обработку естественного языка, а также создание креативных инструментов для автоматической генерации визуального контента высокого уровня. Обязанности проектирование и разработка ETL/ELT-пайплайнов для обработки изображений и видеоданных, как в экосистеме Apache Airflow, так и в формате автономных Python-скриптов. автоматизация процессов загрузки, предобработки и анализа данных: загрузка изображений и видео, обработка полученных данных, определение технических артефактов (например, наличие чёрных полос), трансформация и подготовка данных под требуемые форматы. проектирование и поддержка высоконагруженных пайплайнов с возможностью масштабирования на распределённую обработку. разработка высоконагруженных процессов нарезки, сжатия и конвертации видеофайлов крупного размера с использованием оптимизированных инструментов (ffmpeg, multiprocessing, async-подходы) реализация механизмов отслеживания состояния и истории данных: учёт уже обработанных файлов, планирование задач по догрузке, ведение служебных таблиц поддержка платформы данных: создание и оптимизация DDL/DML-скриптов, настройка таблиц под аналитические и операционные нагрузки подготовка датасетов по требованиям внутренних и внешних заказчиков, обеспечение качества и полноты данных поддержка CI/CD-процессов и стандартизация кодовой базы в соответствии с инженерными практиками и паттернами проектирования. Требования веренный практический опыт разработки ETL-процессов с использованием Apache Airflow либо аналогичных систем оркестрации опыт работы с S3 или совместимыми объектными хранилищами, понимание структуры и принципов организации data-lake понимание принципов распределённой обработки данных и работы PySpark уверенные навыки разработки на Python, включая использование асинхронных инструментов, многопроцессной обработки, работы с большими файлами и медиа-данными опыт написания Bash-скриптов для автоматизации рутинных процессов. глубокое понимание принципов проектирования чистой архитектуры, шаблонов проектирования и построения легко-поддерживаемых модульных систем опыт работы с PostgreSQL и ClickHouse, навыки написания оптимизированных запросов и проектирования таблиц опыт работы с Docker и Kubernetes, понимание контейнеризации пайплайнов данных. Условия крупнейшее DS AI community — более 600 DS-специалистов банка дайджест о самых последних разработках в области DS AI и отчеты с крупнейших конференций мира возможность быть соавтором НИРов и статей для международных конференций возможность выбрать удобный формат работы: гибрид или офис ежегодный пересмотр зарплаты, годовая премия корпоративный спортзал и зоны отдыха более 400 образовательных программ СберУниверситета для профессионального и карьерного развития расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа ипотека выгоднее до 7% для каждого сотрудника бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров вознаграждение за рекомендацию друзей в команду Сбера.
Образование:
Не указано
Контакты:
Для просмотра контактов необходимо авторизоваться на сайте.
Войти