Вакансия: ML Engineer в команду компьютерного зрения и мультимодальных моделей в AI VK
Зарплата: руб.
Форма занятости:
Полная занятость
Метод работы:
Полный рабочий день
Задачи: Группа машинного зрения направления R D работает на стыке исследований и продуктовой разработки. Мы выходим за рамки стандартного анализа изображений и фокусируемся на мультимодальном ИИ для решения комплексных задач. Наша работа охватывает как критически важные бизнес-задачи, например высоконадёжную верификацию пользователей, так и амбициозные R D-направления, включая визуально-языковые модели (VLM) для распознавания текстов и интеграцию визуальной модальности в речевые модели (SpeechLM). Если вам интересно работать на стыке обработки пикселей и семантического понимания — вы наш кандидат. Задачи Next-Gen OCR: обучение визуально-языковых моделей (VLM) для задач OCR, переход от классических пайплайнов к end-to-end пониманию и извлечению структуры из документов Исследования в мультимодальности: лидирование исследовательского трека по добавлению визуальной модальности в речевые языковые модели (SpeechLM), чтобы научить модели одновременно «видеть» и «говорить» Верификация пользователей: создание и внедрение надёжных CV-моделей для верификации через камеру: распознавание лиц (Face Recognition), Liveness Detection и методы защиты от спуфинга (Anti-spoofing) Оптимизация: Deep Learning моделей по скорости (latency) и памяти для работы в продакшен-окружении Внедрение в production: взаимодействие с backend-разработчиками для вывода моделей в прод, обеспечение их надёжности и масштабируемости для будущих бизнес-задач Research: мониторинг свежих статей на arXiv в областях CV, NLP и Multimodal Learning Требования 2+ года опыта в Computer Vision и Deep Learning, твёрдое понимание линейной алгебры, теории вероятностей и методов оптимизации Отличное знание Python и фреймворков глубокого обучения (преимущественно PyTorch) Глубокое понимание современных архитектур, особенно трансформеров (ViT) и CNN Понимание того, как связывать разные модальности (например, выравнивание эмбеддингов изображений с аудио- или текстовыми токенами) Практический опыт с задачами верификации/идентификации (ArcFace, Triplet Loss и так далее) или детекции/сегментации Уверенное владение Git, умение писать чистый код и понимание базовых процессов MLOps Будет плюсом Опыт обучения или fine-tuning больших мультимодальных моделей (например, LLaVA, Qwen-VL) Опыт оптимизации инференса: квантизация, TensorRT/Triton, ONNX, CUDA Graphs Навыки обучения больших моделей с Mixed Precision и Distributed Data Parallel (DDP) в PyTorch Опыт построения пайплайнов для генерации синтетических данных или использования Active Learning Опыт чтения и воспроизведения алгоритмов из научных статей Опыт работы с kubeflow и airflow
Образование:
Не указано
Контакты:
Для просмотра контактов необходимо авторизоваться на сайте.
Войти