Инженер по поддержке больших данных
Москва
Гибрид
условия обсуждаются индивидуально
Требуется в компании:
X5 Tech
Обязанности
  • Поддержка инфраструктуры ML/LLM: сопровождение виртуальных машин и контейнерных сред (Kubernetes), мониторинг распределения ресурсов (CPU/RAM/GPU), диагностика bottleneck'ов в инференсе моделей;
  • Observability и алертинг: поддержка стека Prometheus / VictoriaMetrics + Grafana, написание запросов на PromQL и SQL для диагностики состояния сервисов, настройка SLO/SLI, создание дашбордов для отслеживания latency, throughput и ошибок LLM;
  • Эксплуатация микросервисов: сопровождение распределенной архитектуры, трассировка запросов между сервисами, анализ логов при инцидентах;
  • Инцидент-менеджмент: оперативное реагирование на алерты, проведение RCA, разработка ранбуков для типовых сценариев отказов (проседание GPU, заполнение VRAM, деградация API моделей);
  • Взаимодействие с моделями: отладка API-запросов к LLM (OpenAI-compatible endpoints, локальные inference-серверы), диагностика ошибок токенизации, rate limiting, timeout'ов;
  • Автоматизация рутины: написание Python-скриптов для автоматизации диагностики, сбора метрик, перезапуска зависших задач, парсинга логов;
  • Эскалация: взаимодействие с командами разработки и инфраструктуры при сложных инцидентах, передача задач в сроки;
  • Что мы ожидаем от кандидата:
  • Инфраструктура: понимание принципов работы виртуальных машин и контейнеризации; умение анализировать распределение ресурсов
  • Мониторинг: уверенное владение Prometheus и Grafana, написание запросов на PromQL; понимание метрик инференса (latency p95/p99, GPU utilization, queue size);
  • Данные: знание Loki для анализа логов и метрик; базовое понимание векторных БД;
  • Разработка: Python (автоматизация, скрипты для диагностики);
  • LLM и API: понимание работы LLM-сервисов (инференс, токены, контекстное окно)
  • Будет плюсом:
  • Опыт работы с LLM-инференс движками (vLLM, SGLang);
  • Знание LangChain/LangFlow для понимания цепочек вызовов моделей;
  • Знание английского языка (чтение технической документации).
  • Что важно:
  • Мы ищем инженера, который понимает, что значит «модель упала по OOM» или «просел p95 latency», и может быстро локализовать проблему — в коде, инфраструктуре или самой модели.
Требования
  • Образование: Высшее
  • Опыт работы: От года
  • Компьютерные навыки: Среда разработки, трекеры задач, база знаний
  • Иностранный язык: Английский, B1
  • Инфраструктура: понимание принципов работы виртуальных машин и контейнеризации; умение анализировать распределение ресурсов
  • Мониторинг: уверенное владение Prometheus и Grafana, написание запросов на PromQL; понимание метрик инференса (latency p95/p99, GPU utilization, queue size);
  • Данные: знание Loki для анализа логов и метрик; базовое понимание векторных БД;
  • Разработка: Python (автоматизация, скрипты для диагностики);
  • LLM и API: понимание работы LLM-сервисов (инференс, токены, контекстное окно)
  • Будет плюсом:
  • Опыт работы с LLM-инференс движками (vLLM, SGLang);
  • Знание LangChain/LangFlow для понимания цепочек вызовов моделей;
  • Знание английского языка (чтение технической документации).
  • Что важно:
  • Мы ищем инженера, который понимает, что значит «модель упала по OOM» или «просел p95 latency», и может быстро локализовать проблему — в коде, инфраструктуре или самой модели.
  • • аналитические способности, системное мышление, умение работать с большими объемами информации;
  • • умение работать в режиме многозадачности, принимать самостоятельные решения;
  • • нацеленность на результат;
  • • хорошие навыки коммуникации (письменные и устные)
Условия
  • График работы: Пятидневный
Присоединяйся к команде Х5
X5 Tech
Загрузите резюме в формате
PDF до 10 МБ
Нажимая «Откликнуться», вы подтверждаете, что ознакомлены и принимаете Пользовательское соглашение.
Заполните форму и станьте частью команды Х5