Senior HPC / GPU Infrastructure Engineer

09 Марта

Партнерские Вакансии

Город:

Алматы

Занятость:

Полная занятость

Опыт:

Более 6 лет

Компания "Скиф Трейд"

On-prem GPU-кластер для training/R&D (8× NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand).

Ищем инженера в полное ownership, который сам спроектирует и выстроит архитектуру эксплуатации: стандарты, наблюдаемость, безопасность, производительность.
Мы строим ML-платформу практически с нуля и можем предложить максимальную свободу по решениям — важно, чтобы платформа работала и была удобной для ML-команды.

Задачи:
  • Workload orchestration (Slurm / HPC) — очереди/partitions, политики приоритетов и лимитов, fair-share, GRES, сопровождение multi-node training.
  • Compute runtime (GPU + контейнеры) — NVIDIA drivers, CUDA/driver compatibility, стабильные и воспроизводимые контейнерные окружения (в т.ч. под training).
  • Data plane (Storage) — эксплуатация Lustre, права/квоты/striping, I/O tuning и работа с локальными NVMe (scratch/cache).
  • Network fabric (Connectivity + InfiniBand) — routing/VLAN/DNS, связность кластера с внутренними сервисами, базовая эксплуатация и диагностика InfiniBand.
  • Identity, access & multi-tenancy (Security) — централизованная аутентификация (FreeIPA/LDAP), разграничение доступа к ресурсам/данным, sudo policies.
  • Reliability & operations (Observability + инциденты + perf debugging) — мониторинг/алерты (Prometheus/Grafana), runbooks, инцидент-менеджмент, системный troubleshooting и поиск узких мест (Slurm/GPU/Storage/Network), capacity planning.

Ближайшие задачи:

  • Стабилизировать и стандартизировать эксплуатацию (процессы, мониторинг, типовые сценарии).
  • Развести training и inference workloads (политики, изоляция, ресурсные границы).
  • Спроектировать inference-слой (Kubernetes-based) и план внедрения.

Требования:

  • Senior Linux (storage/FS/ACL, perf troubleshooting).
  • Практический опыт эксплуатации Slurm.
  • Опыт с NVIDIA GPU-серверами (drivers/CUDA/runtime, диагностика).
  • Понимание HPC и распределённых задач.
  • Сильная сеть: routing / VLAN.

Будет плюсом:

  • Lustre, InfiniBand.
  • FreeIPA/LDAP.
  • HPE (iLO/BIOS/firmware — если приходилось).
  • Kubernetes (особенно on-prem).
Похожие вакансии

03 Марта

Senior MLOps / DevOps Engineer

Алматы

Компания "Народный банк Казахстана" Крупнейший универсальный коммерческий банк Казахстана приглашает тебя в свою команду. Мы ищем талантливых...

Отправить резюме подробнее

03 Марта

Senior Data Analyst( Публичная Компания «Freedom Finance Global PLC» )

Алматы

Компания "Публичная Компания «Freedom Finance Global PLC»" Обязанности: Продуктовая аналитика, доведение аналитических проектов до...

Отправить резюме подробнее

04 Марта

Senior Front-end Developer

Алматы

Компания "5 LAB(ФАЙВ ЛАБ)" Our company, with over 12 years of experience in IT commercial development, collaborates with major customers across...

Отправить резюме подробнее

04 Марта

Middle QA Engineer( Bilim Land )

Алматы

Компания "Bilim Land" Bilim Group - это продуктовая EdTech-компания в Казахстане. Мы работаем с огромным масштабом изменений - со всей...

Отправить резюме подробнее

04 Марта

DevOps инженер (Middle / Senior)

Алматы

Компания "«ФИНАНСОВЫЙ ХОЛДИНГ «РЕСПУБЛИКА»" Чем предстоит заниматься: Проектирование, развертывание и сопровождение инфраструктуры на...

Отправить резюме подробнее

Вакансия размещена в отрасли

Информационные технологии / IT / Интернет: