Senior HPC / GPU Infrastructure Engineer
28 Апреля 2026
Город:
Алматы
Занятость:
Полная занятость
Опыт:
Более 6 лет
Компания "Скиф Трейд"
On-prem GPU-кластер для training/R&D (8× NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand).
Ищем инженера в полное ownership, который сам спроектирует и выстроит архитектуру эксплуатации: стандарты, наблюдаемость, безопасность, производительность.
Мы строим ML-платформу практически с нуля и можем предложить максимальную свободу по решениям — важно, чтобы платформа работала и была удобной для ML-команды.
- Workload orchestration (Slurm / HPC) — очереди/partitions, политики приоритетов и лимитов, fair-share, GRES, сопровождение multi-node training.
- Compute runtime (GPU + контейнеры) — NVIDIA drivers, CUDA/driver compatibility, стабильные и воспроизводимые контейнерные окружения (в т.ч. под training).
- Data plane (Storage) — эксплуатация Lustre, права/квоты/striping, I/O tuning и работа с локальными NVMe (scratch/cache).
- Network fabric (Connectivity + InfiniBand) — routing/VLAN/DNS, связность кластера с внутренними сервисами, базовая эксплуатация и диагностика InfiniBand.
- Identity, access & multi-tenancy (Security) — централизованная аутентификация (FreeIPA/LDAP), разграничение доступа к ресурсам/данным, sudo policies.
- Reliability & operations (Observability + инциденты + perf debugging) — мониторинг/алерты (Prometheus/Grafana), runbooks, инцидент-менеджмент, системный troubleshooting и поиск узких мест (Slurm/GPU/Storage/Network), capacity planning.
Ближайшие задачи:
- Стабилизировать и стандартизировать эксплуатацию (процессы, мониторинг, типовые сценарии).
- Развести training и inference workloads (политики, изоляция, ресурсные границы).
- Спроектировать inference-слой (Kubernetes-based) и план внедрения.
Требования:
- Senior Linux (storage/FS/ACL, perf troubleshooting).
- Практический опыт эксплуатации Slurm.
- Опыт с NVIDIA GPU-серверами (drivers/CUDA/runtime, диагностика).
- Понимание HPC и распределённых задач.
- Сильная сеть: routing / VLAN.
Будет плюсом:
- Lustre, InfiniBand.
- FreeIPA/LDAP.
- HPE (iLO/BIOS/firmware — если приходилось).
- Kubernetes (особенно on-prem).
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
23 Апреля
Алматы
Компания "ForteBank" Обязанности: Разрабатывать и исполнять детализированные тест-кейсы, чек-листы и exploratory testing сценарии для...
23 Апреля
Senior Full Stack Engineer (старший full stack разработчик)( Elite Business Group )
Алматы
Компания "Elite Business Group" Senior Full Stack Engineer Ищем опытного специалиста в иностранную компанию для создания масштабируемых...
23 Апреля
Алматы
Компания "Народный банк Казахстана" Обязанности: Разработка и архитектура: Проектировать и развивать микросервисы на Go, создавая устойчивую...
23 Апреля
Алматы
Компания "Народный банк Казахстана" Halyk Банк – это мощная экосистема, где технологии сочетаются с ценностями. Мы гордимся более чем 14 000...
23 Апреля
Аналитик (Методолог) 1C / Senior System Analyst 1C
Алматы
Компания "Social Discovery Ventures" Social Discovery Group (SDG) — третья по величине компания в мире в сфере social discovery, объединяющая...
Вакансия размещена в отрасли