Senior HPC / GPU Infrastructure Engineer
09 Марта 2026
Город:
Алматы
Занятость:
Полная занятость
Опыт:
Более 6 лет
Компания "Скиф Трейд"
On-prem GPU-кластер для training/R&D (8× NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand).
Ищем инженера в полное ownership, который сам спроектирует и выстроит архитектуру эксплуатации: стандарты, наблюдаемость, безопасность, производительность.
Мы строим ML-платформу практически с нуля и можем предложить максимальную свободу по решениям — важно, чтобы платформа работала и была удобной для ML-команды.
- Workload orchestration (Slurm / HPC) — очереди/partitions, политики приоритетов и лимитов, fair-share, GRES, сопровождение multi-node training.
- Compute runtime (GPU + контейнеры) — NVIDIA drivers, CUDA/driver compatibility, стабильные и воспроизводимые контейнерные окружения (в т.ч. под training).
- Data plane (Storage) — эксплуатация Lustre, права/квоты/striping, I/O tuning и работа с локальными NVMe (scratch/cache).
- Network fabric (Connectivity + InfiniBand) — routing/VLAN/DNS, связность кластера с внутренними сервисами, базовая эксплуатация и диагностика InfiniBand.
- Identity, access & multi-tenancy (Security) — централизованная аутентификация (FreeIPA/LDAP), разграничение доступа к ресурсам/данным, sudo policies.
- Reliability & operations (Observability + инциденты + perf debugging) — мониторинг/алерты (Prometheus/Grafana), runbooks, инцидент-менеджмент, системный troubleshooting и поиск узких мест (Slurm/GPU/Storage/Network), capacity planning.
Ближайшие задачи:
- Стабилизировать и стандартизировать эксплуатацию (процессы, мониторинг, типовые сценарии).
- Развести training и inference workloads (политики, изоляция, ресурсные границы).
- Спроектировать inference-слой (Kubernetes-based) и план внедрения.
Требования:
- Senior Linux (storage/FS/ACL, perf troubleshooting).
- Практический опыт эксплуатации Slurm.
- Опыт с NVIDIA GPU-серверами (drivers/CUDA/runtime, диагностика).
- Понимание HPC и распределённых задач.
- Сильная сеть: routing / VLAN.
Будет плюсом:
- Lustre, InfiniBand.
- FreeIPA/LDAP.
- HPE (iLO/BIOS/firmware — если приходилось).
- Kubernetes (особенно on-prem).
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
03 Марта
Senior MLOps / DevOps Engineer
Алматы
Компания "Народный банк Казахстана" Крупнейший универсальный коммерческий банк Казахстана приглашает тебя в свою команду. Мы ищем талантливых...
03 Марта
Senior Data Analyst( Публичная Компания «Freedom Finance Global PLC» )
Алматы
Компания "Публичная Компания «Freedom Finance Global PLC»" Обязанности: Продуктовая аналитика, доведение аналитических проектов до...
04 Марта
Алматы
Компания "5 LAB(ФАЙВ ЛАБ)" Our company, with over 12 years of experience in IT commercial development, collaborates with major customers across...
04 Марта
Middle QA Engineer( Bilim Land )
Алматы
Компания "Bilim Land" Bilim Group - это продуктовая EdTech-компания в Казахстане. Мы работаем с огромным масштабом изменений - со всей...
04 Марта
DevOps инженер (Middle / Senior)
Алматы
Компания "«ФИНАНСОВЫЙ ХОЛДИНГ «РЕСПУБЛИКА»" Чем предстоит заниматься: Проектирование, развертывание и сопровождение инфраструктуры на...
Вакансия размещена в отрасли