Senior HPC / GPU Infrastructure Engineer
08 Апреля 2026
Город:
Алматы
Занятость:
Полная занятость
Опыт:
Более 6 лет
Компания "Скиф Трейд"
On-prem GPU-кластер для training/R&D (8× NVIDIA H200, 2 TB RAM/node, HPE, Slurm, Lustre, InfiniBand).
Ищем инженера в полное ownership, который сам спроектирует и выстроит архитектуру эксплуатации: стандарты, наблюдаемость, безопасность, производительность.
Мы строим ML-платформу практически с нуля и можем предложить максимальную свободу по решениям — важно, чтобы платформа работала и была удобной для ML-команды.
- Workload orchestration (Slurm / HPC) — очереди/partitions, политики приоритетов и лимитов, fair-share, GRES, сопровождение multi-node training.
- Compute runtime (GPU + контейнеры) — NVIDIA drivers, CUDA/driver compatibility, стабильные и воспроизводимые контейнерные окружения (в т.ч. под training).
- Data plane (Storage) — эксплуатация Lustre, права/квоты/striping, I/O tuning и работа с локальными NVMe (scratch/cache).
- Network fabric (Connectivity + InfiniBand) — routing/VLAN/DNS, связность кластера с внутренними сервисами, базовая эксплуатация и диагностика InfiniBand.
- Identity, access & multi-tenancy (Security) — централизованная аутентификация (FreeIPA/LDAP), разграничение доступа к ресурсам/данным, sudo policies.
- Reliability & operations (Observability + инциденты + perf debugging) — мониторинг/алерты (Prometheus/Grafana), runbooks, инцидент-менеджмент, системный troubleshooting и поиск узких мест (Slurm/GPU/Storage/Network), capacity planning.
Ближайшие задачи:
- Стабилизировать и стандартизировать эксплуатацию (процессы, мониторинг, типовые сценарии).
- Развести training и inference workloads (политики, изоляция, ресурсные границы).
- Спроектировать inference-слой (Kubernetes-based) и план внедрения.
Требования:
- Senior Linux (storage/FS/ACL, perf troubleshooting).
- Практический опыт эксплуатации Slurm.
- Опыт с NVIDIA GPU-серверами (drivers/CUDA/runtime, диагностика).
- Понимание HPC и распределённых задач.
- Сильная сеть: routing / VLAN.
Будет плюсом:
- Lustre, InfiniBand.
- FreeIPA/LDAP.
- HPE (iLO/BIOS/firmware — если приходилось).
- Kubernetes (особенно on-prem).
Зарегистрируйтесь или войдите, чтобы открыть контакты работодателя
Прикрепите резюме для отклика
Уже с нами?
Войдите, чтобы отправить резюме
02 Апреля
SMM Lead / Senior Social Media Manager
Алматы
Компания "Mogo Kazakhstan" Сейчас мы в поисках SMM Lead / Senior Social Media Manager. Если ты готов(а) к новым вызовам и хочешь влиять на...
02 Апреля
Алматы
Компания "Freedom Holding Operations" Freedom Lifestyle — это нон-финтех направления группы Freedom, которые объединяют ведущие сервисы для...
01 Апреля
Алматы
Компания "Банк ЦентрКредит" ЕСЛИ ВАМ ИНТЕРЕСНО: Проводить функциональное, нефункциональное, интеграционное, регрессионное тестирование...
01 Апреля
Алматы
Компания "Банк ЦентрКредит" Ищем DevOps engineer уровня middle strong. ВАМ ПРЕДСТОИТ: Разрабатывать/развивать шаблонизированные...
01 Апреля
IT Engineer( Международный Аэропорт Алматы, АО )
Алматы
Компания "Международный Аэропорт Алматы, АО" Founded in 1935, Almaty International Airport is the largest air gateway in Kazakhstan and, since...
Вакансия размещена в отрасли