Middle Data analyst (Лаборатория продуктов)
Описание
Контактная информация
Имя: Ильяс Мансуров
Телефон: +7 771 4862711
Email: ilyas44m@gmail.com
Города: Алматы, Семей
GitHub: github.com/4Ilyas4
Цель
Data Scientist, Готов к удаленной работе, выполнению задач по синхронизации баз данных, очист-
ке и обработке данных, реализации скриптов на Python и Java, а также анализу и устранению
аномалий, предоставления ML решении. Опыт работы с Python, Pandas, PostgreSQL, REST API,
Apache Airflow и разработкой инструментов для автоматизированного EDA-анализа.
Опыт работы
ML Разработчик , Алматы | Январь 2024 – Март 2025
• Разработка и автоматизация процессов обработки данных с использованием Python, Pandas,
PostgreSQL и MS SQL Server.
• Очистка, форматирование и загрузка данных в базы данных, включая работу с адресными
данными.
• Интеграция REST API для взаимодействия с внешними сервисами и обработки данных.
• Анализ данных, выявление аномалий и их устранение с использованием Pandas, NumPy и
регулярных выражений.
• Разработка собственной библиотеки для автоматизированного EDA-анализа с применением
к датасетам Iris, Titanic и AQI.
• Работа с Linux-консолью (основные команды), Jupyter Notebook и Apache Airflow для авто-
матизации процессов обработки данных.
• Визуализация данных с использованием Matplotlib и Seaborn для проверки результатов и
оптимизации процессов.
Проекты
Автоматизированный EDA-анализ (CustomAutoEDA) | Февраль 2025 – Март 2025Тех-
нологии: Python, Pandas, Matplotlib, Seaborn, Jupyter Notebook
• Разработал собственную библиотеку для систематического EDA-анализа (GitHub Repository).
• Провел разведочный анализ данных (EDA) для датасетов Iris, Titanic и AQI, включая очист-
ку данных, обработку пропусков, кодирование категориальных признаков и визуализацию
корреляций и распределений.
• Автоматизировал процесс анализа данных с использованием Pandas, Matplotlib и Seaborn
для ускорения работы с новыми датасетами.
ETL-пайплайн с Apache Airflow и Docker Compose | Февраль 2025 – Март 2025Тех-
нологии: Python, Pandas, PostgreSQL, Apache Airflow, Docker Compose, Linux, Jupyter Notebook
1
•
Разработал ETL-пайплайн с использованием Apache Airflow и Docker Compose для обработ-
ки датасета IQ (GitHub Repository).
• Выполнил извлечение данных из CSV, трансформацию (очистка, заполнение пропусков с
использованием ML-моделей SVR и GradientBoosting, кодирование категориальных призна-
ков) и загрузку в PostgreSQL.
• Использовал Linux-консоль для управления контейнерами и тестирования скриптов, обес-
печив стабильность и повторяемость процессов.
Анализ данных и ETL-процессы (MS SQL Server) | Февраль 2025 – Март 2025Техно-
логии: Python, Pandas, MS SQL Server, SSMS, PostgreSQL, Linux, Jupyter Notebook
• Разработал ETL-пайплайн для извлечения данных из MS SQL Server, их очистки и транс-
формации с использованием Python (Pandas, collections, itertools) и загрузки в PostgreSQL.
Использовал регулярные выражения для обработки текстовых данных.
• Выполнил анализ данных, выявил аномалии и оптимизировал доступ к данным через ви-
зуализацию связей в виде графа в Obsidian.
• Работал с Linux-консолью для управления скриптами и их тестирования.GitHub Repository
Сервис рекомендаций книг | Февраль 2025 – Март 2025Технологии:Python, Pandas,
scikit-learn, FastAPI, Pydantic, PostgreSQL, REST API
•Создал и оптимизировал процесс обработки данных Amazon Books: очистка, форматирова-
ние, загрузка в PostgreSQL.
• Разработал REST API на FastAPI для выдачи персонализированных рекомендаций с ис-
пользованием алгоритмов на основе Bayesian updates.
• Интегрировал пользовательские данные с помощью REST-клиента, обеспечив их хранение
и обработку в базе данных.
Сервис для проверки резюме | Ноябрь 2024Технологии:Python, NLTK, scikit-learn,
Flask, PostgreSQL, PyMongo, REST API
•Разработал RESTful API на Flask для анализа соответствия резюме вакансиям. Выполнил
предобработку текста (токенизация, удаление стоп-слов, лемматизация) с использованием
NLTK.
• Реализовал вычисление косинусного сходства с помощью scikit-learn для оценки соответ-
ствия.
• Использовал PostgreSQL и PyMongo для хранения и обработки данных кандидатов.GitHub
Repository
Калькулятор страхования | Январь 2024Технологии: Java, Apache POI, Excel
• Автоматизировал извлечение и обработку данных из Excel с использованием Apache POI.
Реализовал динамические расчеты и интеграцию в процессы обработки данных.
• Обеспечил сохранение данных и их повторную загрузку для последующей обработки.GitHub
Repository
2
Навыки
Языки программирования: Python, SQL, JavaБиблиотеки и фреймворки: Pandas, NumPy,
scikit-learn, NLTK, Flask, FastAPI, Pydantic, Matplotlib, Seaborn, ReGex, Apache POI, SentenceTransformer,
PyMongo, collections, itertools Базы данных:PostgreSQL, MS SQL Server, MongoDB, SQLite Ин-
струменты и платформы: VS Code, Jupyter Notebook, Git, GitHub, Gitlab, Linux, REST API,
Apache Airflow, Docker Compose Data Engineering:Очистка данных, форматирование, загруз-
ка в БД, анализ данных, выявление аномалий, автоматизированный EDA Machine Learning:
базовые знания ML и DL, обучение и оценка ML моделей для задач классификации, регрессии и
кластеризации , обучение GAN для аугментации изображении для будущего использвания в сег-
ментации, дообучение модели сегментации изображении SAM, обучение и оценка CNN модели с
softmax для многоклассовой классификации, создание эмбеддеров используя обученный энкодер
из VAE
Образование
Бакалавр, Казахстанско Британский Технический Университет, Алматы, 2022(4 год обучения)
Курсы: Прошел курс Data Engineer от EPAM
Дополнительно •Возможность оформления как самозанятого или по трудовому договору.
• Гибкость в освоении новых технологий и инструментов.
• Участие в IT-активностях и готовность к обучению/сертификации.
3
4 декабря, 2025
Жанна
Город
Алматы
Возраст
51 год ( 6 декабря 1974)
23 мая, 2017
Балым
Город
Алматы
Возраст
55 лет (10 января 1970)
25 мая, 2017
Игорь
Город
Алматы
Возраст
37 лет (18 декабря 1987)