Модуль 10: Практикум. Промышленный подход и инструменты
Задача модуля: Интеграция всего изученного в реальные инструменты.
Библиотеки Python для DS
Pandas — работа с таблицами (DataFrame), загрузка CSV/Excel, фильтрация, группировки, слияние. NumPy — массивы, векторизованные операции, линейная алгебра. Matplotlib / Seaborn — визуализация: графики, распределения, корреляции; важно для EDA и понимания данных перед моделированием.
Scikit-learn для классических моделей
Единый интерфейс fit / predict (и transform для препроцессинга). Быстрая реализация регрессий, деревьев, случайного леса, KNN, кластеризации, PCA. Pipeline — цепочка преобразований и модели в одном объекте. Кросс-валидация, подбор гиперпараметров (GridSearchCV). Стандарт для табличных данных и прототипирования.
Фреймворки для нейросетей (PyTorch / TensorFlow)
Тензоры — многомерные массивы, в т.ч. на GPU. Автоматическое дифференцирование (autograd) — фреймворк сам считает градиенты по backpropagation, нужно только описать forward. Сборка моделей из слоёв (Linear, Conv2d, LSTM, Transformer). PyTorch — динамический граф, удобная отладка; TensorFlow/Keras — статический граф, продакшен-инструменты. Трансформеры собирают из готовых блоков (Hugging Face transformers).
Обзор MLOps (как это живет в продакшене)
Обучение на кластерах (распределённо, с GPU). Версионирование моделей и датасетов (MLflow, DVC). Инференс — сервирование модели: REST API, батч-обработка; движки вроде ONNX, TensorRT, Triton для ускорения. Мониторинг в бою: дрейф данных, падение метрик, задержки. CI/CD для пайплайнов обучения и деплоя. MLOps — это DevOps плюс специфика данных и моделей.