Модуль 2: Введение в машинное обучение и типы задач
Задача модуля: Дать классификацию задач и показать жизненный цикл ML-проекта.
Обучение с учителем (Supervised Learning)
Регрессия — предсказать число (температура, цена, спрос). Выход модели — непрерывное значение. Метрики: MSE, MAE, R².
Классификация — отнести объект к одному из классов: кошка/собака, спам/не спам, многоклассовая. Выход — класс или вероятность принадлежности классу.
Функция потерь (Loss Function) — одна величина, показывающая, насколько предсказания модели отличаются от правильных ответов. Минимизируя loss, мы «подгоняем» модель под данные. Для регрессии часто MSE, для классификации — кросс-энтропия.
Обучение без учителя (Unsupervised Learning)
Кластеризация — разбить объекты на группы без заранее заданных меток (сегментация клиентов, поиск аномалий). Алгоритмы: K-means, DBSCAN, иерархическая кластеризация.
Снижение размерности — когда признаков слишком много, сжать их до меньшего числа переменных, сохранив структуру (PCA, t-SNE, UMAP). Нужно для визуализации и ускорения обучения.
Обучение с подкреплением (RL) — обзор
Идея: агент действует в среде, получает награды (или штрафы). Цель — максимизировать суммарную награду. Обучение идёт не по готовым парам «вход–ответ», а по опыту взаимодействия. Примеры: игра (ходы → очки), робот (действия → достижение цели). Для общего кругозора: DQN, policy gradient, среды типа Gym.
Основной пайплайн (конвейер) ML
Загрузка данных → Предобработка (чистка) — пропуски, выбросы, типы данных → Извлечение признаков (Feature Engineering) — создание и отбор признаков → Обучение модели — подбор гиперпараметров, кросс-валидация → Оценка качества — метрики на тестовой выборке → Внедрение (Deployment) — сервис, API, батч-инференс, мониторинг.