Введение в AI

Модуль 4: Ансамблевые методы. Короли табличных данных

Задача модуля: Объяснить, как комбинация слабых моделей даёт супер-силу. Подвести к бустингам.

Бутстрэп и случайный лес (Random Forest)

Бэггинг (Bootstrap Aggregating): много раз берём случайную подвыборку данных (с возвратом), обучаем на каждой своё дерево, ответы усредняем (регрессия) или голосуем (классификация). Так снижается переобучение и растёт стабильность. Random Forest добавляет случайность ещё и по признакам: при каждом разбиении узла рассматривается случайное подмножество признаков. Итог — ансамбль шумных, но разнообразных деревьев.

Суть градиентного бустинга (интуиция)

Не усредняем модели, а усиливаем: каждое следующее дерево учится исправлять ошибки предыдущего. Метафора: комитет, где каждый следующий член разбирается с теми объектами, где предыдущие ошиблись. Остатки (или градиент loss по предсказаниям) становятся целевой переменной для следующего дерева. Так последовательно строится сильный ансамбль.

Детальный разбор CatBoost

Чем уникален: автоматическая работа с категориальными признаками без One-Hot Encoding (ordered target encoding и перестановки). Симметричные деревья — одинаковое разбиение на одном уровне ускоряет инференс. Ordered boosting — решение проблемы смещения градиента: при подсчёте градиента для объекта не используются данные этого же объекта в текущей выборке, что снижает переобучение.

Детальный разбор LightGBM

Чем уникален: GOSS (Gradient-based One-Side Sampling) — односторонняя выборка по градиенту: сохраняем объекты с большими градиентами (большие ошибки), часть остальных выкидываем случайно, ускоряя обучение. EFB (Exclusive Feature Bundling) — объединение разреженных признаков в бандлы для борьбы с разреженностью. Листовой (leaf-wise) рост дерева — дерево растёт по листу с максимальным приростом качества, что даёт большую глубину при том же числе листьев и часто лучшую точность.

Настройки

Тема