Модуль 1: Фундамент. Математика и логика для Data Scientist'а
Задача модуля: Снять страх перед математикой и показать её прикладное значение.
Линейная алгебра не для абстракции, а для данных
Векторы и векторизация. Вектор — набор чисел (признаков объекта). Векторизация — когда операции выполняются сразу над целыми массивами, а не по элементам в цикле. Так работают NumPy и GPU: одна инструкция обрабатывает много данных, поэтому это сильно быстрее.
Матрицы как способ организации признаков. Строки — объекты (наблюдения), столбцы — признаки. Одна строка = один вектор признаков. Умножение матрицы на вектор (или матрицы на матрицу) даёт пакетную обработку: все объекты проходят через одни и те же веса.
Скалярное произведение как мера «похожести». Скалярное произведение двух векторов тем больше, чем они «больше в одну сторону». Нормализованное скалярное произведение (косинусное сходство) — основа механизма Attention в трансформерах: запрос (Query) сравнивается с ключами (Key) через скалярное произведение, чтобы понять, на какие части входа «смотреть».
Производные и градиент
Физический смысл производной — скорость изменения функции при изменении аргумента. В ML: насколько изменится ошибка (loss), если чуть сдвинуть вес. Производная по весу показывает направление, в котором loss растёт.
Градиент — вектор из частных производных по всем параметрам. Он указывает в направлении наискорейшего подъёма функции. Нам нужно уменьшать loss, поэтому мы делаем шаг в направлении антиградиента (против градиента): так мы двигаемся в сторону скорейшего уменьшения ошибки. Так и «учится» модель: на каждом шаге смотрим градиент и немного сдвигаем веса в сторону антиградиента.
Теория вероятностей и основные распределения
Вероятность как частота события. При многократном повторении опыта доля исходов с нужным событием стремится к вероятности. В ML мы часто оцениваем вероятности по данным (эмпирические частоты).
Условная вероятность P(B|A) — вероятность события B при условии, что произошло A. Формула Байеса и наивный байесовский классификатор строятся на этом. В генеративных моделях мы явно моделируем распределения и условные вероятности.
Нормальное распределение (гауссово) часто возникает как предельное при суммировании многих случайных величин (центральная предельная теорема). Многие модели (например, линейная регрессия с MSE) неявно предполагают нормальность ошибок. Понимание «колокола» помогает читать про допущения моделей и байесовские методы.
Основы статистики
Среднее значение — центр масс данных. Дисперсия — средний квадрат отклонения от среднего; показывает разброс. Корень из дисперсии (стандартное отклонение) — в тех же единицах, что и данные.
Ковариация — мера совместной изменчивости двух признаков: положительная, если оба чаще растут вместе, отрицательная — если один растёт, другой падает. Корреляция (например, Пирсона) — нормированная ковариация, число от −1 до 1. По ней можно понять, связаны ли два признака линейно, не строя модель. Важно: корреляция не означает причинность.