Введение в AI

Модуль 9: Большие языковые модели (LLM) и их работа

Задача модуля: Связать теорию Трансформера с тем, что пользователи видят в интерфейсах.

Токенизация и эмбеддинги

Токенизация: текст разбивается на токены — подслова (BPE, WordPiece), реже слова или символы. Каждый токен имеет id. Эмбеддинги — векторное представление токена (обучаемый слой: id → вектор фиксированной размерности). Близкие по смыслу слова получают близкие векторы (король/королева). Эмбеддинги — вход первого слоя трансформера.

Обучение LLM (Pre-training и Fine-tuning)

Предобучение (pre-training): на огромных корпусах текста модель учится предсказывать следующее слово (токен). Так она «набирается» грамматики, фактов и стилей. Дообучение (fine-tuning): на данных под конкретную задачу (инструкции, диалог, формат ответа) модель подстраивается, чтобы лучше следовать запросам пользователя. Часто используется RLHF (подкрепление от человеческих предпочтений).

Температура (Temperature) и сэмплирование

Модель выдаёт распределение вероятностей над следующим токеном. Почему ответы не одинаковые: на каждом шаге следующий токен выбирается по этому распределению (сэмплирование), а не всегда argmax. Температура — параметр, который «размазывает» или «заостряет» распределение: высокая температура — более равномерное (креатив, разнообразие), низкая — пик на самых вероятных токенах (детерминизм, точность).

Окно контекста (Context Window) и его ограничения

Модель «видит» только последние N токенов (вход + сгенерированный ответ). Почему забывает начало длинного разговора: старые токены выходят за пределы окна и не участвуют в attention. Ограничения длины документов и диалогов связаны с квадратичной сложностью attention по длине и с памятью. Увеличение контекста (8k, 32k, 128k+) — активная область (разреженное внимание, иерархии).

Настройки

Тема