Лектор: Никита Волков

Курс проходит по субботам 16:20-19:10 в 432 ГК. По некоторым неделям занятия проводиться не будут. Начало 21 сентября.

Требования к слушателям: 4 курс и старше; знания теории вероятностей, математической статистики, основ машинного обучения.

Кафедра дискретной математики.

Байесовские методы основаны на теореме Байеса, опубликованной в 1763 году. Несмотря на это, методы анализа данных, использующие ее, получили широкое распространение только к концу 20 века. Зачастую расчеты в подобных методах требуют больших вычислительных затрат, что стало возможным с развитием компьютерных технологий. Курс посвящен рассмотрению основных методов байесовского подхода в статистике и машинном обучении. Рассматриваются байесовские аналоги основных подходов и методов, их преимущества и недостатки. Также в курсе изучается иерархия приближенных процедур для оценки параметров в байесовском подходе.


Содержание

Занятия

Занятие 1 (21.09). Повторение частотного подхода к статистике: оценки и их свойства, метод максимального правдоподобия, доверительные интервалы.

Байесовский подход к статистике, теорема Байеса, апостериорное распределение, примеры. Сопряженное распределение, примеры.

Занятие 2 (28.09). Постулат Байеса, равномерный априор для параметров сдвига и масштаба, примеры для моделей на основе нормального распределение для равномерного априора и сопряженных распределений.

Напоминание частотного подхода к проверке статистических гипотез. Байеосовский подход к проверке статистических гипотез, случаи простых и сложных гипотез, пример, связь с p-value.

Занятие 3. Гамма-нормальное распределение. Маргинальные распределения компонент.

Точечные нулевые гипотезы в байесовском подходе. Метод модификации гипотез, метод Линдли, метод априора с атомом. Влияение достаточных статистик. Вывод формул для нормального распределения с известной дисперсией, результаты для случая неизвестной дисперсии.

Занятие 4. Постановка задачи дисперсионного анализа. Напоминание критериев для нормальных и бернуллиевских выборок. Решение задачи байесовским подходом для нормальных выборок в случаях, если известны дисперсии или же известно их равенство. Формулы для общего случая, распределение Беренца-Фишера. Байесовский подход в случае бернуллиевских выборок. Апостериорное распределение для коэффциента корреляции.

Презентация

Bayesian First Aid

Занятие 5. Линейная регрессия. Напоминание метода наименьших квадратов и его основных свойств. Введение регуляризации в виде априорного распределения на вектор параметров, получение апостериорного распределения (Ridge-регрессия), предиктивное распределение, сравнение в оптимизационным подходом.

Байесовский выбор модели, принцип максимальной обоснованности, примеры. Выбор параметра регуляризации в ridge-регрессии.

Занятие 6. Метод релевантных векторов для задачи регрессии, свойства, вывод итерационных формул. Логистическая регрессия, регуляризация. Метод релевантных векторов для классификации.

Байесовская регрессия в sklearn: ipynb, pdf

Занятие 7. Вариационный байесовский вывод. Напоминание классической задачи байесовского подхода и его проблемы. Постановка аппроксимационной задачи, ее сведение к максимизации нижней оценки обоснованности. Решение задачи в классе факторизованных распределений. Пример для нормальной выборки с неизвестными параметрами, сравнение результата с гамма-нормальным распределением. Решение байесовского варианта ридж-регрессии с помощью вариационного вывода.

Занятие 8. Дата занятия 23 ноября.

Домашние задания

Практические задания нужно выполнять в Jupyter Notebook на языке Python или R. При оформлении решений обратите внимание на правила по курсу статистики.

Задание 1. Дедлайн 5 октября 16:00.

Задание 2. Дедлайн 12 октября 16:00.

Задание 3. Дедлайн 02 ноября 23:59.

Задание 4, ice_cream.txt. Дедлайн 16 ноября 23:59.

Задание 5. Дедлайн 23 ноября 16:00.

Литература и полезные ссылки

  • Christopher M. Bishop “Pattern Recognition and Machine Learning”
  • Peter Lee M. “Bayesian Statistics. An Introduction”