Лектор и семинарист: Никита Волков

Ассистенты:

Кафедра дискретной математики.

Таблица результатов

Правила и система оценивания

Оставить анонимный отзыв


Содержание

Материалы занятий

Съезд I (11.02). Повторение статистики осеннего семестра: метод максимального правдоподобия, доверительные интервалы, процедура проверки статистических гипотез, множественная проверка гипотез. Линейная регрессия, свойства метода наименьших кврадратов, коэффициент детерминации (R^2), информационные критерии (AIC, BIC), метрики (MSE, MAE, MAPE). Гауссовская линейная модель - доверительные интервалы для коэффициентов модели и для отклика, гипотезы о незначимости коэффициента и группы коэффициентов, общая линейная гипотеза, сравнение моделей.

Презентация

Язык R:

  1. Введение: IPYNB, PDF
  2. Работа с данными: IPYNB, PDF
  3. Линейная регрессия: IPYNB, PDF

Съезд II (18.02). Анализ остатков. Дисперсия остатков линейной модели в условиях гетероскедастичности, визуальный анализ. Критерии проверки на гомоскедастичность: Бройша-Пагана и Голдфелда-Квандта. Преобразование Бокса-Кокса. Устойчивые оценки дисперсии Уайта, асимптотическая нормальность.

Презентация, пример работы в условиях гетероскедастичности (IPYNB, PDF)

Мультиколлинеарность, основные признаки: коэффициент обусловленности, коэффициент вздутия дисперсии. Сравнение вероятностного и оптимизационного подходов к Ridge-регрессии. Lasso-регрессия.

Съезд III (25.02). Пропуски в данных - типы пропусков, методы работы. Робастная регрессия. Обобщенная линейная модель, статистические свойства оценки коэффициентов, построение доверительных интервалов. Частные случаи - логистическая и пуассоновская регрессии. Непараметрическая регрессия, локальное усреднение, оценка Надарая-Ватсона. Условия сходимости оценки Надарая-Ватсона, выбор ширины ядра, доверительная лента. Локальная линейная регрессионная модель. Регрессионное дерево, метод построения, свойства. Случайный лес и его свойства.

Презентация

Решение задачи 1 из ДЗ (IPYNB, PDF)

Ядерные методы в R (IPYNB, PDF)

Random Forest (IPYNB, PDF)

Съезд IV (11.03). Причины избыточности информации в данных, типы методов снижения размерности. Метод главных компонент (PCA) как выбор направлений с максимальной дисперсией, формулы перехода в сжатое пространство и обратно. Дисперсии образа, выбор размерности сжатого пространства на основе доли необъясненной дисперсии. Методы SNE и t-SNE: первоначальный вариант SNE, симметричный SNE, проблемма скученности, метод t-SNE как решение проблемы.

Модельные примеры применения PCA (IPYNB, PDF)

Применение PCA к изображениям лиц (IPYNB, PDF, train_faces.npy)

Применение PCA к сжатию изображений, в том числе для удаления шума (IPYNB, PDF)

Примеры примерения t-SNE, в т.ч. к данным о рукописных цифрах (IPYNB, PDF, train.txt, train_labels.txt)

Съезд V (18.03). Коэффициенты корреляции Пирсона, Спирмена и Кендалла, их свойства. Таблицы сопряженности 2x2, точный тест Фишера, меры взаимосвязи, определение количества наблюдений. Общий случай таблиц сопряженности, типы вероятностных моделей, критерий хи-квадрат. Влияние признаков на целевую переменную: корреляции, подход с помощью решающих деревьев – важность признаков на основе Mean Decrease Impurity, ошибка Out-of-bag в модели Random Forest.

Презентация

Корреляции в scipy (IPYNB, PDF)

Примеры на вещественные параметры (IPYNB, PDF)

Примеры на категориальные параметры (IPYNB, PDF)

Съезд VI.a (20.03). Виды задач дисперсионного анализа, примеры. Критерии проверки однородности для бернуллиевских выборок, доверительные интервалы для разности. Проверка на равенство средних нормальных выборок (t-test), проверка равенства дисперсий, проверка однородности нормальных выборок.

Презентация

Критерии в scipy (IPYNB, PDF)

О проверке однородности для нормальных выборок (IPYNB, PDF)

Съезд VI.b (25.03). Виды альтернатив в непараметрическом случае. Критерии Смирнова и Розенблатта. Критерий Уилкоксона-Манна-Уитни, его свойства, связанная с ним оценка параметра сдвига. Связные выборки, предположения модели, пример, когда предположения не выполняются. Критерий знаков, его свойства, связанная с ним оценка параметра сдвига. Критерий ранговых сумм Уилкоксона, его свойства, связанная с ним оценка параметра сдвига. Проверка симметрии.

Презентация

Критерии в scipy (IPYNB, PDF)

Дисперсионный анализ на примере телекома (IPYNB, PDF)

AB-тестирование (Илья Ирхин, Яндекс.Такси). Разбиение на тестовые группы, сроки теста, проверка нескольких гипотез. Пример, в котором события, соответствующие одному пользователю, зависимы. Бакетное семплирование как способ решения проблемы.

Съезд VII (01.04). Комбинирование критериев для построения более мощных процедур на примере одновременной проверки на нормальность и однородность двух выборок с условием на контроль FWER. Еще несколько слов про AB-тестирование. Перестановочные критерии - идея, примеры для гипотез о среднем, а также для гипотез о равенстве средних двух выборок. Множественная проверка гипотез с помощью перестановок: версия max-T, обобщенный вариант.

Презентация (перестановки)

Эксперименты с комбинациями критериев (IPYNB, PDF)

Критерии анализа зависимостей в R (IPYNB, PDF)

Критерии дисперсионного анализа в R (IPYNB, PDF)

Съезд VIII (08.04). Однофакторный дисперсионный анализ для случая независимых выборок. F-критерий и критерий Бартлетта, их применимость. Критерий Краскела-Уоллиса и Джонкхиера. Post-hoc анализ: LSD Фишера, HSD Тьюки, критерии Неменья и Данна, оценка контраста. Однофакторный дисперсионный анализ для случая связных выборок. F-критерий, критерии Фридмана и Пейджа. Post-hoc анализ. Двухфакторный дисперсионный анализ, случай дополнительной контрольной группы.

Презентация

Решение задаче о сроке AB-тестирования

Критерии в scipy (IPYNB, PDF)

Исследование факторов, влияющих на внебрачные отношения (IPYNB, PDF)

Критерии в R (IPYNB, PDF)

Анализ пользователей Хабра (IPYNB, PDF)

Пример на двухфакторный дисперсионный анализ

Съезд IX (15.04). Парадокс Симпсона, примеры и выводы. Контрафактивная модель, причинно-следственный эффект, статистическая связь, утверждение о том, что связь не есть причинность. Равенство величины причинно-следственного эффекта и статистической связи при случайном назначении воздействия.

Условная независимость и ее свойства. Ориентированные ацикличные графы, терминология. Марковское распределение на графе, примеры. Марковское свойство, примеры. Свойства d-разделимости и d-связности, теорема об условной независимости на множестве вершин.

Съезд X (22.04). Теорема об эквивалетности графов в смысле одинаковых отношений независимости. Построение причинно-следственных графов по данным: метод индуктивной причинности, частная корреляция, причинность по Грейнджеру, оценка распределений в графе методом максимального правдоподобия. Интервенция, средний условный эффект как способ оценки причинно-следственного эффекта по графу.

Съезд XI (29.04).

Ориентированные графы в R: пакет bnlearn (IPYNB, PDF)

Аномалии: выбросы и новизна. Детектирование аномалий: типы задач, подходы. Ящик с усами, критерий Граббса, эллиптическая оболочка (Elliptic Envelope), метод главных компонент, локальный уровень выброса (Local Outlier Factor), кластеризация с помощью DBSCAN, изолирующий лес (Isolation Forest), Robust Random Cut Forest, One Class SVM.

Презентация

Детектирование аномалий в sklearn (IPYNB, PDF)

Съезд XII (13.05).

Постановка задачи последовательного анализа, сравнение с обычной процедурой проверки гипотез. Последовательный критерий отношения правдоподобия, примеры.

Аномалии во временных рядах, онлайн и оффлайн методы. Фильтрация, медианный фильтр. Метрические методы. Seasonal EDS и Seasonal Hybrid EDS. Адаптация Robust Random Cut Forest для работы в онлайне.

Задача скорейшего обнаружения разладки, примеры применения. Статистики CUSUM, Ширяева-Робертса, апостериорной вероятности.

Презентация

Реализация Robust Random Cut Forest

Реализация Seasonal Hybrid EDS

Задания

Задание 1: IPYNB, PDF, speed.txt, marketing.rda. Дедлайн 17.02 23:59.

Задание 2: PDF. Дедлайн 24.02 23:59.

Задание 3: PDF. Дедлайн 03.03 23:59.

Задание 4: PDF, Leaf_Images.zip. Дедлайн 17.03 23:59.

Задание 5: PDF. Дедлайн 24.03 23:59 по задачам 1-4. По задаче 5 дедлайн будет объявлен позже.

Задание 6: PDF. Дедлайн 31.03 23:59 по задачам 1-7. По задаче 8 дедлайн будет объявлен позже.

Задание 7: PDF. Дедлайн 07.04 23:59.

Задание 8: PDF. Дедлайн 14.04 23:59.

Задание 9: PDF. Дедлайн 22.04 17:05.

Задание 10: PDF. Дедлайн 29.04 17:05.

Задание 11: PDF. Дедлайн 12.05 23:59.

Задание 12: PDF. Дедлайн 21.05 23:59.

Литература и полезные ссылки

  • Лагутин М.Б., Наглядная математическая статистика
  • L. Wasserman, All of Statistics
  • Russell B. Millar, Maximum Likelihood Estimation and Inference
  • Bishop, C.M. Pattern Recognition and Machine Learning
  • Савельев В., Статистика и котики