Лектор: Никита Волков

Семинаристы: Ольга Калиниченко, Роман Логинов, Дмитрий Лунин

Практические занятия: Анастасия Грачева, Елизавета Дахова, Артем Куприянов, София Ожерельева

Кафедра дискретной математики.


Система выставления оценки и правила сдачи заданий

Оставить анонимный отзыв

Распределение по семинаристам и таблица оценок


Содержание

Актуальное расписание

  • Лекция: понедельник 17:30-19:40+, Арктика, поточная аудитория 4 этажа
  • Практическое занятие: среда 18:30-21:00. На некоторых неделях, подробности ниже.
  • Семинар (Дима): четверг 11:30-13:45, 302 КПМ
  • Семинар (Оля): пятница 10:00-12:10, 516 Цифра
  • Семинар (Рома): суббота 13:55-16:10, 516 Цифра

Расписание по средам:

  • 27.11 - практическое занятие, 418 Арктика

Зачетная неделя:

  • 16.12, понедельник - контрольная, Арктика, поточная аудитория 4 этажа, 17:30-19:40+
  • Зачет (Дима): четверг 19.12 10:45-13:45, 302 КПМ
  • Зачет (Оля): пятница 20.12 09:00-12:10, 516 Цифра
  • Зачет (Рома): суббота 21.12 13:55-16:55, 516 Цифра

Экзамены:

  • 10 января, 425 Арктика. Для ПМФ и тех, у кого высокий рейтинг (по желанию)
  • 22 января, 418 Арктика

Лекции

Лекция 1 (02.09). О прикладном потоке. Обзор статистики на примере историй из Мурмурландии. Примеры: парадоксы в поиске, опрос по результатам выборов. 1. Введение в статистику. 1.1 Основная задача математической статистики. 1.2 Вероятностно-статистическая модель. 1.3 Виды подходов к статистике (параметрический и непараметрический, частотный и байесовский).

Презентация

Лекция 2 (09.09). 2. Точечные оценки параметров. 2.1 Статистики и оценки, примеры статистик. 2.2 Свойства оценок - несмещенность, состоятельность, сильная состоятельность, асимптотическая нормальность. Практический смысл свойств. Примеры. 2.3 Наследование свойств. Теорема о наследовании сходимостей, пример. Лемма Слуцкого, теорема о производной, пример.

Лекция 3 (16.09). Дельта-метод, пример. Доказательства теорем п. 2.3 (теорема о наследовании сходимостей, лемма Слуцкого). 2.4 Методы нахождения оценок - метод моментов, метод максимального правдоподобия, примеры. Свойства методов.

Условия регулярности

Лекция 4 (23.09). Задача про гамма-излучение. Метод выборочных квантилей, асимптотическая нормальность выборочной квантили. 2.5 Достаточные статистики, критерий факторизации Неймана-Фишера.

Распределения выборочных средних: ipynb, pdf

Лекция 5 (30.09). 2.6 Экспоненциальный класс распределений, естественная параметризация. Достаточные статистики для семейства из экспоненциального класса, существование достаточности статистики фиксированной размерности, их математическое ожидание и дисперсия. Существование и единственность ОМП для семейства из экспоненциального класса. Выполнимость условий регулярности. 2.7 Сравнение оценок. Функция потерь и функция риска, MSE и MAE, примеры. Подходы к сравнению оценок: равномерный, байесовский, минимаксный, асимптотический. Bias-variance разложение. Асимптотическая эффективность.

Лекция 6 (07.10). 2.8 Метод Ньютона и его применение для решения уравнения правдоподобия. Одношаговые оценки и их эквивалентность ОМП. Одношаговая оценка для модели Коши со сдвигом. 2.9 Робастность, асимптотическая толерантность. Робастные оценки: усеченное среднее и медиана средних Уолша, их асимптотическая толерантность и асимптотическая эффективность по отношению к выборочному среднему на всем классе гладких симметричных распредедений и в частных случаях. 3.1 Доверительные интервалы и доверительные области.

Лекция 7 (14.10). Метод центральной функции, пример. Асимптотические доверительные интервалы, метод построения, пример. 3.2 Точные доверительные интервалы для параметров в нормальной модели (4 вида). Распределения хи-квадрат и Стьюдента, их свойства. Теорема о разложении гауссовского вектора, следствие для выборочного среднего и выборочной дисперсии в нормальной модели.

Презентация

Лекция 8 (21.10). 3.3 Байесовский подход к статистике: напоминание теоремы Байеса в частном и общем случаях, математическая модель, виды байесовских оценок, наилучшие оценки в байесовском подходе, сравнение с частотным подходом. 3.4 Недостатки байесовского подхода, сопряженные распределения, пример. 4.1 Непараметрический подход. Эмпирическое распределение, его свойства. Эмпирическая функция распределения, теорема Гливенко-Кантелли, ее обощения, условие Вапника-Червоненкиса. Теорема Колмогорова-Смирнова. 4.2 Метод подстановки, примеры.

Лекция 9 (28.10). 4.3 Метод бутстрепа. Пример про дисперсию оценки коэффициента асимметрии. Описание метода бутстрепа, пример про оценку дисперсии статистики. Бутстрепные доверительные интервалы. 4.4 Ядерные оценки плотности, виды ядер, связь с эмпирической функцией распределения, сходимость оценки плотности. Оптимальная ширина ядра и оптимальное ядро, подбор оптимальной ширины ядра по выборке. 5.1 Проверка статистических гипотез: гипотезы и критерии, варианты ответов, связь с презумпцией невиновности.

Презентация

Гипотезы и критерии

Звериный бутстреп: ipynb, pdf

Лекция 10 (6.11). Ошибки I и II рода, уровень значимости критерия, мощность критерия, пример. 5.2 Критерий Вальда, его разновидности и особенности, функция мощности, пример. 5.3 Критерии, основанные на отношении правдоподобия. Асимптотический критерий (с предельным распределением хи-квадрат). Лемма Неймана-Пирсона для построения наиболее мощного критерия в случае простых гипотез. Равномерно наиболее мощные критерии, теорема о монотонном отношении правдоподобия, пример.

Гипотезы и критерии (продолжение)

Лекция 11 (11.11). 5.4 Пример проверки гипотез в задаче исследовании эффективности нового лекарства. p-value – определение в частном и общем случаях. Распределение p-value при справедливости основной гипотезы. Что не является p-value, пример. 5.5 Поведение критического уровня критерия для разных размеров выборки, следствия. Практическая значимость результата, примеры. Определение необходимого размера выборки на этапе планирования эксперимента. 5.6 Множественная проверка гипотез, постановка задачи, пример. Контроль FWER.

Презентация

Лекция 12 (18.11). Контроль FWER, методы Бонферрони и Холма. Нисходящие и восходящие процедуры. Контроль FDR, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.

Численный пример

6.1 Общие критерии согласия. Критерий Колмогорова, другие критерии, основанные на отличии от ЭФР. Графический способ проверки с помощью Q-Q plot. 6.2 Критерии проверки нормальности: Жарка-Бера, Шапиро-Уилка. 6.3 Критерий хи-квадрат, теорема Пирсона, пример. Обобщенный критерий хи-квадрат, пример.

Презентация

Критерии согласия в scipy.stats: ipynb, pdf

Лекция 13 (25.11). Линейная регрессия. 7.1 Постановка задачи линейной регрессии, примеры зависимостей, случай категориальных переменных. 7.2 Метод наименьших квадратов. Оценка вектора параметров и ее свойства. Геометрический смысл метода. Несмещенная оценка дисперсии ошибки в методе наименьших квадратов. 7.3 Гауссовская линейная модель. Следствие из теоремы об ортогональном разложении гауссовского вектора для метода наименьших квадратов. Доверительный интервал для дисперсии ошибки. Доверительный интервал для коэффициента, критерий для проверки гипотезы о незначимости признака. Доверительная область для вектора коэффициентов. F-критерий для проверки линейных гипотез.

Презентация

Лекция 14 (02.12). 8.1 Вклад, информация Фишера, их свойства. Энтропия, кросс-энтропия, дивергенция Кульбака-Лейблера. Пояснение на примере теории кодирования. Свойства энтропии и дивергенции, связь с ОМП. 8.2 Экстремальное свойство правдоподобия. Состоятельность ОМП. Асимптотическая нормальность и асимптотическая эффективность ОМП.

Пояснения к информации Фишера

Теория кодирования

Лекция 15 (09.12). 8.4 Оптимальные оценки, связь с эффективными оценками, напоминание достаточных статистик. Теорема Колмогорова-Блекуэлла-Рао, следствия. Полные статистики, теорема об оптимальной оценке, метод поиска оптимальных оценок. Полные и достаточные статистики в экспоненциальном семействе распределений. Достаточные статистики в гауссовской линейной модели. Оптимальные оценки параметров в гауссовской линейной модели. 8.5 Эквивариантные оценки параметров сдвига и масштаба, оценка Питмена.

Презентация

Доказательства теорем: теорема Гливенко-Кантелли, лемма Неймана-Пирсона и несмещенность критерия, теорема Пирсона для критерия хи-квадрат.

Семинары

Семинар 1. (12-14.09) Повторение теории вероятностей: вероятностное пространство, функция распределения и плотность, независимость, математическое ожидание и дисперсия, сходимости стучайных векторов, УЗБЧ, ЦПТ. Методы численного вычисления интегралов: метод прямоугольников и метод Монте-Карло.

Семинар 2. (19-21.09) Оценки и их свойства: несмещенность, состоятельность, сильная состоятельность, асимптотическая нормальность, практический смысл свойств оценок, задачи. Наследование свойств оценок, задачи.

Семинар 3. (26-28.09) Метод моментов. Метод максимального правдоподобия и его свойства.

Семинар 4. (03-05.10) Сравнение оценок. Подходы к сравнению: равномерный, байесовский, минимаксный. Bias-variance разложение. Оценки в схеме Бернулли: минимаксность оценки Ходжеса-Лемана и ее сравнение c выборочным средним.

Семинар 5. (10-12.10) Достаточные статистики. Робастные оценки.

Семинар 6. (17-19.10) Доверительные интервалы. Метод центральной функции, метод построения асимптотических доверительных интервалов.

Семинар 7. (24-26.10) Байесовский подход.

Семинар 8. (31.10-02.11) Непараметрический подход. Эмпирическое распределение и метод подстановки. Принцип бутстрепа, его применимость, необходимое количество бутстрепных выборок.

Семинар 9. (07.11-09.11) Гипотезы и критерии, типы ошибок. Критерий Вальда, пример. Критерии отношения правдоподобия, примеры.

Семинар 10. (14.11-16.11) Реальный уровень значимости критерия, необходимое количество семплирований. Примеры p-value. Множественная проверка гипотез: общее описание, методы Шидака и Шидака-Холма.

Семинар 11. (21.11-23.11) Критерий хи-квадрат. Проверка корректности генератора случайных чисел. Пример про бомбардировки Лондона.

Семинар 12. (28.11-30.11) Линейная регрессия, пример. Метрики MSE, MAE, R^2. Проблема переобучения. Гауссовская линейная модель, обсуждение таблицы коэффициентов в реализации statsmodels. F-критерий для проверки равенства средних двух нормальных выборок.

Семинар 13. (05.12-07.12) Информация Фишера, неравенство Рао-Крамера (док-во), эффективные оценки, критерий эффективности (док-во). Информационная матрица Фишера и свойства оценок максимального правдоподобия.

Семинар 14. (ПЛАН на 12.12-14.12) Оптимальные оценки.

Практические занятия

Занятие 1 (11.09). Библиотеки numpy, scipy.stats, matplotlib.

Правила оформления практических работ

Задание: ipynb, pdf

Решение: ipynb, pdf

numpy+scipy.stats: ipynb, pdf

matplotlib: ipynb, pdf

Занятие 2 (18.09). Библиотекa pandas.

pandas: ipynb, pdf, example.csv

Задание: ipynb, pdf, cat_exam_data.csv

Решение: ipynb, pdf

Занятие 3 (16.10). Оперции в pandas, библиотека seaborn.

Операции в pandas: ipynb, pdf.

seaborn: ipynb, pdf.

Задание: ipynb, pdf, data.zip

Решение: ipynb, pdf.

Занятие 4 (23.10). Разбор практических домашних заданий. Презентация в чате.

Виджеты в Jupyter-ноутбуках: ipynb, pdf.

Занятие 5 (27.11). Кто такие аналитики и чем они занимаются. Примеры продуктовой аналитики, метрики. Презентация в чате.

pipenv: ipynb, pdf.

Анаконда, mamba, fish, tmux, cookiecutter: ipynb, pdf.

Особенности и расширения Jupyter Notebook: ipynb, pdf.

Теоретические задания

Задание 1. Тип задания O1. Дедлайн 19.09 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 2. Тип задания O1. Дедлайн 26.09 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 3. Тип задания O1. Дедлайн 03.10 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 4. Тип задания O3. Дедлайн 10.10 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 5. Тип задания O3. Дедлайн 17.10 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 6. Тип задания O1. Дедлайн 24.10 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 7. Тип задания O1. Дедлайн 31.10 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 8. Тип задания O3. Дедлайн 07.11 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 9. Тип задания O1. Дедлайн 14.11 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 10. Тип задания O3. Дедлайн 21.11 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 11. Тип задания O3. Дедлайн 28.11 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 12. Тип задания O1. Дедлайн 05.12 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Задание 13. Тип задания O1. Дедлайн 12.12 в 11:00 утра. Для учета задач нужно заполнить опрос. Письменную задачу (см. номер в таблице) необходимо прислать на почту.

Практические задания

Задание 1: IPYNB, PDF, netflix_data.csv. Дедлайн 29.09 23:59. Тип задания O3. Задать вопрос по заданию.

Задание 2: IPYNB, PDF. Дедлайн 13.10 23:59. Тип задания O2. Задать вопрос по заданию.

Задание 3: IPYNB, PDF, data, script.py. Дедлайн 31.10 23:59. Задать вопрос по заданию.

Задание 4: IPYNB, PDF, macoma.csv. Дедлайн 16.11 23:59. Задать вопрос по заданию.

Задание 5: IPYNB, PDF, data.zip, mht.py. Дедлайн 01.12 23:59. Задать вопрос по заданию.

Задание 6: IPYNB, PDF, ice_cream.txt. Дедлайн 13.12 23:59. Задать вопрос по заданию.

Литература и полезные ссылки

  • Лагутин М.Б., Наглядная математическая статистика
  • L. Wasserman, All of Statistics
  • Russell B. Millar, Maximum Likelihood Estimation and Inference
  • Bishop, C.M. Pattern Recognition and Machine Learning
  • Савельев В., Статистика и котики
  • Кобзарь А.И., Прикладная математическая статистика
  • Боровков А.А., Математическая статистика