Лектор: Никита Волков

Семинаристы: Никита Волков, Ольга Калиниченко, Елена Кириленко, Анастасия Ремизова

Ассистенты: Дарья Гусарова, Надежда Зуева, Артем Куприянов, Адель Томилова, Кирилл Шевкунов

Кафедра дискретной математики.


Система выставления оценки и правила сдачи заданий

Оставить анонимный отзыв

Распределение по семинаристам и таблица оценок

Программа зачета по О3

Билеты к экзамену

Содержание

Актуальное расписание

  • Лекция: понедельник 17:50-20:00, корпус Арктика, поточная аудитория 4 этажа
  • Семинар (Никита): среда 17:50-20:00, 424 Арктика
  • Семинар (Оля): четверг 10:00-12:10, бот. 12-ки
  • Семинар (Лена): четверг 13:05-15:20, 425 Арктика
  • Семинар (Настя): пятница 17:50-20:00, 425 Арктика

Лекции

Лекция 1 (05.09). О прикладном потоке. 1. Введение в статистику. 1.1 Основная задача математической статистики. 1.2 Вероятностно-статистическая модель. 1.3 Виды подходов к статистике (параметрический и непараметрический, частотный и байесовский).

Презентация

Лекция 2 (10.09). 2. Точечные оценки параметров. 2.1 Статистики и оценки, примеры статистик. 2.2 Свойства оценок - несмещенность, состоятельность, сильная состоятельность, асимптотическая нормальность. Практический смысл свойств. Примеры. 2.3 Наследование свойств. Теорема о наследовании сходимостей, пример. Лемма Слуцкого, теорема о производной, пример.

Лекция 3 (17.09). Дельта-метод, пример. Доказательства теорем п. 2.3. 2.4 Методы нахождения оценок - метод моментов, метод максимального правдоподобия, примеры.

Лекция 4 (24.09). Задача про гамма-излучение. Метод выборочных квантилей, асимптотическая нормальность выборочной квантили. 3.1 Сравнение оценок. Функция потерь и функция риска, примеры. Подходы к сравнению оценок: равномерный, байесовский, минимаксный, асимптотический. 3.2 Вклад, информация Фишера, их свойства.

Конспект пункта 3.1

Лекция 5 (01.10) Свойства информации Фишера. Дивергенция Кульбака-Лейблера и ее свойства. Экстремальное свойство правдоподобия. Состоятельность ОМП. Асимптотическая нормальность и асимптотическая эффективность ОМП. 3.3 Неравенство Рао-Крамера. Эффективные оценки. Критерий эффективности. Эффективность ОМП. Пункты 3.2 и 3.3 для случая многомерного параметра.

Условия регулярности

Лекция 6 (08.10) 3.4 Достаточные статистики, критерий факторизации Неймана-Фишера. 3.5 Экспоненциальный класс распределений, естественная параметризация, достаточные статистики, их математическое ожидание и дисперсия, существование и единственность ОМП для семейства из экспоненциального класса. 4.1 Метод Ньютона и его применение для решения уравнения правдоподобия. Одношаговые оценки и их эквивалентность ОМП. Одношаговая оценка для модели Коши со сдвигом. 4.2 Робастность, асимптотическая толерантность.

Презентация по достаточным статистикам

Лекция 7 (15.10). Робастные оценки: усеченное среднее и медиана средних Уолша, их асимптотическая толерантность и асимптотическая эффективность по отношению к выборочному среднему на всем классе гладких симметричных распредедений и в частных случаях. 5.1 Доверительные интервалы и доверительные области. Метод центральной функции, пример. Асимптотические доверительные интервалы, метод поиска, пример. 5.2 Байесовский подход к статистике: напоминание теоремы Байеса в частном и общем случаях.

Лекция 8 (22.10). Байесовский подход к статистике: математическая модель, виды байесовских оценок, наилучшие оценки в байесовском подходе, сравнение с частотным подходом, теорема о наилучшем среднеквадратичном приближении. 5.3 Сопряженные распределения, пример. 6.1 Непараметрический подход. Эмпирическое распределение, его свойства. Эмпирическая функция распределения, теорема Гливенко-Кантелли, ее обощения, условие Вапника-Червоненкиса. Теорема Колмогорова-Смирнова. Неравенство Дворецкого-Кифера-Вольфовица и доверительная лента для функции распределения.

Лекция 9 (29.10). Доказательство теоремы Гливенко-Кантелли. 6.2 Связь непараметрического подхода с параметрическим: ОМП и минимизация дивергенции Кульбака-Лейблера, метод подстановки, метод моментов как частный случай. 6.3 Метод бутстрепа. Пример про дисперсию оценки коэффициента асимметрии. Описание метода бутстрепа, пример про оценку дисперсии статистики. Бутстрепные доверительные интервалы. 6.4 Ядерные оценки плотности, виды ядер.

Лекция 10 (08.11). Ядерные оценки плотности: оптимальная ширина ядра и оптимальное ядро, подбор оптимальной ширины ядра по выборке. 7.1 Проверка статистических гипотез: гипотезы и критерии, варианты ответов, связь с презумпцией невиновности, ошибки I и II рода, уровень значимости критерия, мощность критерия, пример.

Конспект пункта 7.1

Лекция 11 (12.11). 7.2 Критерий Вальда, его разновидности и особенности, функция мощности, пример. 7.3 Критерии, основанные на отношении правдоподобия. Асимптотический критерий (с предельным распределением хи-квадрат), пример про горох Менделя. Лемма Неймана-Пирсона для построения наиболее мощного критерия в случае простых гипотез, его несмещенность. Равномерно наиболее мощные критерии, теорема о монотонном отношении правдоподобия, пример.

Лекция 12 (19.11). 7.4 Пример проверки гипотез в задаче исследовании эффективности нового лекарства. p-value – определение в частном и общем случаях. Распределение p-value при справедливости основной гипотезы. Что не является p-value, пример. 7.5 Поведение критического уровня критерия для разных размеров выборки, следствия. Практическая значимость результата, примеры. Определение необходимого размера выборки на этапе планирования эксперимента. 7.6 Множественная проверка гипотез, постановка задачи, пример. Контроль FWER, методы Бонферрони и Холма. Нисходящие и восходящие процедуры. Контроль FDR, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.

Презентация

Лекция 13 (26.11). 8.1 Общие критерии согласия. Критерий Колмогорова, другие критерии, основанные на отличии от ЭФР. Графический способ проверки с помощью Q-Q plot. 8.2 Критерии проверки нормальности: Жарка-Бера, Шапиро-Уилка. 8.3 Критерий хи-квадрат, теорема Пирсона. Обобщенный критерий хи-квадрат, пример. 9.1 Постановка задачи линейной регрессии, примеры зависимостей, случай категориальных переменных. 9.2 Метод наименьших квадратов. Оценка вектора параметров и ее свойства.

Презентация по критериям согласия

Критерии согласия в scipy.stats: IPYNB, PDF

Презентация по линейной регрессии

Лекция 14 (03.12). Несмещенная оценка дисперсии ошибки в методе наименьших квадратов. Геометрический смысл метода. 9.3 Гауссовская линейная модель. Теорема об ортогональном разложении гауссовского вектора. Следствие для метода наименьших квадратов. Доверительный интервал для дисперсии ошибки. Доверительный интервал для коэффициента, критерий для проверки гипотезы о незначимости признака. Доверительная область для вектора коэффициентов. F-критерий для проверки линейных гипотез. 9.4 Регуляризация. Байесовский вывод ridge-регрессии.

Конспект пункта 9.3

Лекция 15 (10.12). Оптимальные оценки, связь с эффективными оценками, напоминание достаточных статистик. Теорема Колмогорова-Блекуэлла-Рао, следствия. Полные статистики, теорема об оптимальной оценке, метод поиска оптимальных оценок. Полные и достаточные статистики в экспоненциальном семействе распределений. Достаточные статистики в гауссовской линейной модели. Оптимальные оценки параметров в гауссовской линейной модели.

Презентация

Бонус

17.12 - Контрольная.

Семинары

Семинар 1. Повторение теории вероятностей: вероятностное пространство, функция распределения и плотность, независимость, математическое ожидание и дисперсия, сходимости стучайных векторов, УЗБЧ, ЦПТ. Методы численного вычисления интегралов: метод прямоугольников и метод Монте-Карло.

Семинар 2. Оценки и их свойства: несмещенность, состоятельность, сильная состоятельность, асимптотическая нормальность, практический смысл свойств оценок, задачи. Наследование свойств оценок, задачи.

Семинар 3. Метод моментов. Метод максимального правдоподобия и его свойства. Вклад и информация Фишера. Асимптотическая дисперсия метода максимального правдоподобия.

Семинар 4. Сравнение оценок. Подходы к сравнению: равномерный, байесовский, минимаксный. Bias-variance разложение. Оценки в схеме Бернулли: минимаксность оценки Ходжеса-Лемана и ее сравнение c выборочным средним.

Семинар 5. Эффективные оценки. Асимптотическая нормальность ОМП в многомерном случае. Достаточные статистики.

Семинар 6. Эквивариантные оценки параметров сдвига и масштаба, оценка Питмена. Робастные оценки.

Семинар 7. Доверительные интервалы, метод центральной функции. Асимптотические доверительные интервалы. Распределения хи-квадрат и Стьюдента. Точные доверительные интервалы в нормальной модели.

Семинар 8. Байесовский подход: априорное и апостериорное распределения, виды байесовских оценок, сопряженные семейства распределений.

Семинар 9. Непараметрический подход. Эмпирическое распределение и метод подстановки. Принцип бутстрепа, его применимость, необходимое количество бутстрепных выборок. Расстояние между распределениями: расстояние полной вариации, расстояние Хеллингера.

Семинар 10. Гипотезы и критерии, типы ошибок. Критерий Вальда, пример. Критерии отношения правдоподобия, примеры.

Семинар 11. Реальный уровень значимости критерия, необходимое количество семплирований. Примеры p-value. Множественная проверка гипотез: общее описание, методы Шидака и Шидака-Холма.

Семинар 12. Критерий хи-квадрат. Проверка корректности генератора случайных чисел. Пример про бомбардировки Лондона. Линейная регрессия, пример. Метрики MSE, MAE, R^2. Проблема переобучения, кросс-валидация.

Семинар 13. Гауссовская линейная модель, обсуждение таблицы коэффициентов в реализации statsmodels. F-критерий для проверки равенства средних двух нормальных выборок. Регуляризация: Ridge и Lasso регрессии, сравнение с МНК.

Семинар 14. Оптимальные оценки.

Семинар 15. Зачет.

Теоретические задания

Задание 1. Тип задания O1. Дедлайн на неделе 17.09-21.09 в момент начала семинара.

Задание 2. Тип задания O1. Дедлайн на неделе 24.09-28.09 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 26.09 17:50.

Задание 3. Тип задания O1. Дедлайн на неделе 01.10-05.10 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 03.10 17:50.

Задание 4. Тип задания O3. Дедлайн на неделе 08.10-12.10 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 10.10 17:50.

Задание 5. Тип задания O1. Дедлайн на неделе 15.10-19.10 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 17.10 17:50.

Задание 6. Тип задания O3. Дедлайн на неделе 22.10-26.10 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 24.10 17:50.

Задание 7. Тип задания O1. Дедлайн на неделе 29.10-02.11 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 31.10 17:50.

Задание 8. Тип задания O1. Дедлайн на неделе 05.11-09.11 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 07.11 17:50.

Задание 9. Тип задания O3. Дедлайн на неделе 12.11-16.11 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 14.11 17:50.

Задание 10. Тип задания O1. Дедлайн на неделе 19.11-23.11 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 21.11 17:50.

Задание 11. Тип задания O3. Дедлайн на неделе 26.11-30.11 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 28.11 17:50.

Задание 12. Тип задания O1. Дедлайн на неделе 03.12-07.12 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 05.12 17:50.

Задание 13. Тип задания O3. Дедлайн на неделе 10.12-14.12 за 20 минут до начала семинара. Для учета задач нужно заполнить опрос. По задаче для письменной сдачи (см. таблицу) дедлайн 12.12 17:50.

Задание 14. Тип задания O1. Дедлайн 23.12 14:00. Задание нужно отправить на почту.

Практические задания

Задание 1: IPYNB, PDF. Тип задания O3. Дедлайн 26.09 23:59. Задать вопрос по заданию.

Обучающие ноутбуки по библиотекам Питона: pandas I, pandas II, seaborn

Задание 2: IPYNB, PDF. Тип задания O2. Дедлайн 13.10 23:59. Задать вопрос по заданию.

Задание 3: IPYNB, PDF, script.py. Дедлайн 21.10 23:59. Задать вопрос по заданию.

Задание 4: IPYNB, PDF, data.zip. Дедлайн 05.11 23:59. Задать вопрос по заданию.

Задание 5: IPYNB, PDF. Дедлайн 24.11 23:59. Задать вопрос по заданию.

Задание 6: IPYNB, PDF, data.zip. Дедлайн 02.12 23:59. Задать вопрос по заданию.

Задание 7: IPYNB, PDF, ice_cream.txt. Дедлайн 15.12 23:59. Задать вопрос по заданию.

Продвинутые практические задания

Задание 1 - “Денойзинг изображений”: IPYNB, PDF. Дедлайн 08.11 23:59.

Задание 2 - Яндекс.Такси: PDF, данные. Дедлайн 09.12 23:59.

Литература и полезные ссылки

  • Лагутин М.Б., Наглядная математическая статистика
  • L. Wasserman, All of Statistics
  • Russell B. Millar, Maximum Likelihood Estimation and Inference
  • Bishop, C.M. Pattern Recognition and Machine Learning
  • Савельев В., Статистика и котики
  • Боровков А.А., Математическая статистика