Phystech@DataScience


Лектор основной части: Ольга Калиниченко
Время: среда 19:00-21:00. По субботам консультации.
Ссылка на первые два занятия: meet.google.com/scr-gapo-dne. Присоединяться необходимо только с аккаунта phystech.edu.
Начало: 10 февраля
Телеграм-бот: @miptstats_pds_bot
Материалы и видеозапись первых двух занятий будут в открытом доступе.


Анонс


Приглашаем вас на спецкурс по математической статистике и основам анализа данных! В этом курсе мы познакомимся с основными понятиями статистики и машинного обучения и научимся применять полученные знания на практике. Вы узнаете, как законы теории вероятностей применяются в прикладной статистике и машинном обучении.

Курс рассчитан на два семестра: в весеннем семестре вы познакомитесь с математической статистикой, основами анализа данных и машинного обучения, а затем в осеннем сконцентрируетесь на машинном обучении.

В нашем курсе будет три профиля: физика, биология и педагогика. При наличии желающих может быть также организован теоретический профиль. Курс будет состоять из общих лекций и практических заданий, а также для каждого профиля в отдельности будет несколько специальных лекций и прикладных задач. Особое внимание будет уделено практике, в том числе применению статистики и анализа данных в реальных физических и биологических задачах.

Каждому слушателю курса необходимо выбрать один из профилей. Профили физики и педагогики организуются в первый раз, поэтому они будут проходить в тестовом формате. Для студентов 1 курса магистратуры кафедры инновационной педагогики спецкурс обязателен с профилем педагогика.

Статистика, анализ данных и машинное обучение в настоящее время активно применяются во многих разделах физики: от физики частиц до поиска новых объектов на снимках космоса. Например, в ЦЕРНе многие эксперименты не обходятся без анализа данных и построения моделей методами машинного обучения (подробнее). Другой пример: построение моделей для предсказания различных параметров нейтрино по “сырым” данным их траекторий, полученных детектором.


Анализ данных также является необходимым навыком для современных ученых-биологов. Резкий скачок в объеме данных произошел относительно недавно, количество людей, которые умеют правильно применять статистические методы и методы анализа данных в биологии, невелико. Примеры задач: оценка дифференциальной экспрессии генов, анализ данных single-cell RNA sequencing и многое другое.


Помимо знания физики/биологии для всех этих задач необходимо понимать основы статистики и машинного обучения. Кроме того, чтобы правильно интерпретировать свои данные и гипотезы, необходимо не просто уметь применять разные статистические тесты и методы машинного обучения, но и понимать границы и специфику их применимости. Обо всем этом мы поговорим на курсе. Спецкурс поможет получить базовое понимание в этой области, а также понять, интересно ли вам это направление для более глубокого изучения. А еще вы наконец-то узнаете глубинный смысл формул для оценок, погрешностей и метода наименьших квадратов, к которым вы так привыкли на лабах!

Особенности


Предполагается, что слушатели обладают базовыми понятиями теории вероятностей.

Формальное название курса – “Математическая статистика и основы анализа данных”, кафедра дискретной математики ФПМИ. Оценку по курсу можно зачесть с помощью отрывного или инд. плана с помощью замен курсов. Последнее – при согласии физтех-школы и базовой кафедры.

В силу ограниченных возможностей проверяющих в случае большого числа желающих на курс будет организован отбор после первых двух занятий. Отбор не затрагивает студентов кафедры инновационной педагогики.

Лекции


Вводная лекция 1 (10.02.2021). Введение, обзор задач анализа данных, реальные примеры. Непараметрические методы статистики: гистограммы, ядерные оценки плотности. Параметрические методы: статистики и оценки.
Презентация
Пример простейшего анализа данных
Видео доступно под аккаунтом phystech.edu


Вводная лекция 2 (17.02.2021). Линейная регрессия, метод наименьших квадратов. Методы на основе ближайших соседей. Простые метрики регрессии и классификации.
Презентация
Линейная регрессия
Метод k ближайших соседей.
Видео доступно под аккаунтом phystech.edu


Лекция 3 (24.02.2021). Теория точечного оценивания. Свойства оценок параметров, наследование свойств. Метод максимального правдоподобия.
Видео доступно под аккаунтом phystech.edu


Материалы следующих занятий находятся в закрытом доступе.

Домашние задания


Задать вопрос по заданию

Для сдачи задания необходимо заранее зарегистрироваться в телеграм-боте @miptstats_pds_bot

Задание 1. Дедлайн 17 февраля в 18:00.

Задание 2. Дедлайн 26 февраля в 22:00.