Phystech@DataScience 2022


Экзамен


Экзамен проводится для тех, кто был замечен в списывании, и не признался в этом в установленные сроки. Информация отправлена персонально каждому. Программа экзамена выложена на wiki-странице курса. 18 июня экзамен начнется в 12:00 по ссылке, которая отправлена в чат курса. Для сдачи необходимо отметиться по ссылке в чате. Экзамен можно сдать в любую дату до 26 июня включительно, сообщив о своем желании не позднее чем за сутки.

О курсе


Мы будем выполнять задания на языке Python, можно пока улучшить его знание с помощью наших шпаргалок Python для анализа данных

Для регистрации на курс необходимо зарегистрироваться в телеграм-боте @miptstats_pds_bot и заполнить форму, предложенную ботом. Отборочные задания внизу страницы.
Cсылка на зум первых занятий (доступ к документу с физтех-почты)
Лектор основной части: Ольга Калиниченко
Контакты лектора: kalinichenko.oi@phystech.edu
Начало: 11 февраля
Лекция: пятница 17:05-19:15. Очно, можно смотреть дистанционно. Аудитория: Б.Физ. Ссылка выше. Слушателям спецкурса крайне желательно подключаться онлайн.
По уважительной причине возможен просмотр записей.
Семинар:
Группа 1 17:05 432 ГК Латыпова Екатерина
Группа 2 17:05 532 ГК Дженжер Святослав, Мадан Арина
Группа 3 17:05 424 ГК Загребин Иван
Группа 4 18:30 432 ГК Мадан Арина
Онлайн 18:30 Ссылка в боте. Дженжер Святослав, Латыпова Екатерина
Пожалуйста, не приходите очно на занятия с симптомами ОРВИ/простуды/коронавируса и соблюдайте масочный режим!
Телеграм-бот: @miptstats_pds_bot

Количество мест ограничено, будет организован отбор. Материалы и видеозапись первых двух занятий будут в открытом доступе.


Анонс


Приглашаем вас на спецкурс по математической статистике и основам анализа данных! В этом курсе мы познакомимся с основными понятиями статистики и машинного обучения и научимся применять полученные знания на практике. Вы узнаете, как законы теории вероятностей применяются в прикладной статистике и машинном обучении.

Курс рассчитан на два семестра: в весеннем семестре вы познакомитесь с математической статистикой, основами анализа данных и машинного обучения, а затем в осеннем сконцентрируетесь на машинном обучении.

В нашем курсе будет три профиля: физика, биология и педагогика. При наличии желающих может быть также организован теоретический профиль. Курс будет состоять из общих лекций и практических заданий, а также для каждого профиля в отдельности будет несколько специальных лекций и прикладных задач. Особое внимание будет уделено практике, в том числе применению статистики и анализа данных в реальных физических и биологических задачах.

Каждому слушателю курса необходимо выбрать один из профилей. Для студентов 1 курса магистратуры кафедры инновационной педагогики спецкурс обязателен с профилем педагогика. Для студентов 2 курса ЛФИ, у которых курс обязателен, - профиль физика.

Статистика, анализ данных и машинное обучение в настоящее время активно применяются во многих разделах физики: от физики частиц до поиска новых объектов на снимках космоса. Например, в ЦЕРНе многие эксперименты не обходятся без анализа данных и построения моделей методами машинного обучения (подробнее). Другой пример: построение моделей для предсказания различных параметров нейтрино по “сырым” данным их траекторий, полученных детектором.


Анализ данных также является необходимым навыком для современных ученых-биологов. Резкий скачок в объеме данных произошел относительно недавно, количество людей, которые умеют правильно применять статистические методы и методы анализа данных в биологии, невелико. Примеры задач: оценка дифференциальной экспрессии генов, анализ данных single-cell RNA sequencing, функциональная аннотация генома, медицинские исследования и многое другое!


Помимо знания физики/биологии для всех этих задач необходимо понимать основы статистики и машинного обучения. Кроме того, чтобы правильно интерпретировать свои данные и гипотезы, необходимо не просто уметь применять разные статистические тесты и методы машинного обучения, но и понимать границы и специфику их применимости. Обо всем этом мы поговорим на курсе. Спецкурс поможет получить базовое понимание в этой области, а также понять, интересно ли вам это направление для более глубокого изучения. А еще вы наконец-то узнаете глубинный смысл формул для оценок, погрешностей и метода наименьших квадратов, к которым вы так привыкли на лабах!

Курс успешно прошел в 2021 году, и по отзывам участников оказался крайне интересным, полезным и актуальным. Студенты уже активно применяют полученные знания в научных исследованиях.

Особенности


Предполагается, что слушатели обладают базовыми понятиями теории вероятностей!

Формальное название курса – “Прикладная статистика”, кафедра дискретной математики ФПМИ. Оценку по курсу можно зачесть с помощью отрывного или инд. плана с помощью замен курсов. Последнее – при согласии физтех-школы и базовой кафедры.

В силу ограниченных возможностей проверяющих на курс будет организован отбор по результатам первых двух домашних заданий. Отбор не затрагивает студентов кафедры инновационной педагогики и 2 курса ЛФИ, для которых курс обязателен. Дополнительная информация по структуре курса для этих студентов - на лекции!

Если вы хотите взять курс в инд. план, но отбор еще не прошел, а ваша физтех-школа не позволяет ждать, свяжитесь с лектором, вам будет выслана дополнительная важная информация. В инд плане указывайте номер РУП: 31 001

Лекции 2022


Вводная лекция (11.02.2022). Введение, обзор задач анализа данных, реальные примеры. Непараметрические методы статистики: гистограммы, ядерные оценки плотности. Параметрические методы: статистики и оценки.
Видео доступно под аккаунтом phystech.edu


Презентация
Обзор задач статистики
Пример простейшего анализа данных
Лекция 2 (18.02.2022). Линейная регрессия, свойства оценок.
Видео доступно под аккаунтом phystech.edu


Презентация

Домашние задания


Задать вопрос по заданию

Для сдачи заданий необходимо заранее зарегистрироваться в телеграм-боте @miptstats_pds_bot

После регистрации для сдачи задания через бот надо нажать кнопку /start и следовать указаниям.
Результаты Яндекс.Контеста учитываются только по логину (адрес яндекс-почты), указанному при регистрации!

Для отбора надо сдать обе части задания 1 + Задание 2(выдается в пт). Часть заданий - это контест, часть - в боте. В боте нажимаете на соответствующую кнопку (сдаете вы по отбору или обязательный курс, у кнопок разный дедлайн)

ССЫЛКА В БОТЕ!!! Задание 1 а. Яндекс-Контест. (Базовый, основной потоки и отбор) Дедлайн 23 февраля в 22:00.

Задание 1 б. (Основной поток и отбор). Дедлайн отбора 20 февраля в 22:00. Дедлайн по обязательному курсу 23 февраля в 22:00

Задание 2. (Основной поток и отбор). Дедлайн отбора 26 февраля в 22:00. Дедлайн по обязательному курсу 28 февраля в 22:00

Анонимные отзывы

Лекции 2021


Вводная лекция 1 (10.02.2021). Введение, обзор задач анализа данных, реальные примеры. Непараметрические методы статистики: гистограммы, ядерные оценки плотности. Параметрические методы: статистики и оценки.
Презентация
Пример простейшего анализа данных
Видео доступно под аккаунтом phystech.edu


Вводная лекция 2 (17.02.2021). Линейная регрессия, метод наименьших квадратов. Методы на основе ближайших соседей. Простые метрики регрессии и классификации.
Презентация
Линейная регрессия
Метод k ближайших соседей.
Видео доступно под аккаунтом phystech.edu


Лекция 3 (24.02.2021). Теория точечного оценивания. Свойства оценок параметров, наследование свойств. Метод максимального правдоподобия.
Видео доступно под аккаунтом phystech.edu


Материалы следующих занятий находятся в закрытом доступе.