Введение в анализ данных


Лектор: Никита Волков
Время: суббота 16:30-18:00.
Ссылки: meet.google.com/zug-vawu-wyr и meet.google.com/fkb-zeha-rbu. Присоединяться можно по любой, но необходимо только с аккаунта phystech.edu.
Кафедра дискретной математики.
Организационная информация находится в презентации с первой лекции.
Для сдачи заданий необходимо зарегистрироваться в телеграм-боте @miptstats_ad21_bot

Лекции

Лекция 1 (13.02). О курсе, DS-группы. Что такое анализ данных. Обзор задач анализа данных на примере историй из Мурмурландии. Примеры реальных задач: рекомендательная система, продуктовая аналитика, синтез речи.
Презентация

Видео доступно под аккаунтом phystech.edu


Лекция 2 (20.02). Обзор инструментов анализа данных: Anaconda, Jupyter, Numpy, Matplotlib. Вероятностные распределения и их свойства с практической точки зрения, генерация случайных чисел. Библиотека scipy.stats.
Обзор инструментов анализа данных
Презентация
Библиотека scipy.stats
Видео доступно под аккаунтом phystech.edu


Лекция 3 (заочная) . Смотрите наши видео по библиотекам Python по анализу данных.

Лекция 4 (6.03). Вероятностные распределения. Свойство независимости на практике применительно к понятию выборки, пример выборки, не являющейся независимой. Примеры о способах усреднения данных, медиана, мода. Свойство отсутствия памяти.
Презентация
Что такое среднее и как с ним правильно работать
Видео доступно под аккаунтом phystech.edu


Лекция 5 (заочная) . Смотрите наши видео по библиотекам pandas и seaborn.

Лекция 6 (20.03). Разбор домашнего задания. Пример исследования реальных данных, время ожидания автобуса по реальным данным. Функции в библиотеки pandas.
Парадокс времени ожидания на реальных данных
Библиотека pandas — объединение таблиц, группировки, таблицы сопряженности и сводные таблицы.
Видео доступно под аккаунтом phystech.edu


Лекция 7 (27.03, Роман Логинов). Сбор данных из открытых источников. Визуализация закона больших чисел, необходимое количество данных.
Работа с API и парсинг данных из HTML
Закон больших чисел.
Видео доступно под аккаунтом phystech.edu


Лекция 8 (03.04). Задача оценки параметра, сильно состоятельные оценки. Способы оценить среднее и дисперсию. Метод моментов.
Построение интерактивных графиков с помощью plotly
Видео доступно под аккаунтом phystech.edu


Лекция 9 (17.04). Особенности работы с табличными данными. Модель линейной регрессии, метод наименьших квадратов, формула в общем случае. Градиентный спуск, его применение к методу наименьших квадратов, стохастический градиентный спуск.
Презентация по работе с данными
Презентация по модели линейной регрессии
Линейная регрессия с помощью sklearn
Видео доступно под аккаунтом phystech.edu


Лекция 10 (24.04). Гостевая лекция от Яндекса. Даниил Тарарухин, руководитель группы Аналитики монетизации геосервисов. "Путь аналитика в Яндексе: чем занимаются аналитики и зачем они нужны."


Лекция 11 (24.04). Постановка задачи классификации, байесовские классификаторы. Линейный и квадратичный дискриминантный анализы, наивный Байес. Оптимальность байесовского классификатора.
Линейная регрессия с помощью sklearn
Видео доступно под аккаунтом phystech.edu



Домашние задания

Задать вопрос по заданию

Задание 1.

Задание 2. Данные, доступ с аккаунта phystech.edu.

Задание 3.

Задание 4: Легкая и сложная части.

Анонимные отзывы