Лекторы: Никита Волков, Сергей Колченко, Дарья Романовская

Кафедра дискретной математики.

Запись на курс

Оставить анонимный отзыв


Выставление зачета в зачетки.

  • Поставление зачета состоится 24.05 в 17:05 в 115 КПМ или после 19:00 в аудитории 425 Арктика. Просьба не опаздывать.
  • Для проставления официального зачета нужно взять отрывной лист в учебном отделе.
  • Если вы сдаете курс только как спецкурс (не заменяя другой курс), то такую процедуру можно сделать до конца экзаменационной сессии.

Содержание

Аннотация

Из-за постоянно увеличивающегося объема данных в биологии необходимо все больше времени уделять анализу данных. Однако из-за того, что резкой скачок в объеме данных произошел относительно недавно, количество людей, которые умеют правильно применять статистические методы в биологии, относительно невелико. Чтобы уметь правильно интерпретировать свои данные и результаты анализа, необходимо не просто уметь применять разные статистические тесты и методы, но и понимать границы их применимости. В этом курсе мы разберем основные инструменты статистики а так же покажем, как правильно их применять на примере задач genome-wide association studies, bulk and single cell rna sequencing и network analysis

Курс будет проходить по пятницам с 18:30 до 21:00 в 113 ГК. Некоторые занятия по биоинформатике могут быть проведены в другое время.

Программа курса

Статистика

  1. Повторение теории вероятностей: случайная величина, ее распределение и основные характеристики, независимость случайных величин, предельные теоремы.
  2. Методы типа Монте-Карло.
  3. Основы статистики, точечное оценивание, свойства оценок: несмещенность, состоятельность, асимптотическая нормальность.
  4. Методы получения оценок - метод моментов, метод максимального правдоподобия, приближенный поиск оценок максимального правдоподобия, дельта-метод, бутстреп.
  5. Интервальное оценивание: доверительные интервалы, асимптотические доверительные интервалы.
  6. Основы проверки статистических гипотез. Типы ошибок, уровень значимости, мощность критерия. Критерий Вальда. p-value.
  7. Множественная проверка гипотез: контроль FWER и FDR, методы Бонферрони, Холма, Шидака, Шидака-Холма, Бенджамини-Хохберга, Бенджамини-Иекутиели.
  8. Критерии согласия. Обзор критериев согласия для непрерывных переменных для произвольных распределений и для проверки нормальности. Q-Q plot. Критерий хи-квадрат.
  9. Анализ зависимостей: коэффициенты корреляции Пирсона и Спирмена, таблицы сопряженности, критерий хи-квадрат.
  10. Дисперсионный анализ. Случаи нормальных и бернуллиевских выборок. Две независимые выборки — критерий Уилкоксона-Манна-Уитни. Две связные выборки — знаковый критерий рангов, критерий Уилкоксона. Несколько независимых выборок — F-критерий для нормальных выборок, критерии Краскела-Уоллиса и Джонкхиера, post hoc анализ: LSD Фишера, критерий Неменья. Несколько связных выборок — F-критерий для нормальных выборок, критерии Фридмана и Пейджа.
  11. Линейная регрессия: метод наименьших квадратов, коэффициент детерминации, мультиколлинеарность. Гипотезы о незначимости коэффициентов (критерий Стьюдента). Сравнение двух различных моделей, отбор признаков. Логистическая регрессия.
  12. Понижение размерности: PCA, ICA, t-SNE.
  13. Марковские цепи, скрытые марковские модели.

Биоинформатика

  1. RNA-Seq analysis. Анализ экспрессии генов - один из базовых и ключевых навыков любого биоинформатика. Данные такого типа встречаются почти в любой лаборатории, и поэтому крайне важно понимать что они из себя представляют, как их анализировать и как интерпретировать результаты. Вместо использования готовых пакетов для анализа “нажал-кнопку-и-готово”, мы постараемся разобрать принцип анализа и оценки результатов на примере свежего датасета от проекта Milieu Intérieur. В ходе семинара мы разберемся, как на практике применять статистические тесты, границы их применимости, как действовать в случае данных высокой размерности, затронем вопросы кластерного анализа и построим простые регрессионные модели для ответа на вопрос - от чего же зависит состояние нашей иммунной системы?

  2. Single cell RNA-seq analysis. Логическое продолжение семинара по анализу экспрессии, но в этот раз мы разберем как анализировать данные single cell rna seq - относительного нового метода, который все больше и больше становится рутинной задачей для биоинформатиков в хороших лабораториях.Если при традиционном секвенировании РНК мы видим средний уровень экспрессии гена, усредняя сигнал от каждой клетки, то в данном случае мы видим каждую индивидуальную клетку и можем анализировать структуру популяции. Мы обсудим различия с традиционным секвенированием РНК, отметим подводные камни, углубимся в методы понижения размерностей и кластеризации а также сделаем свой первый пайплайн на примере датасета клеток крови.

  3. Gene Ontology and Gene enrichment analysis. Gene Ontology (онтология генов) - один из крупнейших биологических проектов, объединяющих биоинформатиков всего мира. Это крупнейшая универсальная база функциональной аннотации генов во всех организмов. Очень часто в ходе анализа биоинформатических даных выделяется какая-то группа генов. При этом необходимо понять, объединены ли эти гены какой-то общей функцией и насколько они схожи по их аннотации в генной онтологии. Для этого используются различные статистические методы и было разработано множество программ. На семинаре мы разберем принципы организации GO, алгоритмы выполнения анализа подобных данных на реальных примерах из практики, а также ознакомимся с основным ПО для данной задачи.

  4. Где и какие данные есть в биоинформатике? Большую часть своей работы биоинформатики работают с “открытыми данными” крупнейших консорциумов. Задача данного семинара - дать краткий обзор какого рода данные нам доступны и познакомится с крупнейшими консорциумами в различных областях биологии.

Языки программирования

При выполнении заданий по курсу мы можете использовать языки Python и R. В обоих случаях рекомендуем использовать Jupyter Notebook (в случае R нужно поставить IRkernel), но можете использовать также RStudio.

Справочные материалы по Python:

  1. Основы Python: IPYNB-1, IPYNB-2
  2. Numpy + Scipy: IPYNB
  3. Matplotlib: IPYNB

Справочные материалы по R:

  1. Введение: IPYNB, PDF
  2. Работа с данными: IPYNB, PDF (статистические методы будут рассказаны в курсе далее)

Материалы занятий

Занятие 1. Повторение теории вероятностей - случайная величина, ее распределение, математическое ожидание, дисперсия. Независимость случайных величин. Выборка, задача оценки параметра. Состоятельность оценки, усиленный закон больших чисел. Асимптотическая нормальность оценки, центральная предельная теорема. Метод Монте-Карло.

Занятие 2. Методы поиска оценки параметра - метод моментов и метод максимального правдоподобия, их свойства, примеры. Задача о распределении Коши. Приближенный поиск оценок максимального правдоподобия методом Ньютона. Доверительные интервалы, методы построения, примеры.

Занятие 3. Дельта-метод, пример. Метод бутстрепа. Проверка статистических гипотез - гипотезы и критерии, связь с презумпцией невиновности, типы ошибок, мощность критерия, сравнение критериев по мощности. Лемма Неймана-Пирсона, критерий монотонного отношения правдоподобия, критерий Вальда. Пример применения критерия Вальда как предпосылка к p-value, определение p-value и примеры.

Презентация

Занятие 4. Поведение критического значения критерия в зависимости от размера выборки, проблема больших выборок как следствие. Размер эффекта и его практическая значимость. Подбор размера выборки на этапе планирования эксперимента. Критерии согласия - общий смысл, критерий Колмогорова, обзор других критериев, Q-Q plot, критерии проверки нормальности: Шапиро-Уилка и Жарка-Бера. Критерий хи-квадрат, его обобщенная версия. Множественная проверка гипотез - необходимость, варианты обобщения ошибки первого рода (FWER, FDR), методы Бонферрони, Холма, Бенджамини-Хохберга и Бенджамини-Иекутиели.

Презентация

Критерии согласия в scipy и пример МПГ (IPYNB, PDF)

Занятие 5 (22.03). Разбор домашнего задания. Коэффициенты корреляции Пирсона, Спирмена и Кендалла, их свойства. Таблицы сопряженности, критерий хи-квадрат. аблицы сопряженности 2x2, точный тест Фишера, меры взаимосвязи.

Презентация

Корреляции в scipy (IPYNB, PDF)

Mice Protein Expression (IPYNB, PDF)

Занятие 6 (29.03). Виды задач дисперсионного анализа, примеры. Критерии проверки однородности для бернуллиевских выборок, доверительные интервалы для разности. Проверка на равенство средних нормальных выборок (t-test), проверка равенства дисперсий, проверка однородности нормальных выборок. Виды альтернатив в непараметрическом случае. Критерии Смирнова и Розенблатта. Критерий Уилкоксона-Манна-Уитни, его свойства, связанная с ним оценка параметра сдвига. Связные выборки, предположения модели, пример, когда предположения не выполняются. Критерий знаков, его свойства, связанная с ним оценка параметра сдвига.

Презентация

Критерии в scipy (параметрический случай) (IPYNB, PDF)

Критерии в scipy (непараметрический случай) (IPYNB, PDF)

Mice Protein Expression (часть 2) (IPYNB, PDF)

Занятие 7. Постановка задачи линейной регрессии, особенности работы с категориальными переменными. Метод наименьших квадратов и его свойства. Оценка качества модели (R2, AIC, BIC, MSE, MAE, MAPE). Свойства гауссовской линейной модели – доверительные интервалы, критерии Стьюдента и Фишера. Визуальный анализ остатков модели, преобразование Бокса-Кокса, устойчивые оценки дисперсии.

Презентация

Пример на регрессию (IPYNB, PDF)

Линейная регрессия в statsmodels

Занятие 8 (12.04). Семинар по линейным моделям.

lm_models_task.ipynb

Данные

Решение (IPYNB, PDF)

Занятие 9 (22.04). Семинар Single cell RNA-seq analysis.

Задание: Seminar_SingleCellRnaSeq.zip

Решение (IPYNB, PDF)

Занятие 10 (26.04). Семинар RNA-Seq analysis.

Задание: BulkRNASeqSeminar_task.ipynb, dataset_merged.zip

Решение (IPYNB, PDF)

Занятие 11 (17.05). Марковские модели

Презентация

Библиотека hmmlearn (IPYNB, PDF)

Задание (IPYNB, PDF)

data.zip


Видео с занятий

Запись на курс

Задания

Задание 1: IPYNB, PDF, data.zip. Дедлайн 18.03 23:59.

Задание 2: IPYNB, PDF. Дедлайн 10.05 23:59.