Skip to content

Slides and tutorials for Techno-sfera DM course (semester 2)

Notifications You must be signed in to change notification settings

anokhin/sfera-dm

Repository files navigation

Техносфера. Data Mining

Слайды и материалы курса Data Mining для проекта Техносфера (семестр 3)

Программа курса

Занятие 1. Задачи Data Mining

Теоретическая часть. Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Машинное обучение. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.

Практическая часть. Обзор данных задачи на kaggle. Краткий обзор зыка Python. Библиотека Pandas. Использование внешних REST API.

ДЗ 1. Сбор данных для проекта (1).

Модуль 1. Задачи кластеризации

Занятие 2. Задача кластеризации и EM-алгоритм

Теоретическая часть. Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм и смесь гауссовских распределений. Алгоритм K-means и его модификации.

Практическая часть. Конструирование признаков. Различные виды признаков. Преобразование признаков. Zipf's law.

ДЗ 2. Выделение нескольких данных заранее признаков из данных проекта (1).

Занятие 3. Алгоритмы кластеризации

Теоретическая часть. Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Stepwise-optimal hierarchical clustering. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand index, silhouette. Алгоритм DBSCAN.

Практическая часть. Похоже, что это должно быть сравнение различных алгоритмов кластеризации.

ДЗ 3. Реализация одного из алгоритмов кластеризации, применение на данных семестрового проекта и визуализация результатов (2).

Занятие 4. Визуализация результатов кластеризации

Теоретическая часть. Снижение размерности данных для визуализации. Multidimensional scaling. Алгоритм T-SNE. Самоорганизующиеся карты Кохонена.

Практическая часть.

Занятие 5. Сдача ДЗ 3 и коллоквиум по задачам кластеризации

Модуль 2. Задачи классификации

Занятие 6. Задача классификации

Теоретическая часть. Постановка задач классификации и регрессии. Теория принятия решений. Виды моделей. Примеры функций потерь. Переобучение. Метрики качества классификации. MDL.

Практическая часть.

Занятие 7. Naive Bayes

Теоретическая часть. Условная вероятность и теорема Байеса. Нормальное распределение. Naive Bayes: multinomial, binomial, gaussian. Сглаживание. Генеративная модель NB и байесовский вывод. Графические модели.

Практическая часть.

ДЗ 4. Конструирование текстовых признаков из твитов пользователей (1).

Занятие 8. Решающие деревья

Теоретическая часть. Решающие деревья. Алгоритм CART.

Практическая часть.

Занятие 9. Линейные модели

Теоретическая часть. Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.

Практическая часть.

ДЗ 5. Реализация линейной модели (2).

Занятие 10. Метод опорных векторов

Теоретическая часть. Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.

Практическая часть.

Занятие 11. Data Mining в реальных системах

Теоретическая часть.

Практическая часть.

Занятие 12. Сдача ДЗ 5 и коллоквиум по задачам кластеризации

Занятие 13. Защита семестрового проекта

Литература

[bishop] Pattern Recognition and Machine Learning // Cristopher M. Bishop (http://research.microsoft.com/en-us/um/people/cmbishop/prml/)

[duda] Pattern Classification // Richard O. Duda, Peter E. Hart, David G. Stork (http://eu.wiley.com/WileyCDA/WileyTitle/productCd-0471056693.html)

[rajaraman] Mining of Massive Datasets // Anand Rajaraman, Jeffrey Ullman (http://infolab.stanford.edu/~ullman/mmds/book.pdf)

[hastie] The Elements of Statistical Learning: Data Mining, Inference, and Prediction // Trevor Hastie, Robert Tibshirani, Jerome Friedman (http://web.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf)

[murphy] Machine Learning: a Probabilistic Perspective // Kevin Patrick Murphy (http://www.cs.ubc.ca/~murphyk/MLbook/)

About

Slides and tutorials for Techno-sfera DM course (semester 2)

Resources

Stars

Watchers

Forks

Packages

No packages published