Open source project for text mining process exploration.
- Операционная система: Windows, Linux, MacOS.
- Язык программирования: Python 3
- Входные файлы: каталог или отдельные текстовые файлы с расширением .txt в кодировке UTF-8 содержащие текст на русском языке.
- Выходные файлы: формат TXT и CSV (помещаются в специальный каталог для выходных файлов)
- Библиотеки: фреймворк Anakonda 3, pymorphy2
- Алгоритмы ТextМining должны быть реализованы кодом.
- Программная реализация алгоритмов тестируется
Наиболее простой вариант:
- Если в системе имеется Python3, то удалить его. (Если вы не собираетесь его использовать далее)
- Установить пакет Anakonda 3. (https://www.continuum.io/downloads)
- Установить библиотеку pymorphy2 с помощью команды: python -m pip install pymorphy2
В случае использования чистого языка Python 3 необходимо установить библиотеки:
- matplotlib
- pymorphy2
- numpy
- pyqt5
- lapack
- scipy
- sclearn
- pandas
Andrew Tulyakov (mhyhre@gmail.com)
Разработано с участием:
Дмитрий Кузнецов (megalord2@mail.ru) Николай Сябро (6xitix6@gmail.com)