Skip to content

Latest commit

 

History

History
47 lines (24 loc) · 4.08 KB

README.md

File metadata and controls

47 lines (24 loc) · 4.08 KB

Развитие методов классификации и оценки значимости признаков на основе случайных лесов в контексте задачи картографирования земного покрова России

Overview

Институт: Институт космических исследований Российской академии наук

Отдел: Технологии спутникового мониторинга

Научный руководитель: к.т.н. Хвостиков Сергей Антонович

Данные: https://1drv.ms/u/s!AvoMv5a1kmNwpxVI1T0yDoBTmLvJ?e=vWkab0

Articles

Краткая статья по картографированию растительности России и методам лаборатории

Детальный обзор методов лаборатории, вопросы картографирования начинают обсуждаться со страницы 93 (стр. 95-96 можно пропустить)

Обзорная статья по применению случайных лесов к ДЗЗ

Tech Details

Large Datasets

При попытке загрузить набор данных lc_sample.csv с помощью Pandas получаем ошибку MemoryError: Unable to allocate 7.72 GiB for an array with shape (14, 74029669) and data type int64.

Pandas: Scaling to large datasets

Kaggle: Tutorial on reading large datasets

GitHub: Vaex: a Python library for lazy Out-of-Core DataFrames (similar to Pandas), to visualize and explore big tabular datasets

Towards Data Science: ML impossible: Train 1 billion samples in 5 minutes on your laptop using Vaex and Scikit-Learn

Towards Data Science: How to analyse 100 GB of data on your laptop with Python

Model Persistence

sklearn: Model persistence

sklearn-onnx: Convert your scikit-learn model into ONNX

sklearn: OOB Errors for Random Forests

Confusion Matrix

Wikipedia: Confusion matrix