Skip to content

Files

Latest commit

Mar 20, 2025
25cefdd · Mar 20, 2025

History

History
54 lines (39 loc) · 2.53 KB

README.md

File metadata and controls

54 lines (39 loc) · 2.53 KB

Ateliers Data Tuxae 2024-2025

Rémy SIAHAAN--GENSOLLEN

Ce dépôt contient quelques ressources relatives aux ateliers que j'ai organisés pour l'association Tuxae durant l'année scolaire 2024-2025 à l'ENSAE Paris. Il est loin d'être complet, mais comprend notamment les jeux de données utilisés, des slides ainsi que quelques extraits de code. Ces ressources s'adressent principalement aux premières années et à des personnes n'ayant jamais fait de science des données, bien que mon ambition soit de progressivement élever le niveau.

Les outils utilisés sont principalement des jeux de données publics (Kaggle, UC Irvine Machine Learning Repository, etc.), souvent accompagnés de slides en support, avec une démonstration de code en direct dans un environnement Jupyter hébergé sur le SSPCloud (Onyxia).

Ci-dessous un sommaire résumant très succinctement les ateliers :

0 - Présentation de la Data Science et du Machine Learning

Petit atelier de présentation. Les slides ne sont pas complètes.

1 - Introduction à la classification

Présentation d'une tâche de classification concrète. Présentation du kNN classique (distance euclidienne, implémentation naïve), et code "à la main" (avec numpy).

2 - Classification. Prédire un cancer du sein ?

Approfondissements sur la classification. Brève présentation historique du problème de la détection du cancer du sein, apport de la data. Introduction aux concepts de validation croisée (train-test-split, K-Fold, stratification...). Introduction au concept d'hyper-paramètre et hyper-parameter tunning (pas encore de grid search quelconque, juste une boucle). Autres métriques classiques pour la classification binaire (précision, rappel, f1). Standardisation, normalisation. Mention des questions d'interprétabilité et de réduction de dimension.

  • Wolberg, W., Mangasarian, O., Street, N., & Street, W. (1993). Breast Cancer Wisconsin (Diagnostic) [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5DW2B.

3 - Régression. Prédire le prix des maisons ?