Contenu des cours
- Introduction générale aux sciences des données
- Importance du pré-processing des données (exemple de la normalisation, et de la complétion de valeurs manquantes)
- Visualisation des données (histogrammes et courbes, Analyse en composante principale)
- La classification supervisée (k plus proches voisins, arbres de décision)
- La régression (moindres carrés)
- La classification non supervisée (k means et approches hiérarchiques)
Mise en pratique via Python, pandas et sklearn.
- expérimentation des algorithmes vues en cours, sur jeux de données réels et artificiels
- mise en oeuvre des protocoles expérimentaux minimaux (prototypes) sous hold-out pour estimation des performances
- découverte des certains écueils (impact des données non-équilibrées, impact du mutli-classes dans les performances, impact des outliers)
- rôles/intérêt de l'ACP et de la normalisation