Classification non supervisée : Distances et dissimilarités usuelles : euclidienne, Mahalanobis, L1, khi-deux. Classification par partition : algorithme des centres mobiles. Classification ascendante hiérarchique, stratégies d’agrégation : lien moyen et Ward. Statistiques permettant le choix d’une partition, interprétation des partitions (valeurs tests)
(Optionnel : introdution à DBSCAN et/ou au modèle de mélange gaussien)
Classification supervisée : Régression logistique binaire : notion de cote et rapport de cote. Estimateurs du maximum de vraisemblance : tests d’hypothèses et intervalles de confiance. Critères d’évaluation de l’ajustement. Approche décisionnelle : règle d’affectation, sensibilité, spécificité et courbe ROC. Estimation du taux d’erreur de prédiction par validation croisée.