Ce cours porte sur la méthodologie, les pratiques, les conventions et les pièges à éviter en science des données et machine learning (ML).
Le parti pris est de s'appuyer sur des exemples concrets, pour ensuite aborder des notions plus abstraites de méthodologie scientifique, afin de (a) rendre agréable le thème de la méthodologie, souvent considéré comme mineur ou ennuyeux, (b) justifier l'importance des notions abstraites, et (c) s'entraîner sur des compétences pratiques utiles et essentielles (p.ex. lors du stage de fin de master):
1) Conception d'une expérience : question scientifique, pertinence et justification, bibliographie, lecture critique d'articles
2) Création de jeux de données : sélection de données, annotation de données, accord inter-annotateur/ice, biais dans les jeux de données
3) Environnement expérimental (détails importants) : instabilité des modèles, reproductibilité vs. réplicabilité, hyper-paramétrage, RGPD, aspects éthiques
4) Analyse de résultats d'un modèle : métriques d'évaluation, comparaison de systèmes, significativité statistique, corrélation, tests d'hypothèses paramétriques et non paramétriques, p-value