Ce cours complète les enseignements dispensés en première année du parcours Intelligence Artificielle et Apprentissage Automatique (IAAA) du Master d'Informatique de l'université Aix-Marseille (AMU) afin de fournir aux étudiants le bagage mathématique nécessaire pour suivre les enseignements de deuxième année de ce parcours.
Les enseignements sont regroupés en trois thèmes : (i) probabilités et statistique (ii) optimisation continue et (iii) algèbre linéaire.
(i) Probabilités et statistique. On se concentre sur les deux utilisations les plus communes de la théorie des probabilités en apprentissage automatique: (a) dans le cadre de la formulation des algorithmes d'apprentissage (par exemple pour des modèles génératifs) et (b) dans le cadre de l'analyse des propriétés théoriques des algorithmes d'apprentissage (qu'ils soient formulés en termes probabilistes ou non). Pour le premier point, on travaille les bases du calcul probabiliste avec plusieurs variables aléatoires dans le cas où la structure de dépendance conditionnelle peut être décrite sous la forme d'un graphe dirigé acyclique, avec des applications à l'estimation par maximum de vraisemblance. Pour le deuxième point, on travaille les calculs de moments, avec des applications au calcul explicite du biais et de la variance d'un estimateur dans des cas simples. On fait le lien avec le risque dans le cadre des fonctions de coûts quadratiques et on introduit très brièvement la notion de mesure de complexité (par exemple de Rademacher) et d'inégalité de concentration en expliquant leur utilité pour le contrôle respectivement du biais et de la variance dans les cas plus compliqués.
(ii) Optimisation continue. On poursuit l'étude de l'optimisation continue commencée en première année, en continuant à se focaliser sur les conditions d'optimalité du premier ordre---les plus communément utilisées en apprentissage automatique---et les calculs de gradient, mais en allant au delà du cadre des fonctions lisses optimisées en l'absence de contraintes et de manière déterministe. En effet, ce cadre est trop limité pour traiter correctement des cas très communément rencontrés en apprentissage automatique, telles que la présence de termes de régularisation non-lisses, de contraintes de positivité ou l'utilisation d'algorithmes d'optimisation stochastique. On commence par revenir sur l'optimisation sans contraintes des fonctions lisses en traitant le cas de l'optimisation par descente de gradient stochastique de fonctions non convexes. Le cas des fonctions lisses, non convexes en présence de contraintes est traité en second, donnant l'occasion d'introduire la notion de Lagrangien. Le cas convexe pour des fonctions lisses avec ou sans contraintes est traité ensuite, en introduisant notamment la notion de dualité Lagrangienne. Enfin, on discute brièvement le cas des fonctions non-lisses (convexes ou non, avec ou sans contraintes) en donnant un théorème utilisable dans la plupart des cas rencontrés en pratique en apprentissage automatique.
(iii) Algèbre linéaire. Cette partie met en oeuvre les notions vues dans les parties précédentes dans un cadre typique en apprentissage automatique avec n points de données représentés par des vecteurs de R^d (au lieu de deux ou trois variables scalaires dans les parties précédentes). On travaille sur l'utilisation des notations matricielles dans ce cadre. On insiste en particulier sur les différentes interprétations possibles des produits matrice-vecteur et matrice-matrice et leur utilisation en conjonction avec la décomposition en valeurs singulières ou le théorème spectral dans le cadre d'applications pratiques (par exemple aux distributions gaussiennes multivariées, à la définition de la notion de pseudo-inverse d'une matrice ou à la régression linéaire au moindres carrés, avec ou sans terme de régularisation).