L’apprentissage par renforcement vise à l’acquisition automatisée de compétences pour la prise de décisions (actions ou contrôle) en milieu complexe et incertain. Il s’agit d’apprendre par l'expérience une stratégie comportementale (appelée politique) en fonction des échecs ou succès constatés. Ce paradigme d’apprentissage est très utilisé en robotique et pour des problématiques complexes d’intelligence artificielle (Voir le logiciel AlphaGo). Certains principes généraux, comme le dilemme exploitation / exploration, sont introduits par l’étude des bandits (les machines à sous) puis le cours aborde les notions de Processus de Décision Markoviens (MDP, POMDP), d’apprentissage de politique (policy iteration, value iteration, policy gradient...), et de deep reinforcement learning.