L’apprentissage par renforcement vise à l'optimisation de la prise de décision en milieu complexe et/ou incertain.
Il s’agit d’apprendre par l'expérience une stratégie comportementale (appelée politique) en fonction des échecs ou succès constatés via un système d'observations et de récompenses.
Ce paradigme d’apprentissage est très utilisé dans des domaines tels que la robotique, les joueurs articifiels, les systèmes de recommandation/publicité personnalisée.
Certains principes généraux, comme le dilemme exploitation / exploration, sont introduits par l’étude des bandits (les machines à sous) puis le cours aborde les notions de Processus de Décision Markoviens (MDP), d’apprentissage de politique (policy iteration, value iteration, policy gradient...), et d'apprentissage par renforcement profond.
Programme:
- bandits (6h): modélisation du problème, compromis exploration/exploitation, politiques aléatoire, greedy, epsilon-greedy, UCB, Thomson-Sampling
- bandits contextuels (2h): notion de contexte, fonction d'approximation et lien avec l'apprentissage supervisé, LinUCB
- Monte Carlo Tree Search (4h)
- Processus de décision de Markov (4h)
- TD learning (5h): TD(0), SARSA, Q-Learning; n-step et TD(lambda)
- Approches avec généralisation/fonction d'approximation, Deep Q-learning (6h)