Garranties statistiques des méthodes de 'policy gradient' pour les bandits et l'apprentisage par renforcement // Statistical guarantees for Policy Gradient Methods in Bandits and Reinforcement Learning
Université Grenoble Alpes
Job Description
Topic description
Les méthodes de gradient de politique font partie des approches les plus utilisées en apprentissage par renforcement. Elles optimisent directement une règle de décision paramétrée au moyen de mises à jour par gradient, ce qui les rend flexibles et capables de passer à l'échelle. Pourtant, malgré leur succès empirique, leur compréhension théorique reste incomplète. Il est encore difficile de caractériser précisément quand ces méthodes explorent efficacement, convergent de manière fiable et obtiennent de bonnes garanties de performance à long terme.L'objectif de ce projet de thèse est de faire progresser la compréhension théorique des méthodes de gradient de politique dans les bandits et l'apprentissage par renforcement. Le projet se concentrera sur des modèles simplifiés mais mathématiquement précis, afin d'identifier les mécanismes qui expliquent la convergence, la stabilité, l'exploration et le regret. Une question centrale est ...