Job Description

Topic description

Les méthodes de gradient de politique font partie des approches les plus utilisées en apprentissage par renforcement. Elles optimisent directement une règle de décision paramétrée au moyen de mises à jour par gradient, ce qui les rend flexibles et capables de passer à l'échelle. Pourtant, malgré leur succès empirique, leur compréhension théorique reste incomplète. Il est encore difficile de caractériser précisément quand ces méthodes explorent efficacement, convergent de manière fiable et obtiennent de bonnes garanties de performance à long terme.



L'objectif de ce projet de thèse est de faire progresser la compréhension théorique des méthodes de gradient de politique dans les bandits et l'apprentissage par renforcement. Le projet se concentrera sur des modèles simplifiés mais mathématiquement précis, afin d'identifier les mécanismes qui expliquent la convergence, la stabilité, l'exploration et le regret. Une question centrale est ...