Ma situation

Je travaille en tant que post-doctorant au sein du projet IMPACT , pour "Intelligent Machine Perception Project", au České vysoké učení technické v Praze, ou Université technique de Prague, en Français.
Mon travail porte sur la construction et la justification d'algorithmes d'optimisation stochastiques appliqués à des systèmes d'apprentissage profond.

Dans le cadre de mon contrat, je suis amené à effectuer des séjours à INRIA Paris.

Contact : pierre-yves.masse [at] lri.fr


Publications

2015. "Speed learning on the fly"pré-publication.

Avec Yann Ollivier. Version sur arxiv.
Nous décrivons un algorithme de mise au point adaptive, et en temps réel, du pas de descente d'une descente de gradient, construit par Yann Ollivier. Nous testons l'algorithme sur des modèles synthétiques.

Avec William Meiniel. Version sur le site du JNPS, et version sur arxiv.
Nous établissons l'existence d'ensembles de confiance adaptatifs dans un modèle de régression non paramétrique à abscisses fixées. Nous établissons également l'existence d'estimateurs adaptatifs pour la régression.

Manuscrit.
Le manuscrit contient les preuves de convergence des algorithmes "Real Time Recurrent Learning" et "No Back Track", ainsi que l'article "Speed learning on the fly".

Haut de page


Notes

Le texte est présenté au format article, mais il s'agit en fait de notes.

Nous étudions le problème de la décision sur un réseau, en utilisant un processus de Markov avec redémarrage. Celui-ci est déclenché par l'échec d'une variable aléatoire de Bernoulli, de paramètre le nombre appelé "facteur d'actualisation" dans la communauté de l'apprentissage par renforcement.

Nous étudions précisément le modèle de diffusion d'un point de vue déterministe, et établissons en particulier la formule d'intégration par parties pour la "fonction de valeur", et du point de vue probabiliste, où nous dérivons notamment des représentations de Feynman-Kac.

Plus sur la formule d'intégration par parties dans le cas du réseau
Plaçons-nous dans le cas où tous les coefficients de transmittance sont constants, égaux à un $0 \leq \gamma \lt 1$. Notons, pour une politique $\pi$ sur le réseau, et pout tout état $e$, $V_\pi(e)$ la fonction de valeur en l'état $e$. Notons $\mu_\pi$ la distribution stationnaire. Il est connu que $$\sum_{e\in\mathcal{E}} \, V_\pi(e)\,(1-\gamma)\,\bar{\mu}(e) = \sum_{e\in\mathcal{E}} \, \mu_\pi(e) \, \sum_{a\in\mathcal{A}_e}\,\pi_e(a)\,C_e(a).$$ Cette formule est analogue à la formule suivante, que nous décrivons avec la terminologie de l'électrostatique. Soit, dans un domaine $\Omega$ (analogue de $\mathcal{E}$), un champ $E$ (correspondant à $(\sum_{a\in\mathcal{A}_e}\,\pi_e(a)\,C_e(a))_{e\in\mathcal{E}}$), dérivant d'un potentiel $V$ par $E=-\nabla\,V$ ($V$ correspond à $V_\pi$, et $\nabla V$ est un gradient de $V$). Soit un flux $j$ (correspondant à $\mu_\pi$), de divergence nulle. Soit enfin $dS$ le vecteur normal unitaire sortant à la surface $\partial \, \Omega$. Alors, la formule d'intégration par parties, ou le théorème de Stoke, donne : $$ \int_{\partial\,\Omega} \, V j \cdot dS = \int_{\Omega}\,j\cdot E.$$ Nous expliquons l'analogie en détails dans la première section des notes.

Plus sur la formule de Feynman-Kac dans le cas du réseau

Avec les notations du paragraphe sur la formule d'intégration par parties ci-dessus, notons $(X^1_t)$ le processus de Markov qui se déplace sur le réseau en choisissant, à chaque instant $t$, dans chaque état $e$, une action $A^t(e)$ selon la distribution de probabilité $\pi_e$, puis en transitionnant vers un état selon la distribution de probabilité $p_{e,\,a}$. Il est connu que, pour tout état $e$, nous avons $$V_\pi(e)=\mathrm{E}\left[\left. \sum_{t \geq 0} \gamma^t \, C_{X^1_t}(A(X^1_t)) \right\vert X^1_t=e \right].$$ Cette formule se réécrit : $$V_\pi(e)=\mathrm{E}\left[\left. \sum_{t \geq 0} \mathbf{1}\left\lbrace T \geq t\right\rbrace \, C_{X^1_t}(A(X^1_t)) \right\vert X^1_t=e \right],$$ où $T$ est un temps géométrique de paramètre $\gamma$. Cette formule est la formule de Feynman-Kac. Dans le cas général, où les coefficients de transmittance dépendent de l'action choisie, elle est toujours valable, mais en remplaçant $T$ par le temps d'arrêt : $$ T=\inf\left\lbrace t \geq 0\left\vert B^t(X^1_t,\,A^t(X^1_t))\right.\right\rbrace,$$ où les $B^t(e,a)$ sont des variables de Bernoulli i.i.d., de paramètres $\gamma_{e,\,a}$.

Nous présentons deux algorithmes en temps réel pour optimiser la politique, un dans la représentation déterministe, et l'autre dans la représentation probabiliste.


Mon cursus

2018- Post-Doctorat. Projet IMPACT, České vysoké učení technické v Praze, Prague.
2014-2017. Doctorat en Mathématiques et Informatique, sous la direction de Yann Ollivier. Laboratoire de Recherche en Informatique, Université Paris-Sud, Orsay.
2012-2013. Master Probabilités et Modèles Aléatoires, Université Pierre et Marie Curie, Paris.
2010-2014. Études. Département de Mathématiques, École Nationale Supérieure de Cachan (ENS Cachan), Cachan.

Haut de page