L. Chatriot

Learn More
We combine for Monte-Carlo exploration machine learning at four different time scales: – online regret, through the use of bandit algorithms and Monte-Carlo estimates; – transient learning, through the use of rapid action value estimates (RAVE) which are learnt online and used for accelerating the exploration and are thereafter neglected; – offline(More)
RÉSUMÉ. Nous combinons pour de l'exploration Monte-Carlo d'arbres de l'apprentissage arti-ficiel à 4 échelles de temps : – regret en ligne, via l'utilisation d'algorithmes de bandit et d'estimateurs Monte-Carlo ; – de l'apprentissage transient, via l'utilisation d'estimateur rapide de Q-fonction (RAVE, pour Rapid Action Value Estimate) qui sont appris en(More)
  • 1