L. Chatriot

Learn More
RÉSUMÉ. Nous combinons pour de l'exploration Monte-Carlo d'arbres de l'apprentissage arti-ficiel à 4 échelles de temps : – regret en ligne, via l'utilisation d'algorithmes de bandit et d'estimateurs Monte-Carlo ; – de l'apprentissage transient, via l'utilisation d'estimateur rapide de Q-fonction (RAVE, pour Rapid Action Value Estimate) qui sont appris en(More)
  • 1