AlphaZero, joueur autodidacte – CIT- CRÉATION ET INNOVATION TECHNOLOGIQUE

Il s’appelle AlphaZero et c’est un joueur invétéré. C’est le dernier né de DeepMind, la filiale de Google.

AlphaZero excelle aux échecs et au jeu de go et il bat tous les logiciels spécialisés dans ces jeux, exploit qu’aucun être humain n’a jamais réussi à accomplir. Ses concepteurs, une équipe de recherche de la société DeepMind, filiale de Google, ont fait sa présentation officielle dans la revue Science en date du 7 décembre 2018.

AlphaZero est le frère cadet d’un algorithme du même nom qui, fin 2017, a battu à plate couture le logiciel numéro 1 du jeu d’échecs, Stockfish. Un résultat d’autant plus spectaculaire qu’AlphaZero n’avait disposé que de quelques heures pour apprendre, seul, le jeu d’échecs.

A L P H A Z E R O2 — Tableau des matches entre AlphaZero (AZ) et les logiciels spécialisés dans les échecs (Stockfish), le shogi (Elmo) et le jeu de go (AGO), à l’issue d’un entraînement de trois jours d’AZ. En vert : victoires d’AZ. En rouge : défaites d’AZ. En gris : match nul.© DeepMind Technologies Ltd

Comme cet aîné célèbre, le nouveau-né est autodidacte. Selon le terme consacré en intelligence artificielle, il apprend « par renforcement ». Au départ, il ne dispose que des règles du jeu, mais d’aucun principe de stratégie ni même des exemples de parties jouées par des humains. Il joue donc au hasard contre lui-même, et au fur et à mesure des parties, dresse des statistiques sur les chances de succès des coups joués.

Mais là où le nouveau rejeton dépasse son prédécesseur, c’est dans la diversité des jeux de société qu’il est capable de maîtriser. En quelques heures, en effet, avec pour seules informations initiales les règles du jeu, AlphaZero a appris seul à maîtriser les échecs, le shogi et le go. Il a ensuite affronté des logiciels spécialisés dans chacun de ces jeux et les a tous battus. C’est la première fois que son algorithme, de type MCTS pour Monte Carlo Tree Search ou « recherche arborescente Monte Carlo », se révèle aussi performant dans les jeux d’échecs.

Pour que ce petit génie ne s’ennuie pas, DeepMind pourrait bien le confronter, lors d’un défi à venir, à des jeux vidéo multi-joueurs bien différents des échanges à deux sur plateau auxquels AlphaZero est habitué.