L'AlphaZero de DeepMind montre maintenant une intuition humaine dans un tournant de l'histoire de l'IA
Le programme d'intlligence artificielle AlphaZero de DeepMind montre maintenant des signes d'intuition et de créativité humaines, dans ce que les développeurs ont qualifié de " tournant " de l'histoire.
Le système informatique a étonné le monde l'année dernière lorsqu'il a maîtrisé le jeu d'échecs à partir de zéro en seulement quatre heures, bien qu'il ne soit pas programmé pour gagner.
Mais maintenant, après un an de tests et d'analyses par des grands maîtres d'échecs, la machine a développé un nouveau style de jeu jamais vu auparavant, suggérant que le programme improvise maintenant comme un humain.
Contrairement à la meilleure machine d'échecs du monde - Stockfish - qui calcule des millions de résultats possibles en jouant, AlphaZero apprend de ses succès et de ses échecs passés, en se basant sur un "sentiment nébuleux que tout cela va marcher à long terme", selon les experts de DeepMind.
Lorsqu'AlphaZero a été opposé à Stockfish en 1 000 matchs, il n'en a perdu que six, remportant 155 victoires convaincantes et les autres combats se sont soldés par des nuls.
Pourtant, c'est la façon dont il a joué qui a étonné les développeurs. Alors que les ordinateurs d'échecs aiment surtout s'accrocher à leurs pièces, AlphaZero sacrifie volontiers ses soldats pour une meilleure position dans l'escarmouche.
S'adressant au Telegraph, le professeur David Silver, qui dirige le groupe de recherche sur l'apprentissage du renforcement chez DeepMind, a déclaré : "Il a un sens de l'intuition très subtil qui l'aide à équilibrer tous les différents facteurs."
"Il a un réseau neuronal avec des millions de paramètres accordables différents, chacun apprenant ses propres règles sur ce qui est bon aux échecs, et quand vous les mettez tous ensemble vous avez quelque chose qui exprime, de manière assez cérébrale, notre capacité humaine à regarder une position et dire :ah ha, c'est la bonne chose à faire."
"Ma croyance personnelle est que nous avons vu quelque chose de décisif où nous commençons à comprendre que de nombreuses capacités, comme l'intuition et la créativité, que nous pensions auparavant être du seul domaine de l'esprit humain, sont également accessibles à l'intelligence artificielle. Et je pense que c'est un moment très excitant dans l'histoire."
AlphaZero a commencé comme un système de'tabula rasa' ou ardoise blanche, programmé avec seulement les règles de base des échecs et appris à gagner en jouant des millions de parties contre lui-même dans un processus d'essai et d'erreur connu sous le nom d'apprentissage de renforcement.
C'est de la même façon que le cerveau humain apprend, en ajustant ses tactiques en fonction d'une victoire ou d'une défaite précédente, ce qui lui permet de ne chercher que 60 000 positions par seconde, comparé aux quelque 60 millions de Stockfish.
En quelques heures à peine, le programme avait découvert et joué de manière indépendante des ouvertures et des stratégies humaines communes avant de développer ses propres idées, telles qu'un afflux rapide autour du roi adverse et la mise en valeur des pièces individuelles bien moindre.
Le nouveau style de jeu a été analysé par Matthew Sadler, grand maître d'échecs, et Natasha Regan, maître international féminin, qui le proclament comme aucun moteur traditionnel des échecs.
"C'est comme découvrir les carnets secrets d'un grand joueur du passé", explique Sadler.
Regan a ajouté : "C'était fascinant de voir comment l'analyse d'AlphaZero différait de celle des meilleurs moteurs d'échecs et même des meilleurs jeux de Grand-Maîtres. AlphaZero pourrait être un puissant outil d'enseignement pour toute la communauté."
AlphaZero contre les grands maitres d'échecs
Garry Kasparov, ancien champion du monde d'échecs, qui a perdu contre la machine Deep Blue en 1997, a dit : "Au lieu de traiter les instructions et les connaissances humaines à une vitesse incroyable, comme toutes les machines d'échecs précédentes, AlphaZero génère ses propres connaissances.
"Il joue avec un style très dynamique, un peu comme le mien. Les implications vont bien au-delà de mon échiquier bien-aimé."
La nouvelle analyse a été publiée hier dans la revue Science, et l'équipe de DeepMind espère maintenant utiliser son système pour aider à résoudre des problèmes du monde réel, par exemple pourquoi les protéines deviennent inopérantes dans certaines maladies comme la maladie de Parkinson et d'Alzheimer.
Les nouveaux résultats suggèrent qu'il pourrait proposer de nouvelles solutions que les humains pourraient manquer ou prendre beaucoup plus de temps à découvrir.
Le PDG et co-fondateur de DeepMind, Demis Hassabis, a déclaré : "La raison pour laquelle cette tabula rasa était importante, c'est parce que nous voulons qu'elle soit aussi générale que possible. Plus il est général dans l'ensemble des jeux, plus il aura de chances de s'appliquer à des problèmes du monde réel.
"Le repliement des protéines a toujours été notre cible numéro un. J'y pense depuis longtemps, parce que c'est un énorme problème en biologie et qu'il débloquera beaucoup d'autres choses comme la découverte de médicaments."
"Aux échecs, AlphaZero ne travaille pas parce qu'il regarde plus loin, mais parce qu'il comprend mieux la position. C'est une généralisation de l'expérience passée. C'est presque comme l'intuition au même titre qu'un grand maître humain y penserait, c'est l'évaluation de la situation actuelle qui est meilleure. Et si votre évaluation est meilleure, vous n'avez pas à faire plus de calculs."
Le professeur Silver a ajouté : " Historiquement, il y a eu ce décalage étonnant entre ce que les humains peuvent faire et ce que les ordinateurs peuvent faire."
"Avec l'avènement de puissantes techniques d'apprentissage machine, nous avons vu que les échelles ont commencé à basculer et maintenant nous avons des algorithmes informatiques qui sont capables de faire ces activités humaines très bien."