Dans cette forme d’apprentissage, le mécanisme d’intelligence artificielle va apprendre en interagissant avec son environnement et en recevant des récompenses (c’est-à-dire en observant le résultat de son interaction) lui permettant de qualifier au fur et à mesure la pertinence de ses actions sur le long terme.
Cette pertinence étant inconnue au départ de l’expérience, l’IA va devoir l’apprendre par interactions successives, tout comme un humain qui découvrirait un nouveau jeu par exemple. En testant chaque action dans chaque position possible de l’environnement, l’IA va pouvoir mettre à jour son estimation de l’impact de cette action sur le long terme. La notion de « long terme » est cruciale en renforcement. En jouant aux échecs par exemple, il est préférable de sacrifier un pion (perte sur le court terme) pour gagner la partie. De la même manière, pour aller d’un point A à un point B en voiture, il vaut mieux parfois s’éloigner du point B pour rejoindre une autoroute et arriver plus rapidement.
Ainsi, en pondérant son action par la satisfaction qu’elle en tire, l’IA va pouvoir adopter un comportement se voulant rationnel et optimal.