Petit guide du machine learning — partie 3 : mieux segmenter son audience avec l’apprentissage non supervisé
Customer Experience 20 novembre 2018Dans notre premier article de cette série consacrée au machine learning, nous avons vu que l’objectif premier de ce type d’ algorithme est d’utiliser l’informatique pour automatiser les tâches courantes. Pour cela, les algorithmes de machine learning tentent de reproduire l’apprentissage humain en se basant sur un modèle mathématique (si vous venez de nous rejoindre, retrouvez le premier article ici).
Les solutions de machine learning peuvent être classées en 3 catégories : l’apprentissage supervisé (supervised learning) que nous avons traité ici, l’apprentissage non supervisé (unsupervised learning) et l’apprentissage par renforcement ( reinforcement learning). Dans cet article, nous allons nous intéresser au fonctionnement et aux cas d’application de l’apprentissage non supervisé.
Apprentissage non supervisé versus apprentissage supervisé
Contrairement à l’apprentissage supervisé qui se base sur des données passées pour prédire un événement futur, et chercher à répondre à une question précise (par exemple : “quel est cet objet ?”), l’apprentissage non supervisé n’a pas de tâche précise à optimiser. Ici, l’objectif est simple : réunir des observations selon des critères prédéfinis par les équipes en charge du projet et un nombre de groupes fixé au préalable. En effet, l’apprentissage non supervisé permet de regrouper des éléments non-classés dans différents groupes selon leurs caractéristiques.
Admettons qu’on vous donne des objets de formes et de couleurs différentes, par exemple des ronds, des carrés et des étoiles de couleurs bleue, rouge, verte et jaune. Si on vous demande ensuite de créer trois groupes, vous les réunirez par forme ; pour quatre groupes par couleur ; pour douze groupes par couleur et par forme, et pour tout autre nombre la réponse sera un peu plus floue et dépendra de chaque objet. En revanche, si on vous donne une immense boîte de LEGO avec énormément de formes et de couleurs, l’exercice risque d’être plus difficile.
Ce type de problème est résolu par les algorithmes d’apprentissage non supervisé, et à bien plus grande échelle. Vous fournissez une liste décrivant chaque objet selon plusieurs critères, et un nombre voulu de groupes : l’algorithme se charge alors de les regrouper pour vous !
À l’inverse de l’apprentissage supervisé qui pondère chaque caractéristique pour mieux prédire, l’apprentissage non supervisé n’a théoriquement pas de biais de pondération : il n’est ainsi pas “mieux” de réunir par forme que par couleur. Bien sûr, l’homme peut forcer l’algorithme “manuellement”, pour mettre l’accent sur certaines caractéristiques, mais l’algorithme utilisera toujours uniquement ce qu’on lui donne tel quel. Par conséquent, le choix des caractéristiques est ici crucial pour obtenir des groupes pertinents. Par exemple, si on cherche à trier et ranger des LEGO, les réunir par forme, couleur, ou taille peut avoir un intérêt. En revanche, il sera probablement moins utile de connaître la date ou le lieu d’achat de chaque pièce.
Quelques exemples d’applications au service du marketing digital
Là où l’apprentissage supervisé permet de répondre à une question précise, comme “est-ce que cet utilisateur va revenir sur mon site dans les prochains jours ?”, l’apprentissage non supervisé a plutôt une visée descriptive et informative. Il permet par exemple de segmenter son audience selon ses caractéristiques, et donc d’adapter le message envoyé à un utilisateur en fonction de son groupe d’appartenance.
Il y a quelques années encore, les bases clients étaient souvent (voire sont encore !) segmentées selon la méthode RFM, afin de juger de la qualité d’un client d’un point de vue marketing, et ce selon 3 critères : Récence (date de dernier achat ou dernier contact client), Fréquence (fréquence des achats sur une période donnée), Montant (somme des achats sur une période donnée). En fonction du nombre de groupes voulu, on “découpait” alors chaque axe RFM afin d’obtenir des groupes de clients ayant des caractéristiques communes. Par exemple, si l’on voulait 8 groupes, on découpait chaque axe en deux, comme ceci :
Aujourd’hui, grâce aux données disponibles en ligne, on peut prendre en compte beaucoup plus de critères (ou dimensions) pour segmenter ses clients plus finement, comme le type d’appareil utilisé, la source de trafic d’où provient un utilisateur, le nombre de pages vues, etc. Avec tous ces critères disponibles pour des millions d’utilisateurs, cela devient très compliqué pour un humain d’obtenir un nombre de groupes restreint.
Encore une fois, il faut donc faire attention aux critères choisis. Par exemple, les habitudes alimentaires d’un utilisateur ont probablement peu d’intérêt pour un site e-commerce vendant exclusivement des chaussures. D’autres critères sont aussi potentiellement intéressants, mais inutilisables en pratique selon le cas d’activation désiré : en effet, difficile par exemple de cibler dans une campagne d’ emailing les personnes ayant des enfants, si l’information n’a pas été récoltée au préalable.
Une fois les variables soigneusement sélectionnées (idéalement par un expert métier), et le nombre désiré de groupes déterminé (ou un ordre de grandeur, l’algorithme choisira alors le nombre optimal dans une fourchette donnée), l’algorithme va alors fournir un ensemble de règles permettant d’attribuer un groupe à chaque individu. Ensuite, pour faciliter son interprétation, la production d’une carte de chaleur est souvent utilisée. Le principe consiste à calculer pour chaque groupe la valeur moyenne de chaque caractéristique, comme par exemple le nombre de pages vues moyen pour chaque groupe ou le pourcentage d’utilisateurs sur chaque type d’appareil pour chaque groupe. On obtient alors un visualisation correspondant à l’image ci-dessous.
Ici, on trouve par exemple 13 variables divisées en 4 catégories, qui permettent d’analyser l’audience d’une marque : la connaissance de la marque, la longueur et qualité de la visite effectuée sur le site de la marque, le comportement de l’utilisateur vis-à-vis des sections du site, et enfin le nombre d’actions engageantes. L’analyse des 13 variables a permis d’identifier 5 groupes d’utilisateurs, que l’on a ensuite ordonnés du moins engagé au plus engagé envers la marque.
En marketing digital, l’apprentissage non supervisé sert donc surtout comme une première étape pour mieux connaître et comprendre ses données (et donc ses clients/prospects !). Il peut aussi être utilisé pour réduire les volumes en regroupant des observations lorsque le nombre d’informations est trop important. En pratique, si vous souhaitez regrouper des observations pour servir un objectif précis, comme améliorer un taux de clic, n’oubliez pas de suivre les performances de votre cas d’activation en fonction des choix qui ont été fait.
Enfin, il ne faut pas oublier que le résultat d’un apprentissage non supervisé dépend très fortement des choix opérés par le data scientist (et ce, plus encore qu’avec l’apprentissage supervisé) de façon à servir au mieux les objectifs business fixés !