Principes et fonctionnement des forêts aléatoires

Sur quelle méthodologie sont basés nos algorithmes ? ETIC DATA vous parle des forêts, principal moteur de ses modèles.

Le choix du bon classifieur :
Le classifieur est le principal outil utilisé pour effectuer les tâches de l’analytique prédictive. Un classifieur est une fonction mathématique qui, au vu du profil d’un individu, va lui assigner la valeur d’une quantité d’intérêt appelée la « cible » (consommateur /non consommateur par exemple) et un score de certitude. Cette valeur cible et ce score vont permettre au décideur de déterminer et de planifier les actions optimales pour cet individu.

Il existe de nombreux classifieurs, plus d’une centaine si on tient compte de leurs variantes, chacun ayant ses forces et ses faiblesses. Parmi les plus connus, on peut citer les réseaux de neurones, les régressions logistiques, les arbres CART ou encore les forêts. La sélection du classifieur le mieux adapté aux objectifs d’une situation spécifique est donc un véritable problème. De nombreuses considérations sont à prendre en compte, allant du type de données disponibles aux objectifs du décideur, en passant par le coût des erreurs potentielles.

Chez ETIC DATA, les données sur lesquelles nous travaillons sont pour la plupart des données concernant des clients, et nous visons à fournir les meilleurs outils pour cerner et anticiper leurs comportements. L’une des caractéristiques dont nous devons tenir compte est la diversité des comportements humains. En effet, les femmes et les hommes changent, évoluent, réagissent et s’adaptent en fonction de leurs particularités. Il faut donc choisir un classifieur capable d’extraire de ces profils complexes les marqueurs spécifiques, les variations subtiles et les indices cachés qui permettent au mieux de prendre en compte ces particularités et d’anticiper ces évolutions.

Pour sélectionner le meilleur classifieur en regard de ces objectifs, ETIC DATA, en partenariat avec le laboratoire IMAG (UMR CMRS 5149) de l’Université de Montpellier, a voulu comparer la pertinence des classifieurs les plus populaires. Après avoir déterminé une liste de 13 critères que devraient rencontrer un « bon » classifieur, les chercheurs d’ETIC DATA et de l’IMAG leur ont attribué des notes.

Et le gagnant est ?

Avec une note de 4.5/5 les classifieurs de type forêt sont ressortis comme étant la meilleure classe d’algorithmes pour répondre aux problématiques clients rencontrées, devançant entre autres la régression logistique (3.88) et les réseaux de neurones (2.75). ETIC DATA a donc choisi d’orienter ses algorithmes vers les classifieurs de type forêt et leurs variantes.

Vous pouvez retrouver l’intégralité de l’étude sur la page suivante : Gille R. Ducharme – CRITÈRES DE QUALITÉ D’UN CLASSIFIEUR GÉNÉRALISTE.

Qu’est-ce qu’un classifieur de type forêt ?

Les premiers classifieurs de type forêt ont été les forêts aléatoires (Random Forest) introduites par Leo Breiman en 2001. Cet algorithme de machine learning est une version ensembliste des arbres CART et fait partie des méthodes les plus précises et les plus efficaces sur le marché. Un classifieur de type forêt présente de nombreux avantages qui ont fortement contribué à leur note élevée lors de notre étude comparative.

Principaux avantages des classifieurs de type forêt :

  • Gestion des données manquantes, massivement présentes dans les bases de données clients
  • Gestion des données de natures mixtes – quantitatives, qualitatives, ordinales … – également caractéristiques des bases de données rencontrées
  • Adaptation à des problématiques de classification, pour prédire une cible catégorielle (client/non-client par exemple) ou pour prédire une variable continue (un prix par exemple).
  • Inclusion d’informations contextuelles, comme les coûts d’erreurs de classification, la présence de niches à faible effectif, etc.
  • Production d’une mesure de l’importance des variables permettant d’avoir une visibilité sur les variables qui influent le plus dans la modélisation
  • Production d’un score qui, après calibration, permet de faire de l’analytique prescriptif, principal axe de développement d’ETIC DATA.

Vous souhaitez en savoir plus sur les forêts aléatoires ?

LIRE LA SUITE DE L’ARTICLE

Un arbre de classification CART est un ensemble de règles exécutées en séquence qui permettent à un prospect de voyager depuis la racine de l’arbre au travers de nœuds vers une feuille qui lui assigne une valeur de la cible (client/non client) et un score de certitude. Les règles se logent dans les nœuds de l’arbre et sont de la forme : « si telle caractéristique du prospect est comme ceci, poursuivez dans la branche de gauche de l’arbre, sinon dans celle de droite ». La figure ci-dessous représente un arbre permettant d’attribuer la variable cible (consommateur/non consommateur) d’un individu en fonction de diverses données de profil (estimation des revenus, âge, CSP, …).

Limite des arbres de classification :

Les arbres ont de nombreux avantages, mais ont tendance à surajuster les données, ce qui nuit à leur précision quand on les utilise en mode production. Les classifieurs de type forêt sont constitués d’un ensemble d’arbres de tailles et de formes différentes, qui remédient à ce problème. De plus, ces algorithmes ont des capacités prédictives considérablement améliorées: ils donnent un taux d’erreur en général inférieur, et au pire comparable, à celui de la plupart des autres méthodes de classifications inventées à ce jour.

Utilisation d’un classifieur de type forêt en production :

Un prospect passe dans chacun des arbres de la forêt, depuis sa racine jusqu’à la feuille qui lui assigne une valeur temporaire de la cible. La prédiction finale de la forêt se fait par une procédure de vote : la valeur ayant l’effectif le plus élevé parmi les arbres d’une forêt devient la valeur définitivement assignée au prospect. Il existe de nombreuses variantes des forêts d’arbres permettant de les adapter aux spécificités de chaque situation. ETIC DATA a développé une version généraliste offrant d’excellents résultats dans la majorité des cas, avec en option la possibilité d’utiliser des variantes offrant un réglage plus fin selon les besoins.

ETIC DATA vous apporte des solutions concrètes
pour anticiper les mouvements de vos clients :

CONTACTEZ-NOUS