Modèles et algorithmes d'analyse prédictive

Les outils d'analyse prédictive sont alimentés par plusieurs modèles et algorithmes différents qui peuvent être appliqués à un large éventail de cas d'utilisation. Déterminer quelles techniques de modélisation prédictive conviennent le mieux à votre entreprise est essentiel pour tirer le meilleur parti d'une solution d'analyse prédictive et tirer parti des données pour prendre des décisions éclairées.

Par exemple, considérons un détaillant qui cherche à réduire le taux de désabonnement des clients. Ils pourraient ne pas être servis par les mêmes modèles d'analyse prédictive utilisés par un hôpital pour prédire le volume de patients admis aux urgences au cours des dix prochains jours.

Quels sont les modèles d'analyse prédictive les plus courants ? Et quels algorithmes prédictifs sont les plus utiles pour les alimenter ? Dans cet article, nous donnons un aperçu des types les plus populaires de modèles et d'algorithmes prédictifs qui sont utilisés aujourd'hui pour résoudre les problèmes commerciaux.

algorithmes d'analyse prédictive

Top 5 des modèles d’analyse prédictive

Modèle de classification

Le modèle de classification est, à certains égards, le plus simple des nombreux types de modèles d'analyse prédictive que nous allons couvrir. Il classe les données dans des catégories en fonction de ce qu'il apprend des données historiques.

Les modèles de classification sont les meilleurs pour répondre aux questions par oui ou par non, fournissant une analyse large qui est utile pour guider une action décisive. Ces modèles peuvent répondre à des questions telles que :

  • Pour un détaillant : « Ce client est-il sur le point de se désabonner ? »
  • Pour un fournisseur de prêt, « Ce prêt sera-t-il approuvé ? » ou « Ce demandeur est-il susceptible de faire défaut ? »
  • Pour un prestataire de services bancaires en ligne, « Est-ce une transaction frauduleuse ? »

L'étendue des possibilités du modèle de classification - et la facilité avec laquelle il peut être recyclé avec de nouvelles données - signifie qu'il peut être appliqué à de nombreuses industries différentes.

Modèle de clustering

Le modèle de clustering trie les données en groupes intelligents distincts et imbriqués en fonction d'attributs similaires. Si une entreprise de chaussures de commerce électronique cherche à mettre en œuvre des campagnes marketing ciblées pour ses clients, elle pourrait parcourir les centaines de milliers d'enregistrements pour créer une stratégie sur mesure pour chaque individu. Mais est-ce l'utilisation la plus efficace du temps ? Probablement pas. En utilisant le modèle de clustering, ils peuvent rapidement séparer les clients en groupes similaires en fonction de caractéristiques communes et concevoir des stratégies pour chaque groupe à plus grande échelle.

D'autres cas d'utilisation de cette technique de modélisation prédictive peuvent inclure le regroupement des demandeurs de prêt dans des « groupes intelligents » en fonction des attributs de prêt, l'identification des zones d'une ville à haut volume de criminalité et l'analyse comparative des données client SaaS en groupes pour identifier les modèles d'utilisation mondiaux.

Modèle de prévision

L'un des modèles d'analyse prédictive les plus largement utilisés , le modèle de prévision traite de la prédiction de la valeur métrique, estimant la valeur numérique des nouvelles données sur la base des enseignements tirés des données historiques.

Ce modèle peut être appliqué partout où des données numériques historiques sont disponibles. Les scénarios incluent :

  • Une entreprise SaaS peut estimer le nombre de clients qu'elle est susceptible de convertir au cours d'une semaine donnée.
  • Un centre d'appels peut prédire le nombre d'appels d'assistance qu'il recevra par heure.
  • Un magasin de chaussures peut calculer la quantité de stock qu'il doit conserver pour répondre à la demande pendant une période de vente particulière.

Le modèle de prévision prend également en compte plusieurs paramètres d'entrée. Si un restaurateur veut prédire le nombre de clients qu'il est susceptible de recevoir la semaine suivante, le modèle prendra en compte les facteurs qui pourraient avoir un impact, tels que : Y a-t-il un événement à proximité ? Quelles sont les prévisions météo? Y a-t-il une maladie qui circule?

Modèle de valeurs aberrantes

Le modèle des valeurs aberrantes est orienté autour des entrées de données anormales dans un ensemble de données. Il peut identifier des chiffres anormaux soit seuls, soit en conjonction avec d'autres nombres et catégories.

  • Enregistrement d'un pic d'appels d'assistance, ce qui pourrait indiquer une défaillance du produit pouvant entraîner un rappel
  • Trouver des données anormales dans les transactions, ou dans les réclamations d'assurance, pour identifier la fraude
  • Trouver des informations inhabituelles dans vos journaux NetOps et remarquer les signes de temps d'arrêt imprévus imminents

Le modèle aberrant est particulièrement utile pour l'analyse prédictive dans le commerce de détail et la finance. Par exemple, lors de l'identification de transactions frauduleuses, le modèle peut évaluer non seulement le montant, mais aussi le lieu, l'heure, l'historique des achats et la nature d'un achat (c. même montant sur les livres ou les services publics communs).

Modèle de série chronologique

Le modèle de série chronologique comprend une séquence de points de données capturés, en utilisant le temps comme paramètre d'entrée. Il utilise la dernière année de données pour développer une métrique numérique et prédit les trois à six prochaines semaines de données à l'aide de cette métrique. Les cas d'utilisation de ce modèle incluent le nombre d'appels quotidiens reçus au cours des trois derniers mois, les ventes des 20 derniers trimestres ou le nombre de patients qui se sont présentés dans un hôpital donné au cours des six dernières semaines. C'est un moyen puissant de comprendre la façon dont une métrique singulière se développe au fil du temps avec un niveau de précision au-delà des simples moyennes. Il prend également en compte les saisons de l'année ou les événements qui pourraient avoir un impact sur la métrique.

Si le propriétaire d'un salon souhaite prédire combien de personnes sont susceptibles de visiter son entreprise, il peut se tourner vers la méthode grossière consistant à faire la moyenne du nombre total de visiteurs au cours des 90 derniers jours. Cependant, la croissance n'est pas toujours statique ou linéaire, et le modèle de série chronologique peut mieux modéliser une croissance exponentielle et mieux aligner le modèle sur la tendance d'une entreprise. Il peut également faire des prévisions pour plusieurs projets ou plusieurs régions en même temps au lieu d'un seul à la fois.

Algorithmes prédictifs courants

Dans l'ensemble, les algorithmes d'analyse prédictive peuvent être séparés en deux groupes : l'apprentissage automatique et l'apprentissage en profondeur.

  • L'apprentissage automatique implique des données structurelles que nous voyons dans un tableau. Les algorithmes pour cela comprennent à la fois des variétés linéaires et non linéaires. Les algorithmes linéaires s'entraînent plus rapidement, tandis que les algorithmes non linéaires sont mieux optimisés pour les problèmes auxquels ils sont susceptibles d'être confrontés (qui sont souvent non linéaires).
  • L'apprentissage en profondeur est un sous-ensemble de l'apprentissage automatique qui est plus populaire pour traiter l'audio, la vidéo, le texte et les images.

Avec la modélisation prédictive de l'apprentissage automatique, plusieurs algorithmes différents peuvent être appliqués. Vous trouverez ci-dessous certains des algorithmes les plus courants utilisés pour alimenter les modèles d'analyse prédictive décrits ci-dessus.

Forêt aléatoire

Random Forest est peut-être l'algorithme de classification le plus populaire, capable à la fois de classification et de régression. Il peut classer avec précision de gros volumes de données.

Le nom « Random Forest » est dérivé du fait que l'algorithme est une combinaison d'arbres de décision. Chaque arbre dépend des valeurs d'un vecteur aléatoire échantillonné indépendamment avec la même distribution pour tous les arbres de la « forêt ». Chacun est cultivé dans la plus grande mesure possible.

Les algorithmes d'analyse prédictive tentent d'obtenir l'erreur la plus faible possible en utilisant soit le « boosting » (une technique qui ajuste le poids d'une observation en fonction de la dernière classification) soit le « bagging » (qui crée des sous-ensembles de données à partir d'échantillons d'apprentissage, choisis au hasard avec remplacement ). Random Forest utilise l'ensachage. Si vous avez beaucoup d'échantillons de données, au lieu de vous entraîner avec chacun d'eux, vous pouvez prendre un sous-ensemble et vous entraîner dessus, puis prendre un autre sous-ensemble et vous entraîner dessus (le chevauchement est autorisé). Tout cela peut se faire en parallèle. Plusieurs échantillons sont prélevés à partir de vos données pour créer une moyenne.

Alors que les arbres individuels peuvent être des « apprenants faibles », le principe de Random Forest est qu'ensemble, ils peuvent constituer un seul « apprenant fort ».

La popularité du modèle Random Forest s'explique par ses différents avantages :

  • Précis et efficace lors de l'exécution sur de grandes bases de données
  • Les arbres multiples réduisent la variance et le biais d'un ensemble plus petit ou d'un seul arbre
  • Résistant au surajustement
  • Peut gérer des milliers de variables d'entrée sans suppression de variable
  • Peut estimer quelles variables sont importantes dans la classification
  • Fournit des méthodes efficaces pour estimer les données manquantes
  • Maintient l'exactitude lorsqu'une grande partie des données est manquante

Modèle linéaire généralisé (GLM) pour deux valeurs

Le modèle linéaire généralisé (GLM) est une variante plus complexe du modèle linéaire général. Il faut la comparaison de ce dernier modèle des effets de plusieurs variables sur les variables continues avant de tirer d'un tableau de différentes distributions pour trouver le modèle « le mieux adapté ».

Supposons que vous souhaitiez apprendre le comportement d'achat des clients pour les manteaux d'hiver. Une régression linéaire régulière pourrait révéler que pour chaque degré négatif de différence de température, 300 manteaux d'hiver supplémentaires sont achetés. S'il semble logique que 2 100 manteaux supplémentaires puissent être vendus si la température passe de 9 degrés à 3, il semble moins logique que si elle descend à -20, nous verrons le nombre augmenter exactement du même degré.

Le modèle linéaire généralisé réduirait la liste des variables, suggérant probablement qu'il y a une augmentation des ventes au-delà d'une certaine température et une diminution ou un aplatissement des ventes une fois qu'une autre température est atteinte.

L'avantage de cet algorithme est qu'il s'entraîne très rapidement. La variable de réponse peut avoir n'importe quelle forme de type de distribution exponentielle. Le modèle linéaire généralisé est également capable de traiter les prédicteurs catégoriels, tout en étant relativement simple à interpréter. En plus de cela, il fournit une compréhension claire de la façon dont chacun des prédicteurs influence le résultat et est assez résistant au surapprentissage. Cependant, il nécessite des ensembles de données relativement volumineux et est sensible aux valeurs aberrantes

Modèle à gradient amplifié (GBM)

Le Gradient Boosted Model produit un modèle de prédiction composé d'un ensemble d'arbres de décision (chacun d'entre eux étant un « apprenant faible », comme ce fut le cas avec Random Forest), avant de généraliser. Comme son nom l'indique, il utilise la technique d'apprentissage automatique « boostée », par opposition à l'ensachage utilisé par Random Forest. Il est utilisé pour le modèle de classification.

La caractéristique distinctive du GBM est qu'il construit ses arbres un arbre à la fois. Chaque nouvel arbre aide à corriger les erreurs commises par l'arbre précédemment formé⁠-contrairement au modèle de forêt aléatoire, dans lequel les arbres n'ont aucune relation. Il est très souvent utilisé dans le classement par apprentissage automatique, comme dans les moteurs de recherche Yahoo et Yandex.

Via l'approche GBM, les données sont plus expressives, et les résultats comparés montrent que la méthode GBM est préférable en termes d'exhaustivité globale des données. Cependant, comme il construit chaque arbre de manière séquentielle, cela prend également plus de temps. Cela dit, ses performances plus lentes sont considérées comme conduisant à une meilleure généralisation.

K-Means

Algorithme à grande vitesse très populaire, K-means consiste à placer des points de données non étiquetés dans des groupes séparés en fonction des similitudes. Cet algorithme est utilisé pour le modèle de clustering. Par exemple, Tom et Rebecca sont dans le groupe un et John et Henry sont dans le groupe deux. Tom et Rebecca ont des caractéristiques très similaires mais Rebecca et John ont des caractéristiques très différentes. K-means essaie de comprendre quelles sont les caractéristiques communes des individus et les regroupe. Ceci est particulièrement utile lorsque vous disposez d'un grand ensemble de données et que vous cherchez à mettre en œuvre un plan personnalisé - c'est très difficile à faire avec un million de personnes.

Dans le contexte de l'analyse prédictive pour les soins de santé , une taille d'échantillon de patients peut être placée dans cinq groupes distincts par l'algorithme. Un groupe particulier partage de multiples caractéristiques : ils ne font pas d'exercice, ils ont une fréquentation hospitalière croissante (trois fois par an puis dix fois l'année suivante), et ils sont tous à risque de diabète. Sur la base des similitudes, nous pouvons recommander de manière proactive un régime alimentaire et un programme d'exercices pour ce groupe.

Prophète

L'algorithme du Prophète est utilisé dans les séries chronologiques et les modèles de prévision. Il s'agit d'un algorithme open source développé par Facebook, utilisé en interne par l'entreprise pour la prévision.

L'algorithme de Prophet est d'une grande utilité dans la planification des capacités, comme l'allocation des ressources et la définition des objectifs de vente. En raison du niveau de performance incohérent des algorithmes de prévision entièrement automatisés et de leur rigidité, l'automatisation réussie de ce processus a été difficile. D'autre part, la prévision manuelle nécessite des heures de travail par des analystes très expérimentés.

Prophet n'est pas seulement automatique ; il est également suffisamment flexible pour incorporer des heuristiques et des hypothèses utiles. La vitesse, la fiabilité et la robustesse de l'algorithme lorsqu'il traite des données désordonnées en ont fait un choix d'algorithme alternatif populaire pour les séries chronologiques et les modèles d'analyse de prévision. Les analystes experts et ceux qui ont moins d'expérience en matière de prévision la trouvent précieuse.

Pour conclure

Comment déterminez-vous quel modèle d'analyse prédictive est le mieux adapté à vos besoins ? Vous devez commencer par identifier les questions prédictives auxquelles vous cherchez à répondre et, plus important encore, ce que vous cherchez à faire avec ces informations. Tenez compte des points forts de chaque modèle, ainsi que de la manière dont chacun d'eux peut être optimisé avec différents algorithmes d'analyse prédictive, pour décider de la meilleure façon de les utiliser pour votre organisation.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

téléphone et internet Article précédent Comment choisir son abonnement au service de téléphone et internet illimité ?
Bien manger avec un petit budget Article suivant Bien manger avec un petit budget