Exemple basé sur un cas réel.
Toutes les données qualitatives sont volontairement faussées.

Une entreprise souhaite mieux connaître sa clientèle.

Qui sont ses clients ?
Comment se comportent-ils ?
Présentent-ils des profils d'achats typiques ?
Peut-on en tirer des informations utiles pour accroître les ventes ?

Des questions de qualification de clientèle tout à fait classiques, dont les réponses permettront d'orienter la stratégie d'orientation de la relation client. Cette entreprise pourrait vendre n'importe quoi. Supposons, car le cas s'y prête, qu'elle vend des tickets pour des événements culturels. Son fichier de ventes pour les trois dernières années totalise 15 millions de transactions. Une analyse exhaustive des ventes est désormais hors de portée des outils classiques.

Détaillons les données. Une vente est une entrée dans la base : date, montant, marge, référence de l'événement, référence du client. Les informations relatives aux clients, aux événements (nom, type, genre, lieu), aux lieux où ils se produisent sont stockés dans d'autres bases. Ces informations sont les données brutes d'exploitation, qu'il faudra mettre en forme et normaliser avant toute exploitation. Puisque les questions portent sur les clients, il est naturel de prendre pour point d'entrée la référence du client (id_client). Cela consiste à construire une nouvelle base où chaque élément est un client, auquel on rattache les ventes effectuées, qu'on relie aux événements et aux lieux. Compter les ventes par client, ainsi que le nombre de tickets achetés sur le dernier mois, la dernière année, le panier total, la marge dégagée etc : ces opérations de bases sont très classiques et donnent des critères généraux, que mon expérience de physicien appelle "0D", de dimension zéro. On pourra aussi segmenter en fonction de la localisation de l’événement, le genre (match ? concert ? exposition?), le nombre d’événements auxquels le client a participé ou selon tout autre information disponible directement dans la base.

Ces opérations, purement descriptives, ne résultent que d'une sélection multi-critères sur les entrées de la base client. Une seconde étape fait intervenir des opérations mathématiques simples : somme, moyenne, médiane, déviation standard (=écart à la moyenne). Il est immédiat d'extraire le panier moyen pour les clients ayant assisté, dans la même année, à au moins deux événements dans un même département, et d'obtenir le classement par département ou par ville. Ce qui permet de se rendre compte que Paris et Lyon auront un panier par événement moyen plus élevé que le Limousin. Ou qu'en moyenne les personnes ayant assisté au moins à un match de foot participent à plus d'événements que ceux allant régulièrement au théâtre - sauf en PACA. On peut aller plus loin dans la description, en recherchant des comportements types. A partir des informations statistiques extraites ci-dessus, on s'aperçoit que la participation brute annuelle (nombre d'événements différents par an) est un critère important - segmentant, c'est à dire pertinent pour séparer les populations. On peut mettre de coté les clients qui n'ont effectué qu'un seul achat : ce qui, en soi, est un comportement fortement caractérisé ! On peut ensuite constater qu'une participation brute annuelle est en forte corrélation avec la participation à des expositions et théâtres dans certaines régions, et dans d'autres régions avec la fréquentation de concert. Ou encore qu'en se limitant aux spectateurs de concerts, les consommateurs occasionnels (événements/an<2) vont voir Johnny ou d'autres musiciens très populaires, alors que les consommateurs fidèles (>5/an) assistent majoritairement (>90%) à plusieurs concerts pop-rock chaque année ainsi qu'à quelques événements électro.

Cette analyse par segment met donc en évidence des sous-populations qui ont des comportements de consommations différents. On dispose ainsi de quelques critères descriptifs qui permettent d'orienter la communication de l'entreprise : d'un coté, on incitera, par exemple, les consommateurs occasionnels à assister à des événements susceptibles de leur plaire (identifiés par des analyses similaires sur la base); de l'autre, on augmentera l'offre de concerts pop-rock dans les régions de forte consommation, et on développera la visibilité des événements electro.

Un autre comportement apparaît sur les populations fortement consommatrices. Ces clients ont tendance à effectuer des achats multiples pour un meme événement ; pour être plus fin, il ressort que la probabilité d'acheter des billets supplémentaires est de 26% dans l'heure, 37% dans la journée et 58% dans la semaine qui suit le premier achat. Cette information conduira le service commercial à relancer ce genre de client après le premier achat. Le troisième exemple de profilage porte sur les événements eux-même : la répartition des ventes est sensiblement différente pour une soirée en club (beaucoup de ventes au dernier moment), un concert de Madonna (90% des places vendues dès l'ouverture) et un match de rugby (pic des ventes à l'ouverture, puis dans les deux semaines avant le match). Une stratégie de pricing pourra être menée, afin de maximiser les ventes.

Cet exemple met en avant un cas simple de data-mining, sans algorithme de segmentation complexe, et sans aucun équipement spécifique. On pourra bien évidemment mener ces recherches de comportements types de clients et de
typologie d'événements bien plus loin.

Peu de décideurs ont conscience de ce qu'il est possible de faire avec des outils numériques efficaces. Ces analyses sont d'habitude l'apanage des grands groupes, pouvant dégager les ressources nécessaires.

Mais ca, c'était avant. Si la révolution numérique qu'on nous sert à grandes louches depuis quelques mois peut, au moins, servir à attirer l'attention sur les méthodes numériques issues de la data science, alors elle aura au moins servi à rendre les PME plus efficaces.

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly