Return to site

Analyse de clientèle - finance

Ce billet donne quelques détails sur un projet #data réalisé pour une banque en ligne en pleine croissance, lors de l'été 2015.

Contexte client

Il s'agit de réaliser une analyse de la clientèle de notre client. Cette analyse, appelée segmentation commerciale, est basée sur les informations que possède cette banque sur ses clients. Les informations utilisées lors de cette missions sont les données personnelles fournies par les clients lors de leur inscription, ainsi que les historiques complets de leurs transactions bancaires (paiements CB, retraits, virements).

Besoins

Le client est en phase de forte croissance: il a décuplé le nombre de ses clients en 2014, et le volume des données stockées a pris, lui, plus d'un ordre de grandeur (x30). Les prévisions de croissance pour 2015 et 2016 sont similaires. Encore jeune, cette entreprise souhaite mettre en place des outils de traitement de données pertinents et capables d'assurer le passage à l'échelle (WP). Ce point est primordial dans le choix de la solution technique.

La solution logicielle fournie doit être une routine indépendante permettant de produire une classification des clients selon la volumétrie de leurs transactions. Elle permet de faire émerger différents types de comportements des clients et de déterminer le degré d'appartenance de chaque client aux comportements ainsi déterminés. Utilisent-ils leur compte comme compte principal, ou comme un compte d'appoint ? Quelle est la typologie de leurs opérations ?

Solutions fournies

Il a été nécessaire de produire une modélisation adaptée aux clients de cette banque, c'est à dire définir un cadre mathématique adéquat permettant de représenter les clients, mêlant données chiffrées calibrées, non calibrées, et textuelles. Puis de développer un algorithme de clustering classifiant les clients, algorithme basé en partir sur un approche k-médoïdes. La solution a été testée d'abord sous la forme d'une prototype, puis configurée et paramétrée pour répondre aux besoins du client.

La solution logicielle est écrite en Python et C, prototypée de manière séquentielle puis parallélisée sur une petite dizaine de coeurs. Le temps de calcul est de l'ordre de l'heure sur un ordinateur du commerce.

L’œil du data scientist

Pourquoi cette mission n'est pas triviale ?

Les points techniques à traiter sont multiples :

  • le volume de données (150k clients, 10M de transactions) ne permet pas un traitement direct;

  • la modélisation d'un client est multi-dimensionnelle : un client est défini par ses données personnelles (identité, csp, age, adresse etc) ainsi que par l'historique de ses transactions;

  • une transaction est représentée par une cinquantaine de champs, plus ou moins pertinents pour l'analyse;

  • les algorithmes de segmentation (WP) peuvent être gourmands en ressources matérielles.

Il a fallu en tenir compte lors de la conception, du développement et de l'implémentation des routines de calculs.

Fiche synthétique

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly