• Projets réels, données réelles

    Talk is cheap. Show me the code - Linus Torvalds

    Détection automatique de données aberrantes. Nettoyage de base de données.

    3.2M d'entrées, 55 champs, 35 Go de données

    Client. Établissement public à caractère industriel et commercial. Été 2016, 2 mois


    Projet. Construction et développement d'un moteur de détection statistique et automatique de valeurs aberrantes, à partir de concepts d’apprentissage automatique. Test et visualisation.

     

    Technique. Data crunching sur données semi-structurées. Détection de valeurs aberrantes par une double approche, d'abord statistique puis d'apprentissage automatique (machine learning) via la modification d'un algorithme d'apprentissage non supervisé.

    Classement automatique : apprentissage et prédiction

    2.2M d'entrées, 29 champs alphanumériques

    Client. Startup parisienne Printemps 2016, 2 mois

     

    Projet. Établissement d'une stratégie de classement. Prototypage et tests de différents algorithmes. Design, développement et optimisation d'un moteur de classement déterministe. Comparaison de trois moteurs. Test et sélection de différentes modélisations mathématiques.

     

    Technique. Pré-traitement sémantique (bag-of-word, tf-idf) et seuillage. Mise en concurrence de trois approches de moteur de classification automatique par apprentissage supervisé.

    Webscraping massif

    1.8 M d'urls, 700+ Go de données non structurées

    Client. Société B2B, Aix-en-provence. Printemps 2016, 3 mois

     

    Projet. Design, développement from scratch et maintenance d'un outil d'extraction d'informations brutes issues du web : analyse de 1.8M d'url, crawling automatique, recherche de données structurées. Opération sur plateforme Cloud, traitement distribué.

     

    Technique. Webscraping, data-mining, recherche par motifs, données non structurées

     

    Analyse sémantique

    800k commentaires clients

    Client. Société B2C, Paris. Hiver 2015 - 2 semaines

     

    Projet. Analyse de 2 années de commentaires clients : description statistique, extraction de tendances, exploitation commerciale

     

    Technique. Sémantique, statistiques

    Création d'un moteur de recommandation

    3.4M ventes, 2.8M de clients

    Client: société B2C, Marseille. Hiver 2015, 1 mois

     

    Projet. Analyse d'un fichier commercial contenant l'intégralité de 3 années de ventes. Description statistique de la clientèle : comportement d'achat, profilage sommaire, analyses multi-canaux / multi-produits. Design, développement et test d'un moteur de recommandation basé sur l'historique des ventes selon la classification de la clientèle.

     

    Technique. Data mining, théorie des graphes, machine learning, apprentissage supervisé

    Segmentation clientèle dynamique

    400k clients, évolution temporelle

    Client: Banque, Paris. Été 2015, 2 mois

     

    Projet. Réaliser une analyse de la clientèle. Cette segmentation commerciale est basée sur les informations que possède cette banque sur ses clients. Les informations utilisées lors de cette missions sont les données personnelles fournies par les clients lors de leur inscription, ainsi que les historiques complets de leurs transactions bancaires (paiements CB, retraits, virements).

     

    Technique. Machine learning, apprentissage non-supervisé, analyse n-dimensionnelle

    Détection de fraude temps-réel

    400k clients, évolution temporelle

    Client: Banque, Paris. Été-automne 2015, 3 mois.

     

    Projet. Détection de fraude au virement entrant. Le projet est détaillé ici.

     

    Technique. Machine learning, apprentissage supervisé, inférence bayesienne

All Posts
×