Return to site

#BigData - état des lieux (Mars '17)

OceanData a fait un tour rapide au salon BigData 2017 de Paris, les 6-7 Mars derniers.

Et jusqu'à preuve du contraire, OceanData.io c'est moi. Donc j'ai laissé ma Provence un après-midi et je monté voir s'il faisait beau dans le métro. J'en ai tiré un tour d'horizon violemment personnel du sujet, ainsi que quelques remarques frappantes. Qui m'ont frappé. Le thème du salon était, je le souligne, le BigData ; ce qui semblait impliquer une certaine dose d'algorithmie, de machine learning et, peut-être, de bases noSQL. Ou pas.

Aparté: je cherche un stagiaire en info, assez geek si possible. Le sujet est vague mais précis. Contactez-moi ou faites tourner s'il vous plaît..

Le marché de la (Big)(D|d)ata, très schématiquement, est composé de quatre types d'acteurs. Et de ceux que j'ai oublié.

Les éditeurs de softs spécialisés (A)

Ils éditent des outils d'analyses ou plateformes à des directions métiers qui s'en serviront, principalement, pour doper leurs ventes ou accroître leurs marges. Ou qui feront semblant. Les data scientists, s'il y en a, sont les 2-3 profils techniques qui écrivent le module du soft orienté data, module que ne savent pas (ou ne veulent pas) écrire les devs classiques. Il y a un gros sujet sur l'intégration de ces outils dans l'écosystème client, avec peut-être, sûrement même, un besoin de profils techniques. J'inclus dans cette catégorie les outils, plateformes de visualisation ou autres dashboards type BI,décisionnel ou analytics - c'est visiblement la même chose, au flou artistique près - en SaaS/PaaS.

Le conseil classique (B)

La version qui ne développe pas vraiment. Je fais probablement une fixation puisque que je les vois partout. Ils se proposent d'encadrer et de gérer des projets IT où l'accent est mis sur les bases de données. Le message joue à fond la carte de l'innovation et de la rupture, essayant de convaincre que la taille des bases de données est telle qu'il faut de nouvelles méthodes et de nouveaux outils. Technique commerciale à la Apple, "this is a revolution". Les data scientists sont, au mieux, les juniors classiquement embauchés dans ces boites de conseil, qui ont une approche maths appli, chargés de faire un peu de BI maquillé en "BigData", du prototypage (au mieux) pour justifier leur étiquetage "machine learning" ou les crédits d'impôts ou qui peuvent préconiser l'utilisation des softs vendus par les éditeurs (A). Pourquoi pas. Il est primordial que les vendeurs ou managers aient assez bien compris les problématiques pour être pertinents sur leurs recommandations.

Le conseil spécialisé (C)

La version qui développe. Structures rares, ou alors qui ne s'affichaient pas au salon cette année, ni l'an dernier. Leur activité est de proposer du développement sur-mesure, en mode prestations pures voire datalab externalisé. Ces structures ont besoin de véritables équipes de développeurs, dont des profils techniques en data. Elles doivent donc intégrer des scientifiques spécialisés en mathématiques, physique, informatique dans des équipes projets IT classiques. La difficulté est de quantifier le risque pris sur les prototypages et d'assurer des retours conséquents pour le client. Je me demande d'ailleurs comment les potentiels clients arrivent à distinguer ce type de conseil du conseil classique (B). Il y a aussi un sujet sur l'intégration et l'utilisation des outils chez le client (cf A).

Les plateformes d'intermédiation (D)

Ce sont des plateformes de mise en relation centrées sur la donnée ou sa valorisation. Elles ne proposent pas forcément de services en analytics ou predictif et se concentrent sur un role d'intermédiaire entre différents acteurs. Ce besoin est émergent et recouvre toutes les problématiques de valorisation des données hors du contexte métier du client. Le cas typique est celui de La Poste ou de la SNCF, qui ont accès à beaucoup de données
personnelles. Ces lieux de rencontres virtuels, ou bourses data, vont apparaitre et, en proposant des mises en relation entre datalab très spécialisés et problématiques clients, permettront de construire et fédérer un écosystème.

Ceux que j'ai oublié (E)

Hein?

Et l'innovation?

Les acteurs A et B sont standardisants et standardisés. Avoir les mêmes armes que son adversaire ne donne aucun avantage comparatif: l'innovation réelle, non cadrée, qui affronte le risque inhérent au brouillard conceptuel qui la voit naître, est portée par les acteurs C, D et E. Je ne me fais aucun souci pour eux, tant qu'ils concentrent leur énergie sur l'innovation et le développement - et pas sur la communication. Le risque est cependant grand de voir tout le discours sur l'innovation confisqué par les acteurs classiques, trompant ainsi leurs clients habituels (les grands comptes). Mais pour être dupé, il faut être deux... soit résolu de ne plus servir, et te voilà libre (Etienne de la B.).

Vous me trouvez violent? Alors vous serez choqué par ce que clame un des papes de l'informatique contemporaine, Linus Torvalds: "The innovation the industry talks about so much is bullshit [...]. Anybody can innovate. Don't do this big 'think different'... screw that. It's meaningless. Ninety-nine per cent of it is get the work done." (Open Source Leadership Summit, California, USA - Fevrier 2017). Et Richard Stallman ? "If the users don't control the program, the program controls the users" (2013).

Et quand le leader du noyau Linux parle, les développeurs lâchent leur clavier.

Schizophrènie

Le monde de la data est schizophrène. Les opérationnels (business, décisionnaires) ont besoin d'utiliser des données dont l'accès, l'exploitation, voire la production ! sont problématiques, pour des raisons techniques. Il y a donc un déséquilibre. Cette situation ne peut pas durer, car le marché de l'exploitation de la donnée est phénoménal. La logique économique veut donc que des acteurs majeurs éclosent.

La solution la plus naturelle pourrait provenir de l'infrastructure: une entreprise qui a déjà basculé ses données dans le Cloud (chez un GAFA/BATX ou autre) aura tendance à utiliser les outils proposés par l'hébergeur. J'en parlerai dans le prochain billet.

Bref.

Un salon intéressant.

Je n'ai vu aucune des conférences, malheureusement, j'avais TGV puis piscine.

Quelques remarques en vrac

  • j'ai cherché, longtemps en vain, les cheveux longs, les looks improbables et les chemises à carreaux ...
  • ... les data scientists ne sont pas la cible de ce salon;
  • on sent que des X sont passés par là: toutes les étapes d'un projet data ont été analysées, digérées et conceptualisée: des offres spécialisées apparaissent sur chacune d'elle;
  • des gens sérieux vendent des outils de développement et d'analyses parfois (souvent) complexes à d'autres gens sérieux ... alors que ni les uns, ni les autres ne s'en serviront;
  • je n'ai d'ailleurs vu aucune offre de services ou de produits qui aurait pu, même de loin, ne pas m'être totalement inutile dans mon activité de dev;
  • je serai absolument incapable de choisir telle plateforme ou outil plutôt que tel autre: comment font les autres?;
  • si j'étais DSI d'une grande entreprises, je serai terrorisé par l'idée de choisir une plateforme et d'y verser toutes mes données;
  • j'apprécie beaucoup l'effort des commerciaux ou communicants qui me vantent les mérites de leur solution d'ETL, ou d'analyse prédictive générique, surtout après m'avoir demandé quel était mon métier !

I want to get my work done. Pretty is not my primary thing.- Linus Torvalds

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly