Return to site

NewSpeak 4.0

De la #data et des techniques qui la rendent incompréhensible

Avant donc que d'écrire, apprenez à penser.
Selon que notre idée est plus ou moins obscure,
L'expression la suit, ou moins nette, ou plus pure.
Ce que l'on conçoit bien s'énonce clairement,
Et les mots pour le dire arrivent aisément.

 

Nicolas Boileau (1674, l'Art poétique)

Et il n'avait pas complètement tort.

Clarifions

Allez jeter un œil à la comm' officielle d'Altran, EY, CapGemini, Accenture [BigData2017] ... et autres. Ils ont donc tous le même générateur aléatoire de phrases ? «Le BigData, ou simplement la #data, c'est l'utilisation de méthodes avancées issues des statistiques, du machine learning et de l'intelligence artificielle, dans une approche data-driven focalisée sur les insights émergents de datasets massifs qui présentent souvent des problématiques de scaling non-linéaires». Magnifique. La route est encore longue et les buzzwords pullulent.

On pourrait aussi parler de nos champions parisiens Quantmetry, 55, Ekimetrics qui semblent prendre la direction classique des boites de conseil. Je n'en dirai rien, puisque je n'ai aucun retour sur eux, mais si même leurs sites web font ramer mon laptop....

Qu'y a-t-il derrière ces accumulations de mots ?

Simplement des bases de données, des outils, et des recettes pour répondre à des questions.

Les bases de données

Les données (data), ce sont des chiffres, des mots, des images.

Une base de données, c'est une façon de stocker des données, de les ranger de façon
structurée.

Les données sont le nerf de la guerre et la cause de toute l'effervescence des
dernières années autour du BigData, données massives. Pourquoi ? Plusieurs raisons:

  1. Tout le monde à conscience que les réseaux sociaux sont aujourd'hui omniprésents ; tout le monde a compris que Google, Amazon, Facebook, Apple et leurs équivalents chinois BATX (Baidu, Alibaba, Tencent, Xiaomi) tirent leur force économique de l'exploitation de ces données ; tout le monde se dit, donc, qu'on peut gagner ou perdre de l'argent avec la data. Elle est donc stratégique.
  2. Les bases de données des GAFA sont réellement énormes; elles remplissent littéralement des entrepots entiers de disques durs et de serveurs pour gérer le tout. Problème: multiplier le matériel, c'est multiplier les pannes. Second problème: synchroniser en temps-réel des data centers à NY, Shanghai et Londres, c'est coton. Il a fallu inventer de nouveaux outils.
  3. Exploiter une base de données, c'est relativement simple si elle est bien structurée. Exploiter de concert plusieurs bases de données moyennement propres et structurées différemment, c'est ardu. Voire passablement douloureux.
  4. Les bases de données, c'est de l'histoire. Même numérique, l'histoire, c'est parfois bordélique. Et hors de question de remettre ça à plat, car toute l'organisation informatique d'une entreprise repose sur l'exploitation de différentes bases de données : listes de clients, actions commerciales, emails internes, chiffres de ventes et que sais-je encore. Dur à automatiser totalement.
  5. Internet, les sites webs, les smartphones, les voitures connectées l'internet des machins (IoT, Internet of Things).

La conclusion est logique et imparable. Un joli mélange d'analyse pertinente, de grenouilles et de boeufs. Sentant souffler le vent des GAFA et de leurs énormes bases de données, les entreprises se demandent sérieusement ce qu'elles peuvent (ou doivent) faire de leurs données. Et comment. Et pourquoi.

Que faire de ces données?

Les lois économiques sont simples: manger ou être mangé, grossir ou disparaître, innover ou dépérir. La peur est un puissant moteur pour les individus comme pour les structures. Structures installées qui voient émerger des projets dynamiques, futurs géants pressentis, comme Uber, Airbnb, et tant d'autres, uniquement basés sur du numérique et, donc, des bases de données. S'en suit une vision très manichéenne du discours sur la #data : elle terrorise ceux qui ne la maîtrise pas, elle sauve ceux qui l'embrasse. Une vraie religion?

Ce qui n’empêche pas les besoins d’être réels et pertinents, évidemment: mais on ne me fera pas dévier de l'idée que toute cette énergie, tout ce foisonnement cache quelque chose de plus profond, de plus psychologique. La peur de se faire, et je vous présente mes excuses pour cet horreur langagière, «uberiser» [TheConversation]. Le chevelu dans son garage s'est embourgeoisé et lance des startups en Californie, mais il représente toujours le futur, l'innovation, l'inconnu.

Qui s'étonnera du discours sur l'innovation permanente, les datalab, l'esprit startup et autres intra-prises (...?), internalisations de structures agiles au seins des grands groupes?

Les outils

Nous avons donc des entreprises convaincues qu'elles sont en danger si elles n'exploitent pas leur bases de données. Sauf cas particuliers, ces bases n'ont pas mystérieusement enflé. Les besoins n'ont pas, non plus, fondamentalement changé. Mais les perceptions, oui, certainement.

Le marché est donc mûr pour sacrifier à des investissements importants, car stratégiques et touchant à l'innovation, autres mots clés des années 2010. Et la magie opère. Sauf cas très particuliers, qui existent, les démarches innovantes, voire disruptives, qui animent les entreprises peuvent se faire avec des outils classiques et des programmes (globalement) existants, sans avoir besoin de tout changer; et encore moins révolutionner. C'est moins sexy, certes.

Je ne vous apprendrai rien en notant que les comportements humains ne sont pas toujours logiques, et de nombreux vendeurs, conseillers, architectes logiciels etc. se réfugient derrière la difficulté technique et une certaine complexité conceptuelle pour sur-dimensionner les réponses, gonfler les factures, grossir les projets. La dynamique s'auto-entretient.

C'est ici qu'on parle de Hadoop, Map/Reduce, Spark, NoSQL.
C'est ici aussi qu'on parle de data scientist, de Chief Digital Officer, de Datalab.

C'est ici, enfin, qu'on aurait pu parler d'analytics, de business intelligence avancé, de
machine learning, d'intelligence artificielle. Voire de blockchain, pour les plus téméraires.

Je vous renvoie à ces billets précédents sur ces points:

Intelligence artificielle

Ca m'énerve d'avance, mais je vais tout de même en dire quelque mots.

Le machine learning, ou apprentissage automatique, c'est un domaine à mi-chemin entre les mathématiques et l'informatique, qui se propose de permettre à un ordinateur de tirer des connaissances en analysant de grandes quantités de données. Comme tous les domaines à la fois très techniques, franchement complexes et très à la mode, il est plus prudent de ne pas trop en parler.

L'intelligence artificielle, c'est un ensemble de problèmes non-résolus, parfois mal définis, et encore plus techniques. Les scientifiques ne sont pas tous d'accord sur les limites du domaine, c'est dire. Quitte à devoir en donner une définition, autant le faire promptement : c'est le domaine qui s'intéresse aux différentes façons de comprendre, modéliser et reproduire des comportements intelligents - en supposant que la notion d'intelligence soit définie, ce qu'elle n'est pas !

Ces deux termes, machine learning et intelligence artificielle, sont utilisés n'importe comment par des gens qui n'y comprennent rien, et souvent comme synonymes de mathématiques. Ce qui démontre encore une fois qu'il n'est pas nécessaire de comprendre quelque chose pour le vendre; ni pour l'acheter.

Et donc?

Développer des programmes pour analyser et traiter des données, ça n'a rien à voir avec les discours frénétiques sur la disruption digitale [Attali].

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly