Billet posté initialement sur la plateforme Medium où vous pourrez partager et commenter.

Je vais encore passer pour un râleur hautain.
Je n’y peux rien.
Il suffit de lire et de savoir de quoi on parle

J’ai fait un tour sur indeed, ce matin, pour jeter un coup d’oeil aux offres d’emploi concernant les data scientists.

Vous commencez à connaître un peu le ton de ces billets, et vous vous doutez bien que ce ne sont pas les offres sérieuses et, à mes yeux, cohérentes, dont je vais vous parler. Il y en a, oui. Heureusement. Un gros quart semble avoir été écrit par quelqu’un qui n’avait pas une méconnaissance trop totale du domaine : la data science, ou science des données, option données massives.

On trouve donc des choses intéressantes, quelque part entre le pur délire et l’invention la plus scandaleuse. Peut-être est-ce classique sur des sujets techniques, je ne sais pas. Je devrais le faire plus souvent, ne serait-ce que pour mieux appréhender l’éco-système qui tourne autour du truc, et suivre la mode.

Je tiens à dire que je n’ai pas exagéré. Juste lu les 15 premières offres, hors stages. Et recopié. Je vais donc lister ce qui m’a fait tiquer, avant de vous livrer les réflexions qui me sont venues.

De quoi parlez-vous ?

Premier point: sérieux, les gars, si vous voulez embaucher quelqu’un sur un poste technique, renseignez-vous un minimum sur les compétences demandées. Une banque qui cherche un data scientist issu d’une grande école d’ingénieur type top-K (K petit) avec 2–3 ans d’expérience et sachant développer en SAS, R et Python, c’est juste une perte de temps.

Vous n’en trouverez pas.

Déjà parce qu’à moins que les programmes aient changé radicalement, on n’apprend pas à coder quand on est à Centrale ou aux Mines. Oubliez les X à tout jamais. Ainsi que les normaliens, mais c’est une autre histoire. On apprend peut-être à écrire un peu plus qu’un “Hello word” en JAVA/C++, mais un projet un tant soit peu réel, non. Sauf, évidemment, pour les 3–5% de chaque promotion qui se spécialise en informatique/IT. Auquel cas on augmente, en effet, les chances d’avoir affaire à du développeur à peu près sérieux. Qui, donc, ne s’abaissera probablement pas à toucher à des pseudo-langages comme du R ou du SAS [*].

Ah oui, il faut aussi absolument connaître les produits financiers. Laissez tomber, définitivement, ça ne marchera pas. Rédigée ainsi, votre offre est ridicule, revoyez vos exigences.

Oubliez MS Excel

C’est une calculatrice qui est limitée à 1.048.576 de lignes.

Ce qui est déjà pas mal, avouons-le. On peut faire des choses sympas avec. Au temps où 640kB de mémoire vive était un maximum ("640kB ought to be enough for anybody", aurait dit Bill Gates), c'était même de la science-fiction la plus folle.

Si on raisonne en terme de rhinocéros, 1048576 de lignes, ça peut paraître beaucoup; surtout s’ils ont déjà du maintenir du Visual Basic (VBA), auquel cas ils vous chargeront sans le moindre remords. Dans tous les autres cas, c’est largement insuffisant. Pour information, la plus petite base sur laquelle j’ai travaillé était un historique de ventes de billets, et comptait 3.5M de lignes.

Les offres, donc, qui pour tout bagage technique demandent “Microsoft Office, Excel (utilisateur expert), Access et VBA”, voire Microsoft Dynamics, se trompent de trottoir. On peut, à la rigueur, parler de Business Intelligence (BI), l’autre nom des statistiques à visée opérationnelle, mais je n’irai pas plus loin. Ne serait-ce qu’en terme de manipulation de données, il faut au moins la puissance d’une base de donnée couplée à des routines de calculs efficaces. Ce n’est juste pas le bon outil.

Les écoles d’ingénieurs ne forment pas de data scientists

Elles forment des jeunes qui savent apprendre et réfléchir, vite et bien dans les deux cas. Elles forment des jeunes qui sauront s’adapter aux outils techniques, qui ont suffisamment de bases en logique et en maths pour s’attaquer à l’algorithmie et aux concepts du machine learning. Elles forment des jeunes qui savent qu’ils devront se former sur le tas.

Et y passer du temps, forcément. On n’y coupe pas, en informatique, en algorithmie, en maths. “Qui ne se trompe ni ne piétine n’apprend pas, il survole”, comme Racine ou Chateaubriand l’ont, à coup sûr, mieux dit que moi.

Vous cherchez des juniors, vous aurez des juniors. Si votre problème est simple et que vous avez fait une bonne pioche, ils sauront le résoudre. Sinon, vous perdrez du temps.

Pourquoi ? Je vais vous aider.

Parce que dans data scientist, il y a data et scientist. Si on parle bien du même métier, voilà ce que ça veut dire :

  • data: les outils sont techniques, complexes, exigeants, demandent de la pratique et sont nécessairement du sur-mesure.
  • scientist: la formation d’un scientifique, c’est une thèse de 3 ans, et au minimum deux années de post-doc.

On peut trouver des p’tits gars futés, rapides etc. Mais ils ne seront ni scientifiques, ni experts, et encore moins aptes à résoudre des problématiques qu’ils découvrent avec des outils qu’ils ne maîtrisent pas. Et modéliser un comportement client pour prédire des tentatives de fraude à l’aide de classeurs bayésiens en cascade, ou encore explorer un graphe d’un million de points à la recherche de cycles hamiltoniens ne sont pas des tâches qu’on apprend à résoudre en formation initiale.

Choisir, c’est renoncer

Les jeunes diplômés embauchés chez Cap Gemini ont un niveau stratosphérique. Ils doivent maîtriser cet “environnement technique” hallucinant :

  • R, Python, Scala, Java, SAS
  • Spark, Hive, Pig
  • Base de données : SQL, NoSQL

Je vais vous expliquer pourquoi c’est idiot.

Scala est un langage de programmation plutôt confidentiel qui se prête bien aux traitements parallèles demandés par Hadoop et Spark, car fonctionnel ; il est à la mode. Pourquoi pas. Demander sa maîtrise, ainsi que celle de quatre autres langages (ou pseudo-), c’est chercher le Père Noël. Peut-être un gars de l’EPITA, ou d’une école d’informatique; mais il est très peu probable qu’ils parlent le R et le SAS, auquel cas ; cf plus haut. Un gars qui aurait suivi les options “frameworks de calculs distribués” et “traitement massif de données”, pour maîtriser les outils de la fondation Apache que sont Spark (2014 … !), un framework de calcul distribué in-memory, Hive (2009), infrastructure de données à la SQL, et Pig (2007), plate-forme d’écriture de traitement Hadoop. Le tout saupoudré de SQL, l’archétype de la base de données classique et noSQL — not only SQL -, une vaste classe de bases de donnée qui ne sont pas du SQL et qui compte neuf grands paradigmes et des dizaines de bases différentes.

C’est comme si on demandait à un jeune de 25 ans de parler couramment cinq langues tout en étant, expert en politique intérieure indienne, spécialiste de l’histoire prussienne du XIVeme siècle ; qu’il saura retranscrire intégralement en alexandrins. Dur.

Certains suggèrent qu’être à l’aise avec Hortonworks serait bien vu. La boite a à peine 5 ans, lève régulièrement de l’argent pour se financer et la bêta de sa data platform est sortie sous MS Windows en 2013. Il faut donc être à l’aise avec ça en sortie d’école.

Pourquoi pas.

Je vous avais dit qu’on était sur du n’importe quoi.

L’apothéose

Mon annonce préférée.

Il a fallu aller la chercher sur le site “carrière” d’une boite de transformation digitale a priori sérieuse. Hum. Il cherchent donc “un statisticien ou mathématicien passionné par l’informatique, qui sait concevoir, construire et tester des moteurs de machine learning à partir [de] problématiques métier et des données brutes”. Pour être un peu plus spécifique, il faudra aussi être “un champion de Kaggle, un passionné de Coursera” et participer (!) à des “meetups de machine learning”.
 

Puisqu’on parle d’un “consultant senior”, il aura entre 3 à 5 ans d’expérience répartis ainsi :

  • un an d’expérience avec la stack Hadoop, ie Flume, HBase, Pig, Hive, Sqoop et/ou la base Apache Cassandra;
  • un an d’expérience sur la configuration, la gestion, le monitoring, le debugging, le benchmarking, l’administration et la performance d’Hadoop et/ou Cassandra;
  • la maitrise de Hadoop Distributed File System (HDFS), des bases de donnée non-relationnelles noSQL, d’autres trucs plus ou moins spécifiques en bases de données relationnelles et multi-dimensionnelles (SQL, MDX for Oracle, MS SQL Server or IBM DB2);
    - la connaissance de VBA.

Ah oui. Si, en plus d’être un cador assez ultime pour valider les points ci-dessus, à 25–28 ans, vous maîtrisez des services de “Cloud computing style Elastic MapReduce (sic), Amazon Web Services EC2, Cloudera, Hortonworks” etc vous aurez peut-etre la chance de pouvoir toucher 3000e/mois dans cette boite de conseil.

Ce genre de profils n’existe pas. Tout simplement. Et s’il existait, ce guru aurait 40 ans et serait déjà embauché chez Google ou IBM.

Ces gens ne peuvent pas être sérieux.

Les Tontons Flingueurs prient pour le salut de certains services RH

Et donc

Pas la peine de faire leur procès aux mots. Ils ne sont pas plus creux que ce qu’ils charrient — évidemment, Samuel.

J’espère ne pas être trop naïf. Je suppose que lorsqu’on laisse les RH recruter des gens sur des problématiques techniques, ce genre d’inepties peut apparaître. Peut-être suis-je déconnecté de la réalité du terrain et je vis dans mon petit bocal depuis deux ans. Peut-être toutes les annonces techniques sont forcément aberrantes.

Ou peut-être pas.

Ce qui me parait clair, au vu de ces quelques offres, c’est que le marché n’est pas encore prêt. J’ai l’impression de voir des demande vagues, avec un saupoudrage de mot-clés grappillés sur le net ou lors de la lecture de différents articles plus ou moins techniques, plus ou moins accessibles. Ce qui transparaît, c’est que les plate-formes intégrées basées sur les moteurs Hadoop et Spark (traitement distribué et parallèle) sont mises en avant, avec les infrastructures de stockage de données correspondantes. Ce qui laisse supposer qu’il ne sera pas utile d’être réellement performant sur les traitements, puisqu’il sera facile de rajouter des noeuds de calculs. L’empilement de toutes ces couches logicielles sent fort la construction d’usines à gaz peu maintenables, hors de prix et peu évolutives.

J’ai du mal à trouver ça pertinent.

[*] : Je vais faire hurler les R-addicts, mais tant pis. Il faut que quelqu’un vous le dise, et j’ai bien l’impression que personne n’ose ... R, sérieux. Les mecs de bio et les médecins s’en servent, et ça ne vous a pas mis la puce à l’oreille ? Et puisque je parle de pseudo-langage, j’avoue m’être longtemps fourvoyé avec Matlab.

All Posts
×

Almost done…

We just sent you an email. Please click the link in the email to confirm your subscription!

OKSubscriptions powered by Strikingly