Formation Data Engineer
18 juillet 2022

L’École PMN explore aujourd’hui l’actualité de la Data et évoque ses nombreux avantages

Data Analytics, Smart Data, Data Science, DataOps, Open Data… La Data est partout et les start-up du domaine du Big Data ou de l’intelligence artificielle se multiplient. Retour sur son origine et son récent déploiement, illustrés par quelques exemples identifiés cette année.

Retour sur l’histoire de la Data

”In God we trust. All others must bring data.” (Nous ne pouvons croire qu’en Dieu, les autres doivent nous donner des preuves concrètes et chiffrées.) cette citation de W. Edwards Deming (statisticien, professeur d’université, auteur et consultant américain) remonte à 1986 mais reste d’actualité. Elle illustre l’importance de la science de la donnée dans le business devenue, ces dernières années, une discipline à part entière du secteur des Technologies de l’Information.

 

L’une des premières utilisations concrète de la Data date de 1801, quand Joseph Marie Jacquard l’exploite pour réaliser le premier métier à tisser automatique fonctionnant à base de cartes perforées. Il faudra cependant attendre 1936 pour voir apparaître la machine de Turing (sujet du film Imitation Game de Morten Tyldum) qui est à l’origine des ordinateurs que l’on connaît actuellement.

 

Aujourd’hui 90% des données qui circulent sur internet n’existaient pas il y a 2 ans, cela montre à quel point l’évolution a été exponentielle créant avec elle un nouveau paradigme s’appuyant sur la capacité à traiter rapidement des volumes multisources faramineux.

 

 

Le tour des innovations qui donnent espoir en la Data

La maintenance prédictive s’est généralisée, les industriels se sont structurés (création d’entités dédiées comme Safran Analytics), les usages se sont étendus de la maintenance (dans l’aéronautique notamment avec les entreprises Snecma et la startup Lokad pour ne citer qu’elles) aux réseaux sociaux pour mieux cerner les goûts des consommateurs, repérer et traiter des comportements indétectables jusque-là.

Concrètement, ce sont les objets connectés qui ont accéléré l’expansion de la Data en permettant d’aller plus loin que la simulation en laboratoire ou les campagnes d’essai des produits. Puisqu’étant reliés au quotidien des usagers, ils permettent d’analyser les produits dans le temps et les conditions réelle d’utilisation. À titre d’exemple, Snecma et PSA ont travaillé sur des problématiques de sécurité et de lutte contre la fraude, Michelin Solutions et CGI ont réussi à réduire la consommation de carburant de toute une flotte de camions et ont même pu se rémunérer sur les économies réalisées.

 

L’Open Data propose des éléments factuels en temps réel pour se déplacer (Waze, Citymapper…), pour connaître la météo (RainToday)… Pendant la pandémie, les données ouvertes permettaient aux collectivités locales d’informer leurs administrés sur les lieux de vaccination, les tests, et même, parfois, de créer du lien social avec les personnes isolées. Avec la crise économique, les applications permettent de comparer les prix de l’énergie, autant d’innovations utiles et d’informations faciles à lire pour le grand public qui les intègre dans son quotidien. Les entreprises privées et les institutions y ont aussi recours pour gérer et anticiper des problématiques à des échelles plus grandes.

 

Par ailleurs, de nombreuses technologies permettent d’aborder le développement d’industries dans une logique durable à condition d’être fondée sur une analyse fiable et une politique de récolte de données claire et de qualité. L’Intelligence Artificielle peut contribuer à la transition écologique dans l’optimisation des flux, la gestion (plus économe) de l’approvisionnement de carburant, la production… Une chaîne d’approvisionnement peut représenter jusqu’à 90% de l’impact environnemental d’une entreprise. Selon une étude de PwC, l’IA pourra potentiellement réduire jusqu’à 4% l’émission des gaz à effet de serre d’ici 2030*.

 

Mais l’innovation qui m’a certainement le plus marqué est celle de Cibiltech, un éditeur de solutions logicielles de santé prédictive. La start-up prévient les risques de perte des greffons, elle permet aux patients de vivre mieux, plus longtemps et (accessoirement) elle fait économiser à notre système de santé jusqu’à 80 milliards par an. Son constat : environ 4.000 greffes du rein sont pratiquées chaque année en France, mais au bout de dix ans la moitié des patients retourne en dialyse à la suite d’un rejet. Alexandre Loupy (44 ans, néphrologue AP-HP, Inserm, Université de Paris) a ainsi développé un algorithme qui permet de prédire le risque de rejet à 3, 5 ou 10 ans grâce à l’analyse de paramètres de suivi clinique et biologique post-transplantation. L’outil aide alors le médecin à anticiper et adapter les traitements. Cette start-up fait partie de la sélection « 100 start-up où investir en 2022” de Challenges.

 

La Data recherche des talents, une autre raison d’y croire

Tous les recruteurs s’accordent sur la pénurie de spécialistes de la Data (tant techniques que statistiques), les talents sont rares et très convoités mais l’enjeu pour nous, les professionnels de l’éducation, est plus large. Nous devons former dès aujourd’hui les leaders de demain, pour qu’ils comprennent et maîtrisent la Data quels que soient leurs domaines d’activités (la finance, le e-commerce, la distribution, la santé, le transport, la logistique…) et quels que soient leurs métiers.

 

Les compétences humaines sont indispensables pour faire parler toutes ces données. L’état investit massivement, les entreprises recomposent leurs équipes. 70% des grandes entreprises françaises envisagent de recruter des Data scientists dans les mois à venir**, elles se restructurent autour de la Data pour comprendre leur client, anticiper les besoins, créer de nouveaux produits et innover.

  • Les prérequis : une appétence pour la logique, l’analyse de données, les statistiques, un niveau Bac +2/+3 (ingénierie informatique, marketing, statistiques)
  • Les métiers qui existent aujourd’hui : le Data engineer conçoit, récolte et prépare l’analyse de données pour le Data scientist qui analyse les données de plusieurs sources pour avoir une vue plus globale, quand le Data analyst récupère, traite et dégage des observations pour orienter les prises de décision, le Dataminer optimise les données des clients de sa structure pour que les services puissent les utiliser, l’architecte Data gère les bases de données pour organiser et stocker les données, le Data protection officer s’assure que chaque traitement de données soit réalisé dans le respect de la loi.
  • Les principales technologies utilisées : Hadoop (Cloudera, Hortonworks), Spark, les bases NoSQL (MongoDB, Elastic Search, Kibana), les langages Python, Java, Scala, R, Le Machine Learning, les outils Tableau Software, Microsoft Power BI, SAS, Qlik, …

C’est plus que le moment de se lancer, Hu Data!

 

Frédéric ROUBY, Directeur de L’École PMN