Culture RP a rencontré Xavier Méhaut, Consultant indépendant en architecture logicielle web, BigData, ingénieur en informatique. Il a complété par la suite sa formation par un DEA en robotique et en imagerie industrielle, un mastère en génie logiciel et temps réel, puis dernièrement par un MBA en stratégie d’entreprise et en intelligence économique.
Quelle est votre définition de la Data Science ? La Data Science ou Science des données est «une nouvelle discipline qui s’appuie sur des outils mathématiques, de statistiques, d’informatique et de visualisation des données» dont le but premier est l’extraction de connaissances à partir de données brutes.
Science de données : les différentes disciplines
Utiliser les données brutes pour en extraire de l’information n’est pas une idée neuve ; le décisionnel (BI, Business Intelligence) via les DatawareHouse (entrepôts de données), le Data mining, les cubes multidimensionnels OLAP, et les outils de reporting le fait depuis des années.
Néanmoins, le décisionnel est généralement l’apanage des DSI, et est peu usité en dehors du contexte de l’entreprise. Il est à noter par ailleurs qu’il y a tout un spectre de données qui est aujourd’hui peu valorisé ; je citerai pêle-mêle le traitement des logs, des emails, des documents (words, PDF,..), l’analyse des sources de données extérieures (banques de données financières, météo, trafic, …), etc… Toutes ces sources de données rassemblées concourent à créer de l’information à plus forte valeur ajoutée que celle aujourd’hui traitée par le décisionnel.
La Data Science a pour terrain de jeu le monde entier et non seulement l’entreprise.
Elle a comme matière première non plus seulement les données structurées de l’entreprise, mais tout type de données et de toute provenance. L’avènement de techniques de traitement rapide de grands volumes de données à des coûts raisonnables a permis l’émergence de ce que l’on nomme aujourd’hui le BigData, c’est à dire le traitement en volume, en rapidité, et en diversité des données brutes, et a contribué à la mise sur le devant de la scène de la Data Science, discipline dont le fer de lance est aujourd’hui le Machine Learning, ou encore appelé l’apprentissage automatique. Le challenge auquel s’attaque le Machine Learning est d’extraire des corrélations entre des informations de structure, de provenance et de granularités différentes. Pour ce faire, l’apprentissage automatique utilise tout un arsenal mathématique (statistiques, probabilités, espaces vectoriels, …) pour étudier de manière systématique et exhaustive les données, et non plus procéder par échantillonnage statistique comme par le passé.
La promesse faire par le Machine Learning est de pouvoir prédire des évènements à partir de données hétérogènes, de permettre la catégorisation (clustering) automatique de population de données, de réduire la complexité inhérente à la manipulation d’un grand nombre de paramètres simultanés, etc…
La Data Science regroupe en son sein in fine diverses notions, pour certaines bien vulgarisées, comme le BigData, le Machine Learning, le Dataviz, mais aussi des champs d’application plus récents comme l’Internet des Objets (IoT).
Un vaste champ d’investigation en vérité, une révolution non plus en devenir mais en cours.
Quels parallèles peut-on faire entre les métiers de Consultant en Intelligence Economique et le Data Scientist?
Ce qui distingue réellement ces deux disciplines, c’est leur finalité ; l’IE vise l’amélioration de la compétitivité de l’entreprise en apportant au décideur de l’information stratégique à forte valeur ajoutée. La Data Science est quant à elle par nature agnostique ; son unique objectif est d’enrichir les données primaires puis de les analyser pour en faire émerger de nouvelles informations. Il est à souligner par ailleurs que l’IE telle qu’elle est pratiquée actuellement traite l’information de manière « manuelle » et humaine, par conséquent subjective, quand la data science se veut automatisée et exhaustive ; la part de subjectivité reste néanmoins importante, puisque la mise en histoire des données nouvellement générées, dernière étape du processus d’ingénierie des données, reste du domaine de l’humain.
En quoi cette nouvelle profession de Data Scientist sert-elle le domaine de l’Intelligence Economique?
Si l’on considère acquis que l’intelligence économique n’est qu’une finalité à atteindre, la pratique de l’IE consiste en la mise en œuvre d’instruments d’une boite à outil riche et large dans le but de trouver, manipuler, analyser, présenter de l’information. La Data Science utilisée à des fins d’IE se focalise sur le traitement des Data, données par nature plus basiques. Elle n’est qu’un outil comme un autre dans la boite à outils, mais un outil complexe et de plus en plus incontournable.
Le graphique ci-dessus montre que l’IE s’appuie sur la Data Science pour tout ce qui est traitement des Data. La Data Science appliquée à l’IE peut aussi être appelée Intelligence des données, ou Data Intelligence, c’est à dire la Data Science a finalité économique.
En quoi la Data Intelligence fait-elle évoluer les métiers de l’Intelligence Economique ?
La prochaine étape du processus d’’industrialisation du métier de consultant d’IE sera d’appréhender les techniques mises en œuvre dans l’ingénierie des données afin d’être en mesure de mettre en œuvre et de piloter de vrais projets complexes d’ingénierie des données à visée économique, par exemple données financières, historiques, sociales, etc…
Pour ce faire, le consultant en IE orienté Data devra maîtriser les notions et techniques du domaine afin de pouvoir piloter des spécialistes en Data Science.
Il me semble que l’IE est à la croisée des chemins ; elle se doit de prendre le train des données au risque de se voir cantonnée à la recherche d’information humaine qui, si elle demeure de haute valeur informationnelle et donc nécessaire, reste un domaine de niche incapable d’absorber le nombre croissant de consultants sortant des écoles de formation en IE. Si l’IE prend de manière volontaire ce chemin exigeant, cela aura sans aucun doute un impact sur la typologie des profils suivant ces cursus, ainsi que sur le contenu de ces formations ; des connaissances informatiques et mathématiques avancées seront nécessaires. Peut-être est-il temps d’envisager des qualifications double-compétences IE/écoles d’ingénieur pour les consultants en IE se destinant à la Data Intelligence.
Exemples d’enjeux métier du Data Scientist :
– Détection de fraude ou identification de réseaux relationnels via analyse de graphes
– Analyse de profil d’une personne via le deeplearning
– Prédiction financière via le machine learning
– Analyse de similarité de brevets ou de plagiat via le text mining
– Détection d’intrusion informatique ou d’espionnage par analyse de comportement automatique
– Agrégation et visualisation comparative des données concurrentielles
– Sourcing automatique de données sur le web (web crawlers sémantiques)
– Récupération automatisée de données sur des sites web concurrents (web scrapping)
– Agrégation et analyse de flux de données quotidiens en grand nombre
Yara Khallouf, Consultante – L’Argus de la presse/ Pôle Market Intelligence