Aller au contenu

DATA SCIENCE & DATA ENGINEERING : DE QUOI PARLE-T-ON ?

Si le Big Data et l’Intelligence Artificielle (IA) font aujourd’hui l’objet d’une médiatisation intense, il n’est pas toujours aisé de comprendre les opportunités offertes par ces technologies.

À travers une série de publications, nous vous proposons de mieux les comprendre, en présentant les projets et activités menés pour les métiers et DSI du Groupe SNCF.

Pour ce premier article, nous présenterons nos métiers de Data Scientists et Data Engineers.

Publié le

Par La Redaction

Des métiers vitaux pour l’innovation numérique

Nous travaillons au sein de la Direction Data & IoT de e.SNCF, qui regroupe les expertises nécessaires au traitement des problématiques métiers liées à la donnée, notamment le nôtre, le centre d’expertise Data Science & Engineering.

Au quotidien, nous contribuons aux innovations liées aux usages des données, en apportant notre expertise sur des projets très opérationnels autour de la performance industrielle, de la sécurité et des services de mobilités. Notre mission principale est de répondre à des problématiques métier en construisant des applications logicielles traitant des données pour produire des indicateurs, des prédictions ou des informations pour la prise de décision, ou encore des visualisations de données.

(Internet of Things)

De l’analyse des besoins métier avec le Data Scientist …

Un Data Scientist a une formation scientifique, avec une composante statistique importante et un esprit analytique fort. Formé à la programmation informatique des traitements de données, il connaît particulièrement bien les librairies et outils liés aux statistiques, au Machine Learning et à la visualisation de données.

La mission du Data Scientist est d’analyser une problématique métier dans son intégralité : quel est le problème à résoudre et quelles sont les données qui permettent de mieux le quantifier, l’expliquer, le prévoir, voire même de prescrire une solution.

La première étape est d’interroger le métier. Cela permet au Data Scientist d’identifier et comprendre les données dont il dispose, les pratiques quotidiennes auxquelles il est confronté et l’usage des résultats escomptés. Cette démarche est indispensable pour déterminer l’approche scientifique et technique, comme les choix algorithmiques qui s’adapteront le mieux à chaque situation.

La seconde étape est de déterminer avec le métier si les données identifiées sont exploitables. On parle alors de « robustesse ou de qualité des données ». Si elles sont inexploitables, d’autres sources de données peuvent être proposées au métier.

Une fois celles-ci validées, le Data Scientist et le métier déroulent les étapes de traitement des données qui sont :

des premières analyses pour valider la bonne compréhension du lien entre données et processus métier ;

    des analyses plus poussées, de façon incrémentale, pour prendre en compte tous les cas possibles et fournir un premier niveau de réponse simple à la problématique métier ;

  • un choix, un test et une implémentation d’algorithmes plus complexes (d’Intelligence Artificielle ou de Machine Learning, par exemple), pour répondre de façon performante à la problématique métier

La dernière étape est la plus importante. Il s’agit d’une phase de recette métier, permettant de valider l’approche algorithmique d’un point de vue terrain, dans des conditions les plus proches possible du contexte opérationnel.

Tout au long du projet, les échanges avec le métier sont indispensables pour rester en phase avec l’usage terrain. Idéalement, une fonctionnalité minimaliste est mise en production, afin d’impliquer les utilisateurs finaux et intégrer leurs retours le plus tôt possible dans le projet.

Enfin, le Data Scientist va produire des indicateurs et des visualisations de données, afin de restituer de manière intelligible les analyses statistiques et les résultats des algorithmes au métier ainsi qu’aux utilisateurs finaux.

… à la programmation des données avec le Data Engineer

Le Data Engineer a une formation en informatique, avec une très forte composante liée à la programmation et technologies de stockage, de traitement et de modélisation des données. Scala, Python et Java sont généralement ses langages de prédilection, et le Cloud est très souvent son environnement préféré.

Le Data Engineer doit :

porter une “vision système” pour créer une véritable application logicielle. Cette mission suppose des notions solides en matière de conception logicielle, d’architecture applicative et de sécurité ; maîtriser des technologies sous-jacentes comme les clusters Big Data ou les différents types de bases de données ; maîtriser la structure technique des données, comprendre les résultats à produire et leur usage final.

Son quotidien est rythmé par la création de Data pipelines*, un ensemble de modules permettant d’intégrer et d’automatiser une succession de traitements de données s’exécutant sans accroc, en utilisant souvent plusieurs technologies pour une même application.

Le Data Engineer est également en lien direct avec les équipes en charge de la mise en place des infrastructures techniques, et s’assure de leur bon fonctionnement. Grâce à ses compétences en matière d’analyse, de statistiques et de Machine Learning/Intelligence Artificielle, il peut anticiper les besoins et les problèmes techniques, et assurer une bonne mise en production.

Data Science et Data Engineering, deux métiers indissociables

Le Data Scientist explique les besoins en traitement de données, quand le Data Engineer choisit les bonnes technologies, conçoit le design de l’application puis crée le Data pipeline et les modules applicatifs. Pour mener à bien un projet Data et répondre pleinement au besoin métier, la combinaison de ces deux expertises est donc systématique. Sur des projets d’industrialisation, on compte un Data Scientist pour deux à trois Data Engineers.

RDV dans 2 mois pour découvrir des cas d’usages concrets et des projets actuellement menés par la Direction Data & IoT !

À propos de l'auteur de cet article

Après des études en physiques et en géologie à l’Université de Strasbourg, Héloïse Nonne effectue une thèse en physique quantique à Cergy Pontoise. Elle dirige désormais les activités de data sciences à la Direction Data IoT chez e.SNCF.

Recommandé pour vous