Aller au contenu

Modéliser la data avec le DataLab

Pour porter ses ambitions de Data Company, SNCF met en œuvre plusieurs outils et projets pour garantir la qualité et la valorisation de la data. Malgré leurs modèles “data” parfois divergents, ces projets demandent une solide gouvernance pour soutenir les objectifs d’efficience des process. Illustration avec deux plateformes visant à organiser la donnée pour la rendre qualifiée et accessible. Aujourd’hui, découvrez comment fonctionne le DataLab et quels enjeux porte cet outil.

Publié le

Par La Redaction

cover_data_lab

Pour asseoir une stratégie data, les données doivent être exploitées, afin de pouvoir en tirer toute la valeur attendue. Dans ce contexte, la problématique de leur qualité se pose de manière cruciale : c’est l’un des enjeux de la data gouvernance. À côté de la qualité de la donnée, la gouvernance doit également permettre à tous les acteurs de prendre conscience du potentiel que porte la data en tant qu’asset. Le DataLab Réseau participe à cette démarche essentielle pour le devenir de SNCF en tant que Data Company.

DataLab, un “labo” pour visualiser le potentiel de la data

Le DataLab est une plateforme spécifique d’accès à la donnée pour l’ensemble des agents de SNCF Réseau. Pour valoriser son actif “donnée”, plusieurs démarches ont été lancées, comme la charte data, dont l’un des axes est l’ouverture de la donnée. “_Elle a de la valeur si elle est accessible et utilisée. Pour cela, elle doit être qualifiée, cartographiée, sécurisée. Ensuite, il faut donner accès au plus grand nombre. Le DataLab est un vecteur de partage de ces données, ce qu’on nomme le share-data_”, détaille Samuel Descroix, chef de projet DataLab. Tout agent peut se connecter au DataLab et, via son moteur de recherche, accéder aux jeux de données, les “datasets”. La création de valeur provient de la manipulation, de l’information par les agents. Qualification et accessibilité sont, là encore, au cœur des enjeux de gouvernance. La plateforme offre également des glossaires métiers : dans cette démarche d’urbanisation du SI SNCF Réseau, chaque métier définit les objets qu’il manipule (incident, circulation, projet…) au sens global de l’entreprise, ce que l’on appelle aussi vision systémique. “_Avant, chaque métier avait sa vision de l’objet, Ariane a pour vocation de mettre tout le monde d’accord_”, précise Samuel Descroix. Une fois l’objet métier défini, il est récupéré par des gisements de données, les datalake intelligents de Réseau.  “_On vient lire et écrire dans un pot commun où l’objet a été modélisé une seule fois, pour toute l’entreprise_”. Toutes les données sont réparties par filières, pilotées et managées par un responsable de filière, côté métier.

Des data rooms pour “apprivoiser” la donnée

Un autre des enjeux de la gouvernance, comme le rappelait Julien Iris lors du Data Day en novembre, est de faire prendre conscience à l’ensemble des agents que la data est un actif. Dans cette optique, les data rooms du DataLab permettent de manipuler la donnée et de visualiser ce qu’il est possible d’en faire. Toute personne peut créer un environnement, autour d’un sujet ou cas d’usage. Une fois les données nécessaires, les algorithmes, les représentations visuelles, la documentation utile référencée, le résultat peut être consulté par tous les agents. Cela favorise les regards croisés sur l’usage que l’on peut faire de la donnée. Cette fonctionnalité participe à l’innovation, mais aussi à acculturation des agents sur les valorisations possibles de la data.

datalabv3
datalav4

Et demain… accès direct à la donnée et ouverture aux Régions

Le Lab est opérationnel depuis un an, compilant à présent plus de 350 datasets. Dès que le Data Office travaille un nouveau périmètre, les équipes alimentent le Lab. “_On travaille avec les équipes_ _e-SNCF_ _car on voudrait, demain, rendre accessible la donnée directement depuis les SI. Pour le moment, elle est recopiée dans le système, nous avons procédé ainsi pour initier le projet, sans attendre d’avoir toute la techno prête_”, relate Samuel Descroix. L’accessibilité directe est l’un des chantiers de 2019. L’autre concerne l’ouverture à l’extérieur, avec des datarooms spécifiques aux Régions.

Recommandé pour vous