Aller au contenu

Analyser le Big Data grâce au Data Lake

Pour porter ses ambitions de « Data Company », SNCF met en œuvre plusieurs outils et projets pour garantir la qualité et la valorisation de la donnée. Malgré leurs modèles “data” parfois divergents, ces projets demandent une solide gouvernance pour soutenir les objectifs d’efficience des process. Illustration avec deux plateformes visant à organiser la donnée pour la rendre qualifiée et accessible. Aujourd’hui, découvrez comment fonctionne le Data Lake et les enjeux que porte cet outil.

Publié le

Par La Redaction

cover_datalake

Pour asseoir une stratégie data, les données doivent être exploitées afin de pouvoir en tirer toute la valeur attendue. Dans ce contexte, la problématique de leur qualité se pose de manière cruciale : c’est ce que vise la data gouvernance. Les outils et processus de gouvernance de données répondent également à un enjeu de mise en conformité réglementaire pour le RGPD, mais aussi dans le cadre de la réforme ferroviaire et l’ouverture à la concurrence.

Avec le Data Lake, SNCF regroupe toutes ses données brutes afin de permettre aux data scientists ou responsables métier de venir y puiser des informations pour leurs projets. La gouvernance permet de structurer les flux pour garantir la qualité des données dans le _lake_.

Le Data Lake, un gisement de données au service du Big Data

Le Data Lake est un espace de stockage global d’informations regroupant des données brutes historisées, provenant de sources applicatives et  des données transformées et enrichies pour chaque projet métier / SI à partir des puits de données (intra et inter-EPICs). L’absence de schéma strict imposé aux flux de données entrants permet d’intégrer toutes les données, quelle que soit leur nature et leur origine.

Hébergé et opéré par la Fab Big Data, le Data Lake de SNCF se trouve sur une plateforme créée sur Azure. Sur ce gisement, on retrouve différentes données venant des SI SNCF, de partenaires extérieurs et de capteurs voies ou trains. “_Il a fallu dans un premier temps urbaniser le stockage pour que chaque EPIC ou direction puisse avoir son endroit où stocker ses données. Ensuite, sur ce Lake, on peut travailler selon des cas d’usages où la data science se fait en croisant les différentes données_”, explique Sébastien Grenier-Fontaine, chef de projet Gouvernance Data pour la Fab Big Data.

Au-delà du stockage, l’un des enjeux du Data Lake est de traiter et transformer l’information, afin d’accélérer les cycles d’innovation, de gagner en agilité et ainsi, être un support aux initiatives data. Mettre en place une cartographie et des outils pour comprendre ce qui est déversé s’avère alors primordial, et c’est tout l’enjeu de la gouvernance.

 

Sébastien Grenier-Fontaine, collaborateur externe de Rhapsodies Conseil, a contribué à l’organisation de cette gouvernance et à l’identification des besoins prioritaires pour créer un outil permettant de cataloguer les différentes données disponibles. “_Il fallait mettre en place des processus pour que les responsables métier souhaitant créer des cas d’usage puissent demander des accès aux responsables de données, pour faire leurs études_”, détaille le chef de projet.

Qualifier et sécuriser la data

L’offre de service du Lake se compose de deux outils : un Data catalogue sur Collibra et un outil de data protection, en lien avec les dispositions du RGPD, porté par la solution Dataguise.

Sur le volet protection des données, Dataguise détecte et alerte sur d’éventuelles anomalies sur les

informations personnelles. Par exemple, un cas d’usage étudié visait l’application Caprera, une base de données qui sert à la sécurité ferroviaire. “_Des informations personnelles étaient liées à ces données, soit 30 000 fichiers reçus en un an. Nous avions donc besoin d’outils pour savoir où étaient ces données exactement et les masquer_”.

Via Collibra, il s’agit de disposer d’un catalogue des usages et des sources de données, et d’industrialiser un workflow de data gouvernance. Là, on va alors associer à la donnée les différentes politiques de gouvernance à respecter : confidentialité, partage conditionné, règles de qualité particulières, par exemple. C’est une démarche de qualification au sens large, le catalogue offrant une vision 360° de la donnée. “_On récupère tout de manière non structurée, et c’est après qu’on vient donner du sens via les cas d’usage, et donc apporter la valeur_”, explique Sébastien Grenier-Fontaine.

Sans Data catalogue, le métier ne sait pas ce qui est disponible sur la plateforme. “_Organiser la gouvernance sur le Data Lake sert d’impulsion pour mettre en place les organisations qui vont supporter ou collaborer sur ces processus et outils, qui n’existaient pas il y a encore deux ans_”, précise-t-il.

Pour appuyer ces enjeux de la gouvernance, les nouveaux rôles émergents sont essentiels : _data officer, CDO, data owner, data stewart_. En lien avec les process de data gouvernance, les métiers assurent notamment la documentation, afin de qualifier la data dans le catalogue du Lake.

De l’organisation des flux entre ces acteurs et leurs nouvelles responsabilités dépend donc les bons usages et la qualification idoine de la data. L’acculturation autour de ces nouveaux rôles, et dans une plus large mesure de tous les agents, est un enjeu primordial pour réussir à atteindre tous les objectifs orientés Data.

On vous donne rendez-vous la semaine prochaine  pour la seconde partie de ce sujet avec la plateforme DataLab Réseau.

Recommandé pour vous