Fiche tendance – Calcul distribué

[Republication] Aujourd’hui, quels sont les mots qui marquent l’esprit quand nous parlons du digital ? Les concepts innovants, les termes techniques, les nouvelles créations… Deux fois par mois, nous vous proposons un décryptage d’un mot-clé ou d’une tendance sous la forme d’une fiche technique avec définition, pièges à éviter, mais aussi mise en situation par notre spécialiste. Le calcul distribué est devenu aujourd’hui une méthode fondamentale dans le traitement du Big Data. Mohamed Labdoui, Data et IoT Plateforme Manager de la Direction générale e.SNCF, rappelle dans cette fiche tendance le fonctionnement de cette technique, ainsi que ses applications dans l’entreprise.

Publié le 28 Jan, 2019

Par La Redaction

Un traitement de données qui ne repose pas seulement sur une machine, mais qui est reparti sur un cluster de microprocesseurs – des PC ou des machines virtuelles dans le cloud – embarqués avec les technologies nécessaires. Ces derniers fournissent plus de stockage et de puissance, indispensables pour obtenir les informations consolidées, à travers les traitements du Big Data.

Le calcul parallèle, qui consiste à faire travailler (au moins) deux microprocesseurs sur les tâches parallèles de manière indépendante. Le calcul distribué est plus diversifié : les microprocesseurs peuvent réaliser des tâches en parallèle ou en séquentiel. Les frameworks, comme Hadoop, ou les bases de données « Not Only SQL » sont utilisés afin de fluidifier l’ajout des nœuds dans le cluster.

« Le Big Data et, donc, le calcul distribué sont indispensables pour nos projets divers. Par exemple, via l’application SNCF, nous fournissons les meilleurs itinéraires de porte à porte à nos utilisateurs. Ces propositions personnalisées sont basées sur les données de géolocalisation et les données référentielles. Il est impossible de faire le traitement de ces datas – repérer les lieux usuels ou favoris, réaliser les graphes de mobilité – sans le calcul distribué. Pour cela, nous nous appuyons sur une solution de cloud public.

Plus en amont de notre production, nous cherchons à réduire la consommation d’énergie de nos matériels roulants. Cela passe d’abord par une meilleure estimation de ressources nécessaires, car elle nous permettra d’optimiser les commandes d’approvisionnement. Pour cela, nous suivons la consommation énergétique d’un train en mouvement toutes les cinq minutes : la volumétrie des données est considérable. C’est, là aussi, un cas où nous avons absolument besoin d’utiliser le calcul distribué. »

– Mohamed Labdoui, Data et IoT Plateforme Manager de la Direction générale e.SNCF