#Atelier574 – « L’IA chez SNCF : mythes et réalités » par Héloïse Nonne

Comment fonctionne l’intelligence artificielle ? Comment peut-elle être utile dans des opérations de maintenance prédictive chez SNCF ? Dans cette conférence au « 574 », Héloïse Nonne explique les processus de mise en place de l’intelligence artificielle et du machine learning pour le groupe ferroviaire, et comment l’IA peut apporter de la valeur ajoutée et améliorer l’expérience client.

Publié le 3 Avr, 2019

Par La Redaction

Qui ?

Après des études en physiques et en géologie à l’Université de Strasbourg, Héloïse Nonne effectue une thèse en physique quantique à Cergy Pontoise et un post-doc en Israël. Aujourd’hui, elle dirige les activités de data sciences à la Direction Data IoT chez e-SNCF.

Où ?

Au Campus Jade, situé à Saint-Denis (93), soit à environ 9,5 kilomètres de la gare d’Austerlitz à Paris, mise en service le 20 septembre 1840.

Quand ?

Mardi 2 avril 2019, soit 111 ans jour pour jour après la publication du premier numéro du journal Les Echos, créé par les frères Émile et Robert Schreiber.

Un fonctionnement aux multiples prérequis

L’IA se divise en trois parties distinctes. La première concerne l’automatisation des raisonnements et nécessite comme prérequis la connaissance des métiers, afin de pouvoir décrire un problème sous forme d’équation. La seconde est le Machine Learning, qui, lui, exige d’avoir beaucoup de données non biaisées. Enfin, la troisième vise les agents et réseaux d’agents, tels que les _bots_ et _chatbots_. Pour développer ce type d’IA, il faut également beaucoup de données, mais aussi une capacité à tester et à simuler pour vérifier l’effet d’une action par l’agent.

« _L’IA, aujourd’hui, n’est ni intelligente ni artificielle et je pense qu’elle ne le sera jamais_ » affirme Héloïse Nonne. C’est-à-dire que derrière ce qu’on appelle « intelligence », ce sont des mathématiques, des calculs matriciels. De même, l’« artificiel » n’est pas tel puisqu’en réalité, l’humain est nécessaire pour former des algorithmes.

En amont de l’intelligence artificielle, il faut donc pouvoir produire des données et les labelliser. Un prérequis de maturité sur la connaissance et la maîtrise des données est donc indispensable, ce qui nécessite une bonne gouvernance des données.

« Ainsi, par exemple, avant de pouvoir prédire des pannes, il faut avoir une bonne connaissance de l’ensemble des pannes qui existent sur la totalité du périmètre. Une fois que l’on a ces données, un humain comme un algorithme doit pouvoir définir une bonne compréhension du phénomène. Ensuite, on pourra, car on aura la maturité pour poser des problèmes correctement, passer à la prédiction et à la prescription », explique Héloïse Nonne.

Il est également primordial d’avoir une réflexion complète sur les besoins prioritaires avant de se ruer sur la prédiction. Cette réflexion, encore une fois, nécessite l’intervention de l’humain et du savoir de nombreuses personnes – _data scientists_, équipe métier, architectes, _cloud ops_, _data engineers_, _data owners_, équipe de l’appli SNCF…

La présence humaine est également capitale pour pallier les erreurs de l’algorithme, qui ne sera jamais 100% fiable. Il faut donc utiliser l’IA, mais toujours l’accompagner d’un diagnostic humain. « L’IA, c’est un grand mot pour désigner un outil parmi d’autres. Il y a un potentiel très fort mais tout un chemin pour y arriver. Ceci dit, le jeu en vaut la chandelle car son utilisation engendre beaucoup de valeur ajoutée et un retour sur investissement conséquent », ajoute-t-elle.

Faciliter la surveillance du réseau ferré

Le premier cas d’usage présenté par Héloïse Nonne est récent (fin 2018), c’est le projet _Redesign tout cost_ pour les travaux côté Réseau, la TG2I.

L’idée de ce projet était d’améliorer la surveillance du réseau ferré. La question a donc été de trouver comment faire pour passer d’une approche standardisée, c’est-à-dire générique en termes de surveillance, à une approche plus personnalisée et au plus juste.

Aujourd’hui, les rails sont vigilés soit par des tournées à pied, soit par des tournées trains. Alors que les métiers savent que certaines zones évoluent plus rapidement et ont besoin de plus de vigilance, comment avoir une analyse systématique de ce phénomène pour ajuster la maintenance ?

« Pour résoudre ce problème, nous avons donc pris les données qui sont les anomalies relevées par les tournées à pied et en train, et nous les avons croisées avec les caractéristiques de l’infrastructure (traverses en bois, en béton etc.). Cela nous a permis d’effectuer de nombreuses analyses et graphiques. Il a également fallu beaucoup d’échanges avec le métier afin de faire des classements des anomalies selon de grandes catégories. Cet exercice a permis de quantifier les problèmes en analysant l’ensemble du réseau. À la fin, ce qu’on a pu en ressortir, ce sont des critères de diversité du réseau liés aux anomalies retenues, que nous avons pu regrouper en trois grandes familles pour pouvoir vigiler le réseau de manière différenciée », explique-t-elle.

Ce processus permet de changer le référentiel de surveillance en s’appuyant sur ces analyses. Il n’y a donc pas besoin d’IA, il faut déjà utiliser la richesse des données existantes.

La prochaine étape sera de croiser ces analyses avec d’autres sources de données, comme par exemple, les relevés des données par les trains commerciaux qui passent tous les jours.

Aider à la maintenance de la végétation

Le second cas d’usage est la maintenance de la végétation. Les enjeux sont importants car les incidents causés par la végétation entrainent beaucoup de minutes perdues. Aujourd’hui, ce budget est consommé sur des opérations curatives, comment fait-on pour passer à du prédictif ?

Plusieurs types d’incidents existent : les chutes de branches ou d’arbres, les patinages/enrayages (feuilles mortes sur les voies), les hordes d’animaux sauvages, les hordes d’animaux domestiques ou encore les incendies liés à la végétation.

Le premier besoin a donc été de décrire ce qu’il se passe et à quelle fréquence, et ensuite, d’identifier les zones à risques avérés. Par la suite, il était possible de passer à la partie prévention, voire prédiction.

« Nous avons effectué une approche par machine learning et avons demandé à des experts de nous produire des labels. Ensuite, cette base d’apprentissage a été donnée à un algorithme, afin d’ajuster son apprentissage en fonction des paramètres. Le modèle au final sera capable de classifier des incidents. L’avantage de ce processus est que l’on a un potentiel élevé de performance, et que la maintenance est plus aisée car c’est automatisé. L’inconvénient est le besoin d’une grande base d’apprentissage ;le temps d’expert nécessaire pour entrainer l’IA est donc long. Le second problème est l’effet boîte noire, car la conséquence d’une erreur d’un algorithme est très forte. Il faut donc un seuil de performance acceptable avant d’utiliser cet algorithme », conclut-elle.

[ #Atelier574 ? ] Aujourd'hui, c'est au Campus Jade que @HeloiseNonne nous raconte l'#IA chez @GroupeSNCF : entre mythes et réalités... pic.twitter.com/PipDuLm0Wt
— SNCF Digital (@SNCF_Digital) 2 avril 2019

Punchlines

– « L’IA, aujourd’hui, n’est ni intelligente ni artificielle et je pense qu’elle ne le sera jamais. »

– « Ainsi, par exemple, avant de pouvoir prédire des pannes, il faut avoir une bonne connaissance de l’ensemble des pannes qui existent sur la totalité du périmètre. »

– « Le second problème est l’effet boite noire, car la conséquence d’une erreur d’un algorithme est très forte. Il faut donc un seuil de performance acceptable avant d’utiliser cet algorithme. »