Certains prétendent que la donnée est le nouvel or noir. Sauf qu’à la différence du pétrole, la data est utilisable et réutilisable à l’infini… à condition d’y avoir accès et d’avoir les moyens matériels et humains pour la traiter et obtenir ce que l’on cherche !
Elément central de la recherche scientifique et de l’innovation technologique, la gestion des données est un sujet qui ouvre de multiples questions, de l’archivage au partage, du traitement à la modélisation, de la mesure à l’information. Gilles Bergametti, président du comité des programmes scientifiques au CNES, et Jean-Pierre Gleyzes, sous-directeur Infrastructures Système d'Information Scientifique et Applicatif, nous dressent un panorama des enjeux et défis auxquels le CNES est confronté aujourd’hui.
Toujours plus de données, toujours plus complexes
Quel que soit le domaine, la quantité de données numériques est en explosion depuis plusieurs années. Ce phénomène a un nom : le « big data », littéralement les grosses données ou données massives. C’est aussi vrai dans le spatial qui, en plus de voir ses volumes augmenter de façon spectaculaire, fait face à une complexification des données. « Par exemple, un même instrument peut être amené à réaliser des mesures dans plusieurs domaines de longueurs d’ondes différents pour avoir le maximum de précision, mais forcément, le flux d’informations transmis sera lui aussi plus important, » explique Gilles Bergametti. « De façon globale, les instruments étant de plus en plus perfectionnés, on va pouvoir rechercher des signaux de plus en plus faibles, souvent cachés par des signaux parasites. »
« Dans le domaine de l’observation de la Terre, les instruments présents sur les satellites enregistrent énormément de données, qui doivent être couplées avec des données acquises au sol pour obtenir des mesures plus précises », complète Jean-Pierre Gleyzes.
Cela nécessite non seulement de connaitre les caractéristiques de l’instrument qui a réalisé les mesures, mais aussi de savoir traiter la donnée via des outils numériques et mathématiques pour extraire les informations dont on a besoin.
Le traitement, la clé de l’information
Le traitement des données est ainsi un challenge de taille, afin de transformer la mesure brute (télémesure) en information.
La donnée en elle-même n’est rien sans le traitement. Il s’agit de la brique de base qui va venir ensuite alimenter des modèles, des simulations.
Jean-Pierre Gleyzes
Traiter la donnée, cela signifie décoder, extraire et reconstituer les mesures scientifiques (que ce soit une image, un spectre, un champ magnétique…), les dater de façon précise, et les transformer en valeurs physiques interprétables et visualisables, afin de pouvoir les intégrer ensuite dans des modèles scientifiques (océanographique, météorologique, climatique, etc).
« Dans le domaine des Sciences de l’Univers, les enjeux sont particulièrement importants car les traitements nécessaires pour retrouver les signaux recherchés sont très complexes, sachant que chaque mission spatiale, comme Planck ou Gaia, est très souvent spécifique et nécessite donc de réinventer les méthodes de traitement à chaque fois » ajoute Gilles Bergametti.
Traiter la donnée, cela peut aussi vouloir dire réactualiser d’anciennes données afin de leur donner une cohérence dans le temps. « On peut jouer sur la continuité des missions depuis 30 ans pour créer des séries temporelles et voir les évolutions. Pour cela, nous devons les remettre à un niveau de qualité équivalent, car les données anciennes n’avaient souvent pas la même précision qu’aujourd’hui. »
Plus de volume, plus de complexité, plus de traitement : cela exige des infrastructures numériques adaptées, capable de stocker, d’archiver et de traiter les données, avec une puissance toujours plus importante et dans un contexte toujours plus concurrentiel.
Les missions du Centre de calcul du CNES
Au CNES, ces missions sont assurées par le Centre de Calcul de Toulouse, qui fête cette année ses 25 ans. Qu’est-ce qu’on y fait précisément ? Du traitement et de l’archivage de données !
« En termes de traitement, le CNES dispose d’une expertise fine sur les données produites et sur les capteurs. C’est un élément vraiment important car une mesure n'est vraiment utile que si on connaît l’instrument qui l’a prise et le contexte dans lequel il l’a prise (altitude, géolocalisation…) » explique Jean-Pierre Gleyzes.
L’archivage est également primordial. Aujourd'hui, toutes les agences spatiales qui montent des missions scientifiques exigent que toutes les données soient pérennisées afin que les futurs chercheurs et experts puissent y accéder et les utiliser. Cela peut servir aux scientifiques qui vont pouvoir revenir sur ces données à la lumière d'autres missions, aux ingénieurs pour concevoir les missions futures, mais aussi aux experts instrumentaux pour améliorer la performance des instruments de mesure.
Toutes les données des missions du CNES depuis 30 ans sont ainsi archivées, conservées, numérisées, répliquées.
Au-delà de ses propres infrastructures, le CNES a également un rôle prépondérant dans la gestion des données scientifiques et techniques au niveau national. « Avec la quantité de données dont on dispose et les besoins en traitement de ces données, il est indispensable que les centres de données et les centres de traitements soient localisés au même endroit, » insistent les deux experts.
Des Pôles de Données ont ainsi été mis en place il y a plusieurs années, notamment dans le domaine de l’observation de la Terre, afin de centraliser toutes les données recueillies par les partenaires (Météo France, Ifremer, BRGM, IGN, etc.), par milieux : océan, littoral, etc. Le CNES est également un des acteurs au sein de l’initiative nationale INFRANUM, qui vise notamment le regroupement des data center et la mutualisation des services de calcul.
L’ouverture, un challenge face aux acteurs privés
L’Open Access, ou ouverture des données, est un autre challenge, et de taille ! Produire des données accessibles à tous, c’est être capable d’être extrêmement réactif sur la correction et le traitement de ces données, de produire des formats standards et interopérables utilisables par tous, de disposer d’infrastructures résilientes qui ne s’arrêtent jamais même en cas d’incendie, et de proposer un accès facile mais sécurisé aux données.
Cette ouverture pose de nombreuses questions en termes de contrôle… ou de non-contrôle.
« L’arrivée de nouveaux acteurs comme les GAFA doit nous engager à modifier notre façon de gérer les données. En effet, ils utilisent les données en libre accès et disposent des moyens pour les stocker et les traiter. Cela a plusieurs implications. La première est que les chercheurs vont avoir tendance à se tourner vers eux par facilité car ils auront accès à la donnée et au traitement au même endroit. La deuxième question est de savoir où vont toutes ces données, dont certaines sont régaliennes, et par qui elles seront utilisées ! Cela pose des questions en termes de souveraineté, » ajoute Gilles Bergametti.
C’est pourquoi les deux experts sont unanimes : le challenge aujourd’hui, c’est que l’Europe prenne son indépendance informatique et protège la souveraineté de ses données, notamment en se dotant d’une puissance de calcul lourde et centralisée qui rivalise avec les géants américains !
L’intelligence artificielle : de la donnée à l’analyse
Dernier enjeu : l’intelligence artificielle, qui pousse le traitement de la donnée encore plus loin.
« A l’échelle humaine, on ne peut pas indexer et analyser toutes les données. Vu la volumétrie et la profondeur des données, c’est impossible … sauf pour des machines ! » précise Jean-Pierre Gleyzes. L’IA va ainsi extraire l’information de la donnée grâce à des modèles statistiques, des algorithmes qui vont analyser les images. « Grâce à l’IA, on peut aujourd’hui déterminer les réserves de pétrole mondiales par exemple. Comment ? Le pétrole est volatile, il est donc stocké dans des cuves dont le toit est flottant. Il suffit donc de mesurer la hauteur des silos pour estimer la quantité de pétrole qui se trouve à l’intérieur et l’appliquer pour chaque site de stockage connu. On peut faire la même chose en analysant la croissance du blé dans les parcelles, à échelle régionale, nationale ou mondiale… pour estimer le rendement des récoltes par exemple. »
Pour cela, la puissance de calcul nécessaire est phénoménale mais avec l’évolution des technologies, tout cela devient de plus en plus accessible. « Mais l’IA n’est pas qu’une question d’infrastructures, il faut aussi des compétences spécifiques, avec des experts capables de « parler aux machines » et de les utiliser et des data scientists qui vont faire « parler les données ». C’est un vrai travail d’équipe. »
Un travail que mène le CNES avec ses partenaires. « Aujourd’hui, nous donnons accès au Centre de Calcul à nos partenaires scientifiques et à des PME, des start-ups qui ont des idées innovantes et ont besoin de les tester. Notre rôle est celui d’incubateur, de catalyseur, d’accompagnateur, y compris dans le domaine de l’intelligence artificielle, pour que ces partenaires puissent faire aboutir leurs projets, et passent ainsi de l’idée au succès », conclut Jean-Pierre Gleyzes.
De l’observation à l’information
Les instruments de mesure permettent d’observer et de mesurer. Les mesures brutes sont traitées afin de fournir des données (contextualisées et interprétables). Les données sont intégrées dans des simulations ou des modèles pour obtenir une information.
Observation > mesure > donnée > information