Le saviez-vous ? En 2030, on prévoit que 13 % de la consommation mondiale d’électricité proviendra des centres de données (source ici), Rien qu’en France, 10 % de la consommation d’électricité provient des data centers.
Et alors que le cloud computing, l’IoT et l’IA exposent, les besoins en stockage de données également. Aujourd’hui, l’industrie du traitement des données est en voie de produire plus d’émissions de gaz à effet de serre que les secteurs de l’énergie, l’automobile et l’aviation réunis.
Il est possible d’avoir une approche plus frugale et responsable pour protéger l’environnement … sans pour autant freiner le progrès. En revanche, cela nous demande de repenser nos méthodes, nos approches et mêmes nos principes d’architecture data.
Historiquement, dans le cadre d’un projet de Business Intelligence traditionnel, nous n’étions pas du tout dans une démarche de sobriété ! L’objectif était de collecter un maximum de données, de les stocker de manière centralisée dans un datawarehouse ou un datalake, puis les traiter, les croiser, les analyser pour les restituer au plus grand nombre sous forme de tableaux de bord, et le plus fréquemment possible. Un gouffre en termes de consommations de ressources !
Aujourd’hui, l’heure est au tri et cette bonne pratique est aussi en vigueur pour les projets Data.
Au préalable, il convient de se poser la question des données utiles et celles qui ne le sont pas. Stocker des données qui ne servent à rien … ne sert à rien d’autant plus que les données sont périssables dans le temps pour la plupart. Ces données inutiles, ou dark data, représenterait plus de la moitié des données stockées par les entreprises !
- Au niveau du processus ETL, on peut identifier que les données dites vivantes, c’est-à-dire uniquement celles qui ont changé pour effectuer uniquement le chargement incrémental des données
- Se concentrer sur les fonctionnalités essentielles, c’est à dire qui vont demander un traitement dont vous avez vraiment besoin
- Réduire le nombre de requêtes en utilisant les caches (systèmes de stockage temporaire)
- Vous poser la question de la fraicheur des données, avez-vous vraiment besoin d’un rapport quotidien ?
- Collecter que l’essentiel et diminuer les volumes échangés
- Limiter les traitements d’information et surtout arrêter la réplication des données dans plusieurs systèmes
- Faire le ménage en supprimant les données qui ne servent à rien et respecter le cycle de vie des données (data governance)
- Moderniser votre écosystème data en une plateforme unique qui vous permettra de travailler directement sur la donnée
Au niveau du stockage, dès que possible, il est préférable d’utiliser une infrastructure edge computing qui permet de traiter les données au plus proche de là où on en a besoin et donc de réduire d’autant la latence. C’est l’architecture la plus appropriée pour l’IoT.
Une infrastructure cloud est toujours préférable car vous ne payez qu’à l’usage.
Chez Smartpoint, nous suivons particulièrement des fournisseurs tels Ikoula, hébergeur français de Green Hosting qui utilise de l’énergie issue à 100% d’énergie renouvelables ou encore Qarno dont le principe est de décentraliser la puissance de calcul et de valoriser la chaleur émise par les serveurs.
Pour aller plus loin : Sobriété numérique : comment développer un projet data éco-responsable ?