En introduction, rappelons qu’un data mesh (ou maillage de données) ne remplace absolument pas un data warehouse ou un data lake mais qu’en quelque sorte, il étend leurs capacités dans un contexte où les volumes, les formats, les sources, les localisations et les usages d’exploitation des données continuent à croitre de manière exponentielle.
Un Data Mesh, c’est d’abord un concept architectural qui se rapproche d’une architecture microservice dans sa conception avec des composants qui peuvent être modifiés ou mis à jour individuellement, et être utilisés par plusieurs équipes.
Un Data mesh se base sur 4 principes fondamentaux qui sont :
- La propriété des données est orientée domaine donc les données sont décentralisées car elles sont exploitées dans chaque unité business (ou sujet restreint) qui en a besoin pour fonctionner. Chaque domaine peut donc avoir un schéma spécifique. Chaque domaine gère ses propres pipelines de données et en a la responsabilité.
- La gouvernance des données est fédérée afin que le système soit viable dans la durée (normes d’intéropérabilité et de qualité, culture DevOps, sémantique, etc.). Sans gouvernance inter-domaines, les données se retrouvent cloisonnées et on perd l’intérêt de cette architecture en termes d’agilité et d’évolutivité.
- Le Product Thinking ou Data as product. Chaque équipe, au sein de chaque domaine, considère que les différentes ressources de données dont elle a besoin sont les différents composants qui forment un produit. Chaque produit de données est donc créé par les équipes des domaines et consommé par des clients qui peuvent être des ingénieurs data, des data scientists, des développeurs, etc. Chaque produit de données doit donc être accessible, adressable, fiable, définissable et intéropérable.
- Self-service via une infrastructure de données en tant que plateforme. Ainsi tous les utilisateurs peuvent s’approvisionner en données exploitables selon leurs besoins. Cela permet également de s’affranchir de la complexité et de rationaliser les processus de stockage et de traitement.
Est-ce que vous avez besoin d’un data mesh ? Est-ce que votre data warehouse suffit pour gérer et exploiter convenablement votre écosystème de données ? Est-ce qu’un data lake est plus approprié ?
Nous partageons avec vous cet article d’Actualité Informatique qui a mis en place un sondage simple qui va vous donner un score. Si vous obtenez une note supérieure à 30, il serait judicieux d’étudier cette solution ensemble !
Pour aller plus loin, voici également un article intéressant publié par Terradata.