datamesh cloud elt reverse etl

Data stack 2022, zoom sur trois phénomènes à suivre de près.

C’est la révolution annoncée dans la collecte de données via une intégration facilitée avec un niveau de simplicité jamais atteint jusqu’alors. Les outils offrent toujours plus de vitesse dans l’accessibilité aux données via la mise en place de pipelines de données automatisés avec des outils comme le ELT (Extract Load Transform) qui charge les données dans leur format brut directement dans le système cible (environnement Big Data, Apache Hadoop, Data lake) ou le Reverse ETL, idéal pour alimenter des outils métiers opérationnels comme un CRM ou un outil financier (stockage en BDD SQL qui a l’avantage de ne stocker que les données utiles, déjà transformées).
En savoir plus sur la différence entre ETL, Reverse ETL et ELT ?
👉  Qlik : https://www.qlik.com/us/etl/etl-vs-elt
👉  Talend : https://www.talend.com/fr/resources/elt-vs-etl/
👉  Hightouchen Reverse ETL https://hightouch.io/blog/reverse-etl/ ou Census

Toujours plus de performance et de vitesse attendues au niveau des data warehouses avec notamment les entrepôts de données dans le cloud comme Snowflake, Azure Synape, Redshift de AWS, BigQuery de Google ou encore DeltaLake de Databricks. Et oui, la bonne nouvelle pour 2022 c’est que qualité et rapidité ne sont plus synonymes de coûts prohibitifs pour les entreprises !

Data Mesh (ou maillage de données) ou data as a product, le sujet HOT de 2021 qui devrait rester tout aussi hype cette année (nous en avons déjà parlé chez Smartpoint comme un des principaux nouveaux chantiers de l’année dernière) et pour cause, c’est toute l’approche de l’architecture de données qui est remise en question !

Rappelons les 4 principes du Data Mesh et son architecture décentralisée et distribuée selon sa créatrice, Zhamak Dehghani :

  1. Domain driven design
  2. Data as a product que l’ont peut partager à l’intérieur et à l’extérieur de l’organisation
  3. Infrastructure en libre-service ou IaaS pour permettre une plus grande autonomie et une démocratisation plus large des données
  4. Gouvernance dite fédérée pour équilibrer l’indépendance de chaque équipe, tout en harmonisant les normes de qualité et de contrôle au sein de l’organisation

Pour aller plus loin ? Nos data pure players vous recommandent ces articles :

🔎 Flash back sur la guerre des databases de 2021 : https://ottertune.com/blog/2021-databases-retrospective/

🔎 Data stack moderne, les tendances : https://towardsdatascience.com/trends-that-shaped-the-modern-data-stack-in-2021-4e2348fee9a3/