Data Cloud Platforms, comparatif entre Snowflake et Databricks.

Comment choisir la bonne solution pour vous ? Déjà, ces produits ne sont pas – en théorie – comparables en termes d’usages.

Snowflake est un Data Warehouse dans le cloud (SaaS) qui permet de collecter et de consolider les données dans un endroit centralisé à des fins d’analyse (Business Intelligence). Il est opérable avec les principaux clouders (Azure, GCP, AWS).

Comme pour un entrepôt de données classique, on utilise SQL pour faire des requêtes, créer des rapports et des tableaux de bord. Nous sommes clairement dans l’analyse et le reporting. Il a d’ailleurs été créé pour optimiser les performances des DWH traditionnels et faciliter la tâche des analystes. En revanche, il n’est pas optimisé pour traiter du Big Data en flux continu à date… même s’il est dans la roadmap de l’éditeur de s’ouvrir à d’autres langages comme Java, Python et Scala et de prendre en charge des données non structurées.


Databricks n’est pas un data warehouse … mais un data lake dédié aux environnements Big Data où il faut stocker de fortes volumétries de données brutes non traitées. Cette solution est à privilégier en Machine Learning, en streaming de données (ELT) et en data science. Elle supporte plusieurs langages de développement mais nécessite des compétences avancées en ingénierie de la data.

Basé sur Spark, Databricks peut faire tout ce que fait Snowflake et plus encore… mais cela reste un outil complexe ! L’optimisation de la plateforme et la conception d’un lake house fonctionnel prend du temps et la maintenance est loin d’être aisée, contrairement à Snowflake.

Snowflake et databricks ne sont également pas comparables en termes d’architectures.

Snowflake est une solution serverless avec des couches séparées pour le stockage et le traitement des données à l’aide de clusters de calcul composés de plusieurs nœuds MPP. Tout est automatisé : taille des fichiers, compression, structure, métadonnées, statistiques (…) objets qui ne sont pas directement visibles par l’utilisateur et auxquels on ne peut accéder que par des requêtes SQL.

Databricks est aussi une solution serverless en SaaS et fonctionne aussi sur Azure, AWS et GCP … mais l’architecture, basée sur Spark, est complètement différente avec :

  • Le delta lake avec 3 types de tables : Bronze pour les données brutes, Silver pour celles nettoyées mais impropres à la consommation en état et les Gold pour les propres
  • Le Delta Engine, un moteur de requête haute performance pour optimiser les charges de travail.
  • Notebooks qui comprend du code réutilisable et qui permet via une interface web de construire des modèles en utilisant Scala, R, SQL et Python.
  • ML Flow qui permet de configurer des environnements ML et d’exécuter des tests à partir de bibliothèques existantes.

Source : https://medium.com/operationalanalytics/databricks-vs-snowflake-the-definitive-guide-628b0a7b4719

Back to the basics ! Zoom sur les différences entre un data warehouse dans le cloud, un data lake et data lakehouse.

  • Un data Warehouse est une base de données analytique centralisée qui stocke les données déjà structurées. Il est utilisé par des analystes qui maîtrisent parfaitement le langage SQL et savent donc manipuler les données. Les données sont optimisées et transformées pour être accessibles très rapidement à des fins d’analyses, de génération de rapports et des tableaux de bords de pilotage des entreprises.
  • Un data lake collecte et stocke lui aussi des données mais il a été conçu pour traiter les Big Data, c’est-à-dire pour de fortes volumétries de données brutes, non structurées ou semi-structurées. Les data lakes sont à privilégier dans le cas d’un traitement en continu et d’une gestion en temps réel des données. Les données sont généralement stockées en prévision d’une utilisation ultérieure. Comme elles sont de natures brutes et non traitées, il est nécessaire de faire appel à un Data Scientist lorsqu’on souhaite les exploiter. Généralement, le datalake est utilisé pour le traitement par lots. Il permet notamment l’utilisation d’ELT en libre-service (par ex Informatica) pour automatiser l’ingestion et le traitement des données, ce qui permet de réduire la complexité de la conception et la maintenance des pipelines de données.
  • Un data Lakehouse, c’est une nouvelle architecture qui réconcilie en théorie le meilleur des deux mondes entre l’entrepôt de donnée et le data lake en une seule plateforme ! Le data lakehouse permet d’éviter la multiplication des moteurs de requêtes en exécutant des analyses directement dans le data lake lui-même.

À suivre ? les solutions proposées par Databricks …

Data stack 2022, zoom sur trois phénomènes à suivre de près.

C’est la révolution annoncée dans la collecte de données via une intégration facilitée avec un niveau de simplicité jamais atteint jusqu’alors. Les outils offrent toujours plus de vitesse dans l’accessibilité aux données via la mise en place de pipelines de données automatisés avec des outils comme le ELT (Extract Load Transform) qui charge les données dans leur format brut directement dans le système cible (environnement Big Data, Apache Hadoop, Data lake) ou le Reverse ETL, idéal pour alimenter des outils métiers opérationnels comme un CRM ou un outil financier (stockage en BDD SQL qui a l’avantage de ne stocker que les données utiles, déjà transformées).
En savoir plus sur la différence entre ETL, Reverse ETL et ELT ?
👉  Qlik : https://www.qlik.com/us/etl/etl-vs-elt
👉  Talend : https://www.talend.com/fr/resources/elt-vs-etl/
👉  Hightouchen Reverse ETL https://hightouch.io/blog/reverse-etl/ ou Census

Toujours plus de performance et de vitesse attendues au niveau des data warehouses avec notamment les entrepôts de données dans le cloud comme Snowflake, Azure Synape, Redshift de AWS, BigQuery de Google ou encore DeltaLake de Databricks. Et oui, la bonne nouvelle pour 2022 c’est que qualité et rapidité ne sont plus synonymes de coûts prohibitifs pour les entreprises !

Data Mesh (ou maillage de données) ou data as a product, le sujet HOT de 2021 qui devrait rester tout aussi hype cette année (nous en avons déjà parlé chez Smartpoint comme un des principaux nouveaux chantiers de l’année dernière) et pour cause, c’est toute l’approche de l’architecture de données qui est remise en question !

Rappelons les 4 principes du Data Mesh et son architecture décentralisée et distribuée selon sa créatrice, Zhamak Dehghani :

  1. Domain driven design
  2. Data as a product que l’ont peut partager à l’intérieur et à l’extérieur de l’organisation
  3. Infrastructure en libre-service ou IaaS pour permettre une plus grande autonomie et une démocratisation plus large des données
  4. Gouvernance dite fédérée pour équilibrer l’indépendance de chaque équipe, tout en harmonisant les normes de qualité et de contrôle au sein de l’organisation

Pour aller plus loin ? Nos data pure players vous recommandent ces articles :

🔎 Flash back sur la guerre des databases de 2021 : https://ottertune.com/blog/2021-databases-retrospective/

🔎 Data stack moderne, les tendances : https://towardsdatascience.com/trends-that-shaped-the-modern-data-stack-in-2021-4e2348fee9a3/

Data Fabric, une des dernières innovation dans l’ingénierie de la data.

Data Fabric, une des dernières innovations dans l’ingénierie de la data promise à un bel avenir ! Selon Gartner, une Data Fabric permettrait de réduire les temps d’intégration et de déploiement de 30% … et la maintenance de 70%.


Concrètement, il s’agit d’une architecture qui permet de collecter des jeux de données (assets) et des databases.

La finalité est d’obtenir une vue unifiée des données dans un seul environnement, indépendamment de leur emplacement réel, de leur structure ou de leur appartenance à telle ou telle base de données.
Une data fabric permet de simplifier l’analyse des données (BI) et elle est devenue incontournable en IA et en ML. Couche unique d’accès aux données, les data fabrics permettent de faciliter le développement applicatif par API et de casser le phénomène des silos de données avec des structures et des formats différents.

Chez Smartpoint, nous privilégions les solutions de Teradata, Denodo, Informatica et Talend.

Tendances. Les plateformes de machine learning ont le vent en poupe !

Cette situation de crise pandémique mondiale profite clairement aux technologies d’IA et de ML, propulsées en deux ans en actifs stratégiques (…même si de nombreux projets peinent encore à sortir de la phase expérimentale).


Les entreprises ont en effet pris conscience de l’urgence d’accélérer sur des technologies de data avancées car l’humain a été fortement impacté : pénurie de main d’œuvre, remote work, confinement, …
Le saviez-vous ? Un quart des entreprises utilisent déjà l’IA dans l’automatisation dans leurs processus / systèmes… et 51% prévoient de le faire à court terme. On parle, selon Forrester, d’investissements entre 2,4 et 3,3 milliards d’euros en Europe en 2022.

Les promesses ? Rationalisation, #automatisation des tâches, désengorgement sur ce qui est faiblement générateur de valeur ajoutée, gains d’efficacité, économies…

Un marché très dynamique et particulièrement innovant où il va falloir faire son choix parmi les plateformes ML d’acteurs tels que DataikuRapidMinerDataRobotAlteryxH2O.aiDatabricksSAS ou encore IBM également très actifs en ce domaine.

Zoom sur l’architecture de données et son corolaire, la modélisation des données


L’objectif est de documenter tous les data assets de l’organisation, de les cartographier afin de voir comment ils circulent dans vos systèmes afin d’obtenir un schéma directeur.


La schéma directeur va donner le cadre sous-jacent aux plateformes de données qui alimentent également les outils de gestion de données. Il va permettre aussi de spécifier les normes pour la collecte, l’intégration, la transformation et le stockage de données. Aujourd’hui, on utilise de plus en plus des systèmes de streaming de données en temps réel et on prend en charge désormais les applications d’IA/ML en plus de la BI traditionnelle.

Le développement du cloud a encore apporté une couche de complexité aux architectures de données. Autre concept émergeant, la Datafabric ! Enfin, l’architecture de données doit prendre en considération la conformité règlementaire et la gouvernance des données.

Une bonne conception doit être :

  • Orientée métier pour être alignée sur l’organisation et les besoins
  • Flexible et évolutive
  • Fortement sécurisée pour interdire les accès non autorisés et les utilisations abusives

Ses composants ? Des modèles de données avec des référentiels communs, des diagrammes et des flux de données pour comprendre comment circulent les données dans les systèmes et les applications qui les consomment, des documents qui normalisent comment les données sont collectées, intégrées et stockées.

Source : https://www.techtarget.com/contributor/Craig-Stedman

Source pour aller plus loin : What is data architecture? A data management blueprint

Smart people, à la découverte des équipes.

C’est comment chez le Pure Player de la Data ?


Nous vous proposons une visite guidée de Smartpoint en vidéo, à la rencontre de nos équipes 🎬

Cette vidéo été tournée au siège (Paris 13ème, rue neuve Tolbiac) en novembre dernier, avant les restrictions sanitaires dues à la 5ème vague.

Repenser l’architecture Data aujourd’hui pour supporter les nouveaux défis de demain

90% des 44 zettaoctets des données mondiales ont été créées ces deux dernières années ! Personne n’échappe à la data mais elle reste difficile à traiter, à gérer, à stocker et à exploiter à grande échelle.


Historiquement (cela date déjà des année 90), le stockage était géré par un SGBD connecté via des pipelines à des sources globalement statiques et des outils (réalisés sur mesures et assez simples) permettaient de les consulter. Puis les données distribuées en volume sont apparues ainsi que les outils open-source pour les traiter (Hadoop, Hive, etc.).

Amazon Web Services (AWS) a été le premier à déplacer l’ensemble de la Data Stack dans le cloud, à rendre l’infrastructure et le calcul élastiques, et à les proposer As a service.
Aujourd’hui, stocker dans le cloud est la base, les pipelines se sont transformés (de l’ETL à l’ELT) et l’orchestration a gagné en maturité. En revanche, même si la pile technologique a beaucoup évolué ces dernières années, de nombreux problèmes liés au traitement des données ne sont pas toujours pas résolus, voire de nouveaux sont apparus ! 

Excell reste toujours indétrônable dans la plupart des pipelines de données et gérer des datasets toujours plus volumétriques rajoute encore de la complexité … Et à la dimension technologique s’ajoute le facteur humain ! Les populations qui interviennent sur les données sont elles-aussi de plus en plus nombreuses et les équipes travaillent encore (trop) en silos.

Dans toutes les architectures data, on constate que de nombreux composants sont redondants. Pour répondre aux enjeux de demain, plusieurs chantiers sont lancés pour repenser la stack technologique :

  • De nouvelles conceptions des référentiels de données vers un lakehouse (notamment avec Databricks) alors qu’aujourd’hui les données sont réparties dans des datalakes ou des entrepôts de données.
  • Des data fabrics sur des référentiels spécialisés qui visent à extraire la valeur des relations entre les data sets ; ou des référentiels optimisés pour les séries chronologiques afin de mieux gérer les informations temps réel
  • Des plateformes de BI dites « actionnables » pour réduire le temps entre l’analyse et l’action au plus près des systèmes opérationnels voir l’apparition de plateforme verticales dédiées
  • Une couche de DataOps avec des plateformes qui vont gérer les catalogues de données, assurer le monitoring, la qualité, la sécurité et une utilisation toujours plus responsable des actifs de données

Et vous, quelle piste explorez-vous pour repenser l’architecture data de demain ?
Source : Thinking the modern data stack

Voici venu le temps des DataOps


Les référentiels de données se multiplient (transactionnel, MDM, informationnel, etc.), les volumes explosent, les outils et les plateformes se nourrissent de données … Garantir une gouvernance et une gestion unifiée est devenue mission impossible avec les approches traditionnelles.
En revanche, nous constatons tous les jours que les entreprises qui réussissent sont des entreprises Data Driven où l’accès aux données est démocratisé et accessible par toutes les ressources qui les consomment, de manière sécurisée et contrôlée.


Pour y parvenir ? Seule une approche comme le DataOps est efficiente car elle s’applique sur l’ensemble des processus qui interviennent dans la gestion du cycle de vie des données (et des applications qui les utilisent) en mettant en pratique les principes de l’agilité et la recherche en continu de toujours plus d’automatisation.


Les avantages ? Gestion de multiple sources de données et pipelines dans toute leur variété, plus de vélocité, de fiabilité et de qualité, de réutilisation et de reproductivité de composants, plus de valeur business, accélération du time-to-market, etc.


Chez Smartpoint, nous nous appuyons entre autres sur Talend et Informatica pour automatiser la préparation et l’acquisition des données tout en garantissant la Data Quality.

Des data et des hommes

Le traitement des données et la manière dont elles sont consommées par les différents acteurs qui interviennent tout au long de son cycle de vie est un incroyable voyage ! Et ces données sont de plus en plus précieuses au fur et à mesure que notre civilisation avance.

Le monde de la Data nous ouvre chaque jour de nouvelles perspectives !


Quand on parle de data, on a tendance à résumer cela à de l’ingénierie et à des concepts techniques mais c’est aussi une question de capacités de prises de décision, de mise en opération quasiment instantanément quand l’IA s’en mêle … et de plus en plus d’éthique.

Medhi GARGOURI, Directeur Général et associé fondateur de Smartpoint


Voici un article intéressant qui résume les rôles des Data Players dans l’entreprise entre les consommateurs des données (au centre de cet écosystème), les product managers et fonctions dites métiers, les architectes, les ingénieurs data, les ingénieurs QA, les data analysts, les data scientists.

Auteur Antriksh Goel

Article à lire pour aller plus loin : https://towardsdatascience.com/an-experience-of-a-data-ecosystem-4f86e98fd013