Data Cloud Platforms, comparatif entre Snowflake et Databricks.

Comment choisir la bonne solution pour vous ? Déjà, ces produits ne sont pas – en théorie – comparables en termes d’usages.

Snowflake est un Data Warehouse dans le cloud (SaaS) qui permet de collecter et de consolider les données dans un endroit centralisé à des fins d’analyse (Business Intelligence). Il est opérable avec les principaux clouders (Azure, GCP, AWS).

Comme pour un entrepôt de données classique, on utilise SQL pour faire des requêtes, créer des rapports et des tableaux de bord. Nous sommes clairement dans l’analyse et le reporting. Il a d’ailleurs été créé pour optimiser les performances des DWH traditionnels et faciliter la tâche des analystes. En revanche, il n’est pas optimisé pour traiter du Big Data en flux continu à date… même s’il est dans la roadmap de l’éditeur de s’ouvrir à d’autres langages comme Java, Python et Scala et de prendre en charge des données non structurées.


Databricks n’est pas un data warehouse … mais un data lake dédié aux environnements Big Data où il faut stocker de fortes volumétries de données brutes non traitées. Cette solution est à privilégier en Machine Learning, en streaming de données (ELT) et en data science. Elle supporte plusieurs langages de développement mais nécessite des compétences avancées en ingénierie de la data.

Basé sur Spark, Databricks peut faire tout ce que fait Snowflake et plus encore… mais cela reste un outil complexe ! L’optimisation de la plateforme et la conception d’un lake house fonctionnel prend du temps et la maintenance est loin d’être aisée, contrairement à Snowflake.

Snowflake et databricks ne sont également pas comparables en termes d’architectures.

Snowflake est une solution serverless avec des couches séparées pour le stockage et le traitement des données à l’aide de clusters de calcul composés de plusieurs nœuds MPP. Tout est automatisé : taille des fichiers, compression, structure, métadonnées, statistiques (…) objets qui ne sont pas directement visibles par l’utilisateur et auxquels on ne peut accéder que par des requêtes SQL.

Databricks est aussi une solution serverless en SaaS et fonctionne aussi sur Azure, AWS et GCP … mais l’architecture, basée sur Spark, est complètement différente avec :

  • Le delta lake avec 3 types de tables : Bronze pour les données brutes, Silver pour celles nettoyées mais impropres à la consommation en état et les Gold pour les propres
  • Le Delta Engine, un moteur de requête haute performance pour optimiser les charges de travail.
  • Notebooks qui comprend du code réutilisable et qui permet via une interface web de construire des modèles en utilisant Scala, R, SQL et Python.
  • ML Flow qui permet de configurer des environnements ML et d’exécuter des tests à partir de bibliothèques existantes.

Source : https://medium.com/operationalanalytics/databricks-vs-snowflake-the-definitive-guide-628b0a7b4719

Tendances. Les plateformes de machine learning ont le vent en poupe !

Cette situation de crise pandémique mondiale profite clairement aux technologies d’IA et de ML, propulsées en deux ans en actifs stratégiques (…même si de nombreux projets peinent encore à sortir de la phase expérimentale).


Les entreprises ont en effet pris conscience de l’urgence d’accélérer sur des technologies de data avancées car l’humain a été fortement impacté : pénurie de main d’œuvre, remote work, confinement, …
Le saviez-vous ? Un quart des entreprises utilisent déjà l’IA dans l’automatisation dans leurs processus / systèmes… et 51% prévoient de le faire à court terme. On parle, selon Forrester, d’investissements entre 2,4 et 3,3 milliards d’euros en Europe en 2022.

Les promesses ? Rationalisation, #automatisation des tâches, désengorgement sur ce qui est faiblement générateur de valeur ajoutée, gains d’efficacité, économies…

Un marché très dynamique et particulièrement innovant où il va falloir faire son choix parmi les plateformes ML d’acteurs tels que DataikuRapidMinerDataRobotAlteryxH2O.aiDatabricksSAS ou encore IBM également très actifs en ce domaine.

Voici venu le temps des DataOps


Les référentiels de données se multiplient (transactionnel, MDM, informationnel, etc.), les volumes explosent, les outils et les plateformes se nourrissent de données … Garantir une gouvernance et une gestion unifiée est devenue mission impossible avec les approches traditionnelles.
En revanche, nous constatons tous les jours que les entreprises qui réussissent sont des entreprises Data Driven où l’accès aux données est démocratisé et accessible par toutes les ressources qui les consomment, de manière sécurisée et contrôlée.


Pour y parvenir ? Seule une approche comme le DataOps est efficiente car elle s’applique sur l’ensemble des processus qui interviennent dans la gestion du cycle de vie des données (et des applications qui les utilisent) en mettant en pratique les principes de l’agilité et la recherche en continu de toujours plus d’automatisation.


Les avantages ? Gestion de multiple sources de données et pipelines dans toute leur variété, plus de vélocité, de fiabilité et de qualité, de réutilisation et de reproductivité de composants, plus de valeur business, accélération du time-to-market, etc.


Chez Smartpoint, nous nous appuyons entre autres sur Talend et Informatica pour automatiser la préparation et l’acquisition des données tout en garantissant la Data Quality.

Réduire l’impact environnemental … passe aussi par une meilleure gestion de vos données.

Quelle méthode adopter pour une approche frugale de vos projets data ? Certes, il est nécessaire d’avoir un certain volume de données pour établir des estimations ou des prévisions mais au-delà d’un certain seuil, le gain apporté par une donnée supplémentaire décroit.


Accumuler des data n’est pas synonyme de création de valeur, alors que l’on a tendance à collecter et à stocker un maximum de données « au cas où » nous aurions besoin de les exploiter et de les analyser à moment donné…. C’est au contraire une aberration ! Non seulement les données perdent de manière générale de la valeur avec le temps et surtout, leur capture, leur stockage, leur circulation et leur diffusion génère des dépenses énergétiques exponentielles … d’autant plus que la Data est inexorablement copiée vers des destinations diverses et variées sans que la donnée source ne soit jamais supprimée.


Comment ne pas générer plus de données que nécessaire ? Comment réduire la consommation de ressources matérielles et énergétiques ?
Voici en 5 points des pistes de développement de techniques de minimisation des coûts énergétiques de vos projets Data.

  1. L’intérêt de la data. Avez-vous vraiment besoin de ces données et pour quels usages ? Il est important de ne pas perdre de vue l’objectif à atteindre et en quoi il justifie la collecte et l’informatisation de la donnée (utilité)
  2. Représentativité de la donnée : en quoi cette donnée participe à un ensemble de phénomènes ? Est-ce que cette data est la plus pertinente pour représenter ce ou ces phénomènes ?
  3. Est-ce que cette nouvelle donnée rend caduque une autre donnée déjà collectée et à quelle fréquence ?
  4. Éviter la redondance liée aux étapes de transformation des données en mutualisant notamment les étapes de préparation via un partage des pipelines (DataOps, MLOps) pour pouvoir les réutiliser et analyser les interactions entre les projets.
  5. Meilleur échantillonnage et sondage des données pour déterminer quel volume est réellement nécessaire pour une analyse ou la modélisation souhaitée. Souvent seule 10% des données suffisent pour obtenir les attendus ou suivre les évolutions d’un phénomène … et c’est autant de ressources informatiques économisées au niveau infrastructure !
Pour une approche frugale de vos projets data

Pour aller plus loin : Projets data : comment réduire l’impact environnemental

Ecosystème Data ? État de l’art en cette rentrée 2021

Smartpoint partage avec vous les principaux composants des plateformes data d’aujourd’hui selon lakeFS.

  1. Ingestion des Data soit par lots avec Spark ou Pandas, soit par streaming avec Kafka, soit issues de systèmes opérationnels via managed SaaS ou d’autres BDD internes en utilisant des outils comme Stitch
  2. Datalake avec principalement deux types d’architectures par stockage d’objets dans le cloud (GCP, Azure, AWS) et moteur d’analyse avec une interface SQL (Snowflake, Redshift, Databricks lakehouse, …)
  3. Gestion des métadonnées avec des formats ouverts de tables et des métastores comme celui de Hive
  4. Gestion du cycle de vie des données par CI/CD et des environnement dédié de développement de données
  5. Orchestration des tâches pour les pipelines de données qui s’exécutent sur le datalake avec Airflow ou Dagster 
  6. Traitement des données avec des moteurs de calculs distribués comme Spark
  7. Virtualisation avec des outils tels que Trino (ex PrestoSQL) ou Denodo
  8. Analytics et Data Science en utilisant un modèle MLOps (Meta Flow développé par Netflix ou Kuberslow par Google), des workflows analytiques et des outils de discovery comme datahub (linkedIN), metacat (Netflix) ou dataportal (airbnb)
  9. Gouvernance de données
  10. Qualité des données basée sur des tests et des règles de monitoring enrichies en apprentissage automatique (ML)

Pour aller plus loin : State of data engineering

Une rentrée Data 2021 qui se fait dans le cloud.

Depuis ces dernières années – et cela s’est encore accéléré depuis la crise sanitaire – les entreprises accélèrent leur migration vers des infrastructures en cloud public auprès d’Azure (Microsoft Clouding Computing Platform), AWS (Amazon Web Services), GCP (Google Cloud Platform), mais aussi OVH Cloud, ce dernier devenant de plus en incontournable face à des préoccupations croissantes en termes de gouvernance et de souveraineté des données.


D’ailleurs Toucan Toco en DataViz (ou analytique embarquée) et Dataiku en DataScience proposent désormais des versions managées de leurs plateformes depuis les marketplace des géants du cloud (AWS pour Toucan Toco et bientôt OVH; Azure, AWS et bientôt GCP pour Dataiku).

  • Aujourd’hui, on estime que près de 80% des entreprises sont engagées dans une migration sur le cloud. La plupart ont adopté une stratégie hybride pour des raisons de coûts, de sécurité ou de contrôle de leurs données (souveraineté).
  • Bien que tout semble très simple et rapide sur le papier …. la réalité est loin d’être aussi reluisante ! Gartner pointe dans son dernier Magic Quadrant dédié aux infrastructures cloud et leurs plateformes de services que les écueils sont nombreux (à lire ici) : catalogues illisibles, complexités des contrats, tarifs agressifs avec des coûts cachés, pratiques commerciales douteuses, service après-vente insuffisant, pannes…
  • La nécessité de se faire accompagner par un partenaire expérimenté et spécialiste des projets data cloud est plus que jamais indispensable avant de s’engager car c’est le début d’un rapport fort de dépendance vis-à-vis de la plateforme cloud que vous allez choisir. Smartpoint vous accompagne et vous aide à prendre la bonne décision.


Et vous-vous que pensez vous des services data disponibles dans les marketplaces des plateformes cloud ? Quels sont vos retours d’expérience ?

Pour en savoir sur les stratégies cloud de Toucan Toco et Dataiku ainsi que leurs offres pour les entreprises, c’est ici :

https://www.lemagit.fr/actualites/252505855/Toucan-Toco-setale-lui-aussi-sur-les-marketplaces-cloud

https://www.lemagit.fr/actualites/252502900/Comment-Dataiku-veut-attirer-ses-clients-vers-le-cloud

Les buzzwords de la data

Le monde de la tech est truffé de buzzwords et de concepts … et la Data (et Business Intelligence) ne fait pas exception !

Qlik s’est même fendu d’un lexique lors son événement annuel fort bien résumé ici : Comprendre les concepts fondamentaux de la BI moderne


En vrac, on retrouve :
 👉 les Data Insights qui finalement viennent remplacer la BI « historique » dans le sens où on cherche (toujours) à faire parler des données brutes (lesdatas)
 👉 Le Data Catalog qui se rapproche du fameux dictionnaire de données
 👉 Le Pipeline analytique qu’on pourrait rapprocher du Data Management avec l’ETL, le DQM puis la restitution dans des dashboards

On y aborde aussi les concepts de Data Literacy, d’analytique augmentée ou de Modern BI (terme de Gartner), d’analytique embarquée ou l’Active Intelligence.


Le monde de la Data n’en fini pas de se réinventer.

Top 10 des outils incontournables à l’usage des ingénieurs Data

Voici une sélection de 10 outils incontournables à l’usage des ingénieurs Data !

Pour concevoir et mettre en place une infrastructure robuste et efficace, un consultant data doit maîtriser différents langages de programmation, des outils de Data Management, des data warehouses, des outils de traitement des données, d’analyse mais aussi d’ IA et de ML.

  1. Python, la norme en terme de langage de programmation pour coder notamment des frameworks ETL, les interactions entre des API, automatiser certaines tâches, etc.
  2. SQL pour toutes les requêtes mêmes les plus complexes
  3. PostgreSQL, la base de données open source la plus populaire
  4. MongoDB, la base de données NoSQL pour sa capacité à traiter également les données non structurées sur de très larges volumes
  5. Spark pour sa capacité à capter et à traiter des flux de données en temps réel à grand échelle. De plus, il prend en charge de nombreux langages tels que Java, Scala, R et Python
  6. Kafka, la plateforme de streaming de données open source
  7. Redshift (Amazon), le datawarehouse dans le cloud conçu pour stocker et analyser des données sur de fortes volumétries
  8. Snowflake, la cloud Data Platform devenue incontournable aujourd’hui
  9. Amazon Athena, l’outil serverless de query interactif qui vous aide à analyser des données non structurées, semi-structurées et structurées stockées dans Amazon S3 (Amazon Simple Storage Service)
  10. Airflow (Apache) pour orchestrer et planifier les pipelines de données

La source : geek culture