Comparaison des plateformes pour moderniser votre système Data Legacy.

Vous souhaitez moderniser votre système Data legacy (ou système hérité) et vous vous demandez quelle plateforme choisir ? Et vous avez en effet le choix !

1. AMAZON WEB SERVICES (AWS)

Evolutive et flexible, elle permet de traiter une grand variété de données et propose de nombreux services tels que Amazon S3, Amazon EMR, Amazon Redshift, Amazon Athena, et Amazon QuickSight.

2. MICROSOFT AZURE CLOUD

Autre alternative très populaire parmi nos clients ! Elle offre aussi de nombreuse solutions telles que Azure Blob Storage, Azure HDInsight, Azure Data Factory et Azure Machine Learning.

3. SNOWFLAKE

C’est une vraie alternative aux SCP (services cloud providers) proposés par Microsoft, Amazon ou Google avec son architecture de données unique et évolutive. Elle offre aussi de nombreux outils tels que Snowflake Cloud Data Warehouse, Snowflake Data Exchange, et Snowflake Data Marketplace

Et entre Databricks et Snowflake ? Quelle solutions data choisir ?

La force principale de Databricks est sa puissance de traitement. Les fonctionnalités Core de Spark sont intégrées et sont idéales pour tous chargements ETL. Le stockage se fait dans un data lakehouse, comme un datalake mais avec la fonctionnalité d’une base de données relationnelle en plus. Il s’agit donc essentiellement d’un datalake, mais vous pouvez exécuter SQL dessus, ce qui est un sacré avantage !

Nous vous invitons à considérer Databricks si vous n’avez pas d’outil ETL existant ou si vos données nécessitent un nettoyage intensif avec des sources de données et des schémas imprévisibles. La technologie d’ingestion “schema on read” ou “schemaless” est un vrai plus pour la passage à l’échelle de vos données.

Snowflake est un cloud-based datawarehouse as a service. Il fournit un service ELT principalement par le biais de la commande « COPY », des schémas dédiés et des fichiers de données (colonnes de métadonnées). Il vous permet de lancer plusieurs clusters de calcul indépendants qui peuvent opérer sur les données simultanément à partir d’une seule copie des données. En termes d’ingénierie des données, ils suivent la méthode ELT. Néanmoins, ils offrent une bonne prise en charge des outils ETL tiers tels que Talend ou Fivetran. Vous pouvez même installer DBT.

Vous n’avez plus à vous préoccuper du chargement de vos données dans Snowflake que si vous disposez d’un outil ETL existant tel que Tibco, Fivetran, Talend, etc. Toute l’infrastructure de votre base de données (partitionnement, scalabilité, index, etc.) est gérée à votre place.

ET LES ALTERNATIVES EN OPEN SOURCE ?


SPARK bien-sûr 🤩 Mais chez Smartpoint, nous sommes aussi particulièrement fans de la suite Elastic Stack pour la recherche et l’analyse de données. Vous y retrouvez des outils comme le désormais très populaire Elastic Search, Beast pour la collecte de données, Logstash pour le traitement et Kibana pour la dataviz.

DATA CLOUD PAFORMSTARIFSFONCTIONNALITÉS
AWSAWS propose une tarification « pay-as-you-go », C’est à dire vous payez uniquement pour les services que vous utilisez. AWS, c’est un ensemble de fonctionnalités pour le stockage, le calcul, les BDD, le ML l’analyse et la mise en sécurité. C’est également des outils de développement comme CodeCommit, CodeBuild et CodeDeploy.
AzureAzure propose aussi des tarifs pay-as-you-go, dégressifs dans le temps comme AWS.Azure offre des fonctionnalités de stockage, de calcul, de BDD, de machine learning, d’analyse et la mise en sécurité. C’est également des outils de développement comme Visual Studio et Visual Studio Code.
SnowflakeSnowflake propose une tarification basée sur l’utilisation. Vous payez en fonction de la quantité de données stockées et de la quantité de traitement que vous consommez. Les tarifs sont variables en fonction du niveau de service utilisé.Snowflake offre des services de stockage, de traitement et de requête de données, d’analyse de données en temps réel et de mise en conformité règlementaire des données. Snowflake permet également de s’intégrer avec des outils de business intelligence comme Power BI et Tableau.
Comparaison entre plateformes cloud

Evidemment, votre choix de plateforme dépend de vos spécificités, de la volumétrie, des use cases… et des compétences techniques que vous avez !
N’hésitez pas à nous interroger ici : nous contacter.

Pour aller plus loin sur comment choisir la bonne solution data pour votre entreprise et moderniser votre SID vieillissant ?

RSE, Smartpoint reçoit la médaille de platine et entre dans le top 1% des entreprises.

Smartpoint rejoint le top 1% des entreprises les mieux notées. Cette reconnaissance vient saluer les efforts menés par l’ensemble des équipes Smartpoint qui visent l’exemplarité en ces domaines.

Paris, le 13 mars 2023

EcoVadis évalue les performances RSE des entreprises à travers quatre thèmes que sont l’environnement, l’éthique et la gouvernance, le social et les Droits de l’Homme et la politique d’achats responsables.  Le score, de 0 à 100, reflète la qualité du système de gestion de la RSE de l’entreprise au moment de l’évaluation

Après une médaille d’argent en 2021, Smartpoint a engagé un ensemble de mesures correctives pour améliorer les performances de sa politique RSE. Un plan d’action jugé concluant et salué par un score de 78/100, qui lui vaut cette distinction délivrée par EcoVadis.

Smartpoint est engagée dans une politique d’amélioration continue, avec des actions concrètes, pour améliorer son impact sur la société.
Nous sommes fiers de cette médaille de platine qui nous place parmi les entreprises les plus exemplaires en termes de RSE.
En revanche, nous sommes conscients que les enjeux de développement durable sont considérables et qu’il reste encore tant à faire. Nous avons également engagé une démarche de réduction de notre empreinte carbone et nous militons aussi pour plus de sobriété numérique via notamment la conduite de projets data responsables.
C’est le combat du siècle et il ne fait que commencer.

YAZID nechi, président, smartpoint

RÉSULTATS SMARTPOINT SCORE 2023 – SOURCE ECOVADIS

Index 2023 Égalité professionnelle entre les femmes et les hommes, Smartpoint obtient un score de 73/100.

Paris, le 01/03/2023

Concernant l’indicateur relatif à l’écart de taux d’augmentations individuelles, Smartpoint obtient 35 points sur 40, avec un écart favorable à la population féminine. 100% des salariées ont bénéficié également d’une augmentation dans l’année qui a suivi leur retour de congés maternité.

En revanche, les hommes restent sur-représentés parmi les dix salariés ayant les plus hautes rémunérations.

Smartpoint a mis en place des mesures correctives pour améliorer son score telles que l’élaboration d’une stratégie d’action pour réduire les écarts constatés lors du diagnostic.

Architectures Data Cloud, les 5 chantiers prioritaires.

1. La gouvernance des données

Nous en sommes convaincus chez Smartpoint, ce sujet n’a jamais été d’autant d’actualité. Pourtant, il est tout sauf nouveau ! D’ailleurs, nous avons des années d’expérience en ce domaine lorsque les données étaient dans des entrepôts …. Mais ces chantiers se sont beaucoup complexifiés avec les nouveaux modèles d’architectures puisqu’il s’agit de gérer aujourd’hui des données dans des data lakes ou des lakehouses (stockage dans le cloud donc), non structurées, de plus en plus volumétriques et partagées largement (data mesh).

Les chantiers sont nombreux et le choix d’outils vaste ! Audit, data lineage de bout en bout, qualité des données, gestion des données de références, data catalogs, règles de accès aux des données et de partage des données de manière sécurisées, mise en conformité règlementaire (…).

La Gouvernance des données est devenu un sujet très complexe et critique pour nos clients car la solution réside dans la spécificité de chaque écosystème IT et les utilisations qui sont faites des données.

Parmi les solutions, citons celles des incontournables Informatica, Talend, Collibra ou encore Experian.

2. Le Lakehouse

Toutes les plateformes proposent désormais des fonctionnalités pour implémenter un lakehouse plutôt qu’un data warehouse ou un data lake (quelle est la différence entre data warehouse, un data lake et un lakehouse ? C’est à lire ici)

Le créateur de Spark, Databricks, a clairement une longueur d’avance en termes de solution mais cela ne va pas peut-être pas durer. En format de tables open-source, sachez que Apache Iceberg est de plus en plus adopté par les services AWS (Glue notamment). Snowflake permet aussi désormais d’implémenter un lakehouse en utilisant Iceberg. 

3. L’architecture Data Mesh

Nous avons beaucoup travaillé en 2022 sur ce concept architectural qui se rapproche d’une architecture microservices avec des composants qui peuvent être modifiés ou mis à jour individuellement, et être utilisés par plusieurs équipes (Les quatre principes fondamentaux d’un data mesh sont à lire ici)

Les premiers retours d’expériences nous ont montré, qu’au-delà du concept, cela a un impact fort au niveau de l’organisation de la team Data qui doit être responsabilisées sur leur domaine Data (Le Product Thinking ou Data as product).

4. Le streaming et le traitement temps réel

Historiquement, les data warehouses étaient alimentés en fin ou en début de journée par traitements batch (et cela prenait des heures !) pour que les utilisateurs BI puissent disposer d’états ou de tableaux de bords un fois par jour. Ils attendent aujourd’hui d’être alertés en temps réel pour prendre des décisions ou réagir immédiatement. C’est devenu indispensable en gestion des risques (attrition client, risques de crédit ou fraude, etc.) ou pour alimenter les moteurs de recommandations de produits par exemple.

Cet enjeu de vitesse des données est de plus en prégnant chez nos clients. Mais avec l’augmentation des volumes, il devient de plus en plus important de ne pas uniquement les charger, mais aussi de les transformer et de les analyser en temps réel. Cela impacte fortement votre architecture data. Là, encore la plateforme lakehouse de Databricks est intéressante pour le streaming des données et pour fournir de l’analytique en temps réel. Autre solution, utiliser par exemple Apache Flick et Amazon Kinesis Data Analytics pour de l’ETL sur vos flux de données temps réel (à lire ici).

5. La modélisation de données

C’est le grand retour ! Avec Hadoop et son datalake, toutes les données étaient déversées sans aucune notion de modélisation. On sait aujourd’hui, que cela été une aberration. En termes de stockage bien sûr mais aussi sur le plan architectural car cela a rendu très compliqué l’exploitation des données et la data discovery.

Le data modeling permet de stocker les données de manière cohérente et organisée, les data scientists y ont accès plus facilement et peuvent mieux les exploiter. Les résultats sont d’autant améliorés et beaucoup plus fiables.

En rationalisant le pipeline de données et en permettant aux ingénieurs data de se concentrer sur des tâches plus complexes, la modélisation des données peut aider les organisations à mieux utiliser leurs données et à libérer tout le potentiel de la data science et de l’apprentissage automatique. En savoir plus sur les type de modélisation ? C’est ici.

Et vous, quelles sont vos priorités Data dans les mois qui viennent ?

Confiez-vos chantiers au pure player de la data 😉

Source : https://medium.com/@gauravthalpati/5-data-trends-for-y2023-da9af83cca34

Bienvenue dans la modélisation de données.

L’ingénierie Data ne cesse d’évoluer et s’éloigne du traditionnel ETL.

Historiquement, les ingénieurs data se concentraient essentiellement sur la mise en place d’un pipeline ETL (extract, transform, load) pour déplacer les données issues de diverses sources vers un référentiel de données centralisé tel qu’un data warehouse. Cette tâche était particulièrement chronophage, nécessitait beaucoup de codage et de configurations manuelles.

Avec l’arrivée d’outils tels que Archi (Open Source), PowerDesigner de SAP, SqlDBM (Online Data Modeling Tool), IDERA ER/Studio ou encore Erwin Data Modeler de Quest, il est dorénavant possible d’automatiser l’ensemble de ce processus.

Résultat ?
Les ingénieurs data sont en capacités d’extraire les données et de les charger rapidement alors que les volumes collectés et stockés sont exponentiels. Ils peuvent se concentrer sur des tâches plus complexes et à plus forte valeur ajoutée, la modélisation des données.

La modélisation de données est le processus qui permet de créer une vue conceptuelle des données et leur relation entre elles. Elle permet de définir la structure des données, ses attributs, les liens entre elles et donc d’organiser leur stockage de manière optimale. C’est indispensable pour tout projet analytique car cela permet de s’assurer que les données sont correctes, cohérentes, organisées et facilement accessibles.

Trois type de modélisation de données :
👉 Modélisation conceptuelle : Il s’agit de créer une représentation de haut niveau des données, y compris les relations entre les entités, afin de déterminer la structure globale des données.
👉 Modélisation logique : Il s’agit de créer une représentation plus détaillée des données, y compris les attributs de chaque entité et les relations entre les entités.
👉 Modélisation physique: Il s’agit de concevoir la base de données physique et de déterminer la meilleure façon de stocker les données en termes de structures de données, d’indexation et de partitionnement.

Non seulement la modélisation de données permet d’améliorer le Data Management et Data Warehousing mais cela ouvre aussi de nouvelles perspectives en Data Science et en Machine Learning. En effet, comme les données sont stockées de manière cohérente et organisée, les data scientists y ont accès plus facilement et peuvent mieux les exploiter. Les résultats sont d’autant améliorés et beaucoup plus fiables.

En rationalisant le pipeline de données et en permettant aux ingénieurs data de se concentrer sur des tâches plus complexes, la modélisation des données peut aider les organisations à mieux utiliser leurs données et à libérer tout le potentiel de la data science et de l’apprentissage automatique.

Data Modeling

Sources :

https://www.guru99.com/data-modelling-conceptual-logical.html

https://publication.hikmahtechnologies.com/data-engineering-evolves-from-etl-to-the-world-of-data-modelling-2175c8083f31

Les catalogues de données sont devenus des incontournables dans une démarche de gouvernance de données.


Data Driven, ainsi va le monde ! Ainsi les data catalogs sont devenus indispensables.

Un Data Catalog est un outil de data management entièrement consacré à la documentation de tout ce qui est relatif à vos métadonnées : description, structure, sources, qualité, traitements, usage, accès, relations, etc.

Bien pensé, il vous permet de les classifier, de les comprendre et de les (re) trouver pour être immédiatement en capacité de les exploiter !

Zoom sur trois solutions de Data Catalogs

  1. Microsoft Purview 1. C’est l’un des nombreux services proposés dans la stack Azure dans le cadre de la mise en place d’une gouvernance de vos données. Il rassemble les métadonnées issues de multiples sources, y compris on-premise et multicloud, et facilite la data discovery. Sa faiblesse ? Le Data Lineage. 
  2. Databricks Unity – C’est une solution agnostique de data discovery et data governance, peu importe CSP que vous utilisez. Elle met à disposition de nombreux connecteurs avec la plupart des data stacks. Unity propose toutes les fonctionnalités nécessaires aux catalogues de données : connecteurs, data lineage, data discovery facilitée, etc.
  3. Amundsen (Lyft) est une solution de data catalog en Open Source avec une architecture microservices. Cela permet à la communauté des ingénieurs data de contribuer activement à son développement. Elle a d’ailleurs déjà un catalogue de connecteurs particulièrement riche. RDV sur GitHub !

Il existe beaucoup de solutions de Data Catalogs, citons Informatica, Talend, Collibra, Atlan ou encore le pure player français DataGalaxy. 


Smartpoint vous accompagne dans le choix de la meilleure solution pour vous selon votre stack data et l’implémente, contactez-nous 😊

SOURCES :

https://medium.com/@poatek/in-a-data-driven-world-data-catalogs-are-necessary-tools-5851ee3e22c2

https://medium.com/@poatek/in-a-data-driven-world-data-catalogs-are-necessary-tools-5851ee3e22c2

Projets Data responsables et sobriété numérique ? Oui, c’est possible.

Le saviez-vous ? En 2030, on prévoit que 13 % de la consommation mondiale d’électricité proviendra des centres de données (source ici), Rien qu’en France, 10 % de la consommation d’électricité provient des data centers.

Et alors que le cloud computing, l’IoT et l’IA exposent, les besoins en stockage de données également. Aujourd’hui, l’industrie du traitement des données est en voie de produire plus d’émissions de gaz à effet de serre que les secteurs de l’énergie, l’automobile et l’aviation réunis.

Il est possible d’avoir une approche plus frugale et responsable pour protéger l’environnement … sans pour autant freiner le progrès. En revanche, cela nous demande de repenser nos méthodes, nos approches et mêmes nos principes d’architecture data.

Historiquement, dans le cadre d’un projet de Business Intelligence traditionnel, nous n’étions pas du tout dans une démarche de sobriété ! L’objectif était de collecter un maximum de données, de les stocker de manière centralisée dans un datawarehouse ou un datalake, puis les traiter, les croiser, les analyser pour les restituer au plus grand nombre sous forme de tableaux de bord, et le plus fréquemment possible. Un gouffre en termes de consommations de ressources !

Aujourd’hui, l’heure est au tri et cette bonne pratique est aussi en vigueur pour les projets Data.

Au préalable, il convient de se poser la question des données utiles et celles qui ne le sont pas. Stocker des données qui ne servent à rien … ne sert à rien d’autant plus que les données sont périssables dans le temps pour la plupart. Ces données inutiles, ou dark data, représenterait plus de la moitié des données stockées par les entreprises !

  • Au niveau du processus ETL, on peut identifier que les données dites vivantes, c’est-à-dire uniquement celles qui ont changé pour effectuer uniquement le chargement incrémental des données
  • Se concentrer sur les fonctionnalités essentielles, c’est à dire qui vont demander un traitement dont vous avez vraiment besoin
  • Réduire le nombre de requêtes en utilisant les caches (systèmes de stockage temporaire)  
  • Vous poser la question de la fraicheur des données, avez-vous vraiment besoin d’un rapport quotidien ?
  • Collecter que l’essentiel et diminuer les volumes échangés
  • Limiter les traitements d’information et surtout arrêter la réplication des données dans plusieurs systèmes
  • Faire le ménage en supprimant les données qui ne servent à rien et respecter le cycle de vie des données (data governance)
  • Moderniser votre écosystème data en une plateforme unique qui vous permettra de travailler directement sur la donnée

Au niveau du stockage, dès que possible, il est préférable d’utiliser une infrastructure edge computing qui permet de traiter les données au plus proche de là où on en a besoin et donc de réduire d’autant la latence. C’est l’architecture la plus appropriée pour l’IoT.

Une infrastructure cloud est toujours préférable car vous ne payez qu’à l’usage.

Chez Smartpoint, nous suivons particulièrement des fournisseurs tels Ikoula, hébergeur français de Green Hosting qui utilise de l’énergie issue à 100% d’énergie renouvelables ou encore Qarno dont le principe est de décentraliser la puissance de calcul et de valoriser la chaleur émise par les serveurs.

Pour aller plus loin : Sobriété numérique : comment développer un projet data éco-responsable ?

Projets data responsables et sobriété énergétique

Data virtualisation vs. Data Fabric, comment choisir ?

Déjà, ces deux approches permettent de gagner en agilité et de pouvoir mieux exploiter des données plus rapidement même si elles sont en silos organisationnels. Elles répondent toutes deux à la volonté des entreprises de moderniser leurs architectures de données alors qu’elles subissent un legacy (ou des systèmes data hérités) qui font de la collecte et du traitement des données un processus fastidieux qui consomme beaucoup de ressources, humaines comme temporelles !

Évidemment, vous avez toujours la solution d’acquérir de nouveaux outils et de remettre à plat tout votre écosystème data dans une nouvelle architecture … mais en attendant, la virtualisation des données est un bon début pour moderniser votre architecture data !

  • Elle permet d’accéder aux données en mode Data as a service grâce à ces connecteurs multi-sources.
  • Elle organise également les données pour que vous puissiez les visualiser ou réaliser des tableaux de bords.
  • C’est une solution satisfaisante pour vos besoins en business Intelligence (BI) et autres requêtes ad hoc car aujourd’hui toutes les entreprises ont des données dans le cloud et des systèmes distribuées.

Une data fabric, elle, est une solution de data management qui vous fournit une plateforme unique capable de prendre en charge toutes les technologies qui fonctionnent sur tous vos systèmes existants.

  • Les solutions de data management sont beaucoup plus poussées et complètes ; et permettent de prendre en charge des applications et des usages plus complexes.
  • C’est un framework d’architecture avec un accès centralisé aux données qui permet de les rendre interopérables entre elles.
  • Un data fabric est le must-have pour les analytics avancés qui ont besoin de larges volumes de données : analyses prédictives, IoT, apprentissage automatique (ML), temps réel, etc.

Pour conclure, pour exploiter aux mieux vos données et étendre leurs capacités, il vous faut les deux 😊

Top 4 tendances Data à suivre en 2023

L’intelligence Artificielle toujours au top ! Qui n’a pas été bluffé par le chat GPT de Open AI ? Clairement, c’est la technologie (IA et son corolaire ML) qui est en train de révolutionner nos manières de travailler, de vendre et de vivre ! Alors que les volumes de données ne cessent de croitre, les algorithmes se nourrissent, apprennent et ne cessent de s’améliorer.

Le Data as a service (DaaS) devrait se démocratiser encore davantage dans les entreprises alors qu’elles adoptent massivement le cloud pour moderniser leurs infrastructures vieillissantes et leurs systèmes data hérités (Legacy), devenus trop lourds à maintenir et trop gourmands en ressources.

Cela facilite l’accès aux données, leur analyse et leur partage au sein de l’organisation.

Le DaaS pourrait bien devenir la méthode la plus courante pour intégrer, gérer, stocker et analyser toutes les données. Normal quand on sait qu’un meilleur partage et une exploitation des données par le plus grand nombre, permet aux organisations d’être plus efficaces et performantes.

L’automatisation ! De nombreuses tâches analytiques sont désormais automatisées et ce phénomène va s’accentuer. C’est déjà une réalité en préparation des données mais aussi sur l’automatisation de certains processus prédictifs ou de recommandation.

Nous vous invitons à regarder la plateforme APA (automatisation des processus analytiques) de Alteryx qui promet de révolutionner le Data Wrangling.

La gouvernance des données n’a jamais été autant au cœur de l’actualité et ce sera encore le cas en 2023 !

On n’a en effet jamais autant produit, collecté et consommé de données. La question de leur qualité est non seulement centrale, car c’est là que réside que toute sa valeur, mais les entreprises ont également besoin de s’appuyer sur une plateforme qui permet de les partager de manière sécurisée au sein de l’organisation tout en respectant les règlementations notamment en termes de protection et de confidentialité.  

En 2023, si vous ne l’avez pas déjà fait, ce sera le moment de mettre en place un programme de Data Management … 

Retour sur l’actualité de Smartpoint en 2022 en quelques faits marquants.

2022 a vu Smartpoint grandir, croître mais aussi engager de nouveaux chantiers pour s’inscrire dans une logique de développement responsable et durable. Voici les principaux faits marquants qui ont marqué cette année.

  • L’équipe Captiva nous a rejoint et c’est près de 80 collaborateurs, spécialisés dans le développement de produits et la qualité logicielle, qui participent aujourd’hui à enrichir notre proposition de valeur pour nos clients. Nous sommes aujourd’hui plus de 250 !
  • Nous avons pris des engagements encore plus forts pour un développement durable et un numérique plus responsable : notre politique RSE a reçu la médaille d’argent délivrée par EcoVadis, nous avons réalisé notre bilan Carbone et engagé de nombreuses actions pour encore nous améliorer ; et nous avons rejoint la communauté Planet Tech’Care. 
  • Nous sommes plus visibles et reconnus ! Notre nouveau site web a vu bondir le nombre de visiteurs X5 et vous êtes toujours plus nombreux à nous suivre sur LinkedIN avec +65% d’abonnés en plus par rapport à l’année dernière.

Résultat ? Nous allons réaliser plus de 20% de croissance organique cette année.

Alors, merci à l’ensemble de nos équipes pour leur engagement et à nos clients pour leur confiance !

Faits marquants et retrospectives 2022