Les composants d’une data stack moderne cloud native

Pour raccourcir au maximum le temps de mise à disposition des données aux ressources qui vont les exploiter, une data stack moderne cloud native – et agile par nature – comprend aujourd’hui :

Attention, le fait de porter votre plateforme BI dans le cloud (Lift and shift) ne suffit pas pour autant à la rendre moderne car c’est bien l’architecture qui doit être repensée !

Tous les composants qui participent à cette pile technologique moderne ont des caractéristiques communes. Déjà ils sont exposés as-a-service, orientés flux de production, les données sont centralisées dans le cloud data warehouse et on privilégie un écosystème SQL, le langage maîtrisé par le plus grand nombre. Ils fonctionnent sur des elastic workloads ou charges de travail élastiques pour plus de scalabilité (et du pay-per-use !).

Et pour 2022 ? Voici le top des 5 technologies les plus innovantes qui devraient venir enrichir votre pile technologique Data dans le cloud :

  1. Une couche d’intelligence artificielle
  2. Le partage de données ou data-as-a-service sous forme d’API
  3. La gouvernance de données, toujours plus indispensable dans les grandes entreprises qui cumulent des ensemble de données très diverses et privilégient une approche multi-cloud
  4. Le streaming de données pour tendre toujours plus vers un accès et une exécution temps réel des données
  5. Le service aux applications

Source : Data Stack, 5 prédictions pour le futur https://medium.com/@jordan_volz/five-predictions-for-the-future-of-the-modern-data-stack-435b4e911413

Le deep-learning s’invite dans les catalogues e-commerce

Les algorithmes de Deep Learning ne cessent d’ouvrir de nouveaux champs des possibles en termes d’applications ! Citons pour exemple le succès de sites comme « This Person Does Not Exist », « This Anime Does Not Exist », « This Automobile Does Not Exist ».

Chez Smartpoint, nous avons réussi à générer – from scratch – des mannequins virtuels ultraréalistes en utilisant les réseaux antagonistes génératifs GANs, nous permettant ainsi de lancer bientôt notre « This Fashion Model Does Not Exist » 😉  


Notre équipe de recherche a expérimenté de nouvelles solutions avec une base de données de photos de mode mettant en scène le port de vêtements de mannequins “réels” (des catalogues de produits utilisés dans l’e-commerce) dans l’objectif de voir comment les modèles génératifs GANs gèrent des géométries complexes et des données limitées.  


Ces modèles viendront surement enrichir à court terme le catalogue des d’outils de promotion qu’utilisent les marques de prêt-à-porter, les acteurs du retail ou encore les agences de publicité. Il faut dire que les enjeux sont de taille en termes d’économies potentielles et de gains de temps (location de studio, frais de shooting photo, mannequins, essayages multiples de modèles en différentes couleurs, etc.).  A suivre !

Omar GASSARA, Responsable du lab, Smartpoint

Fashion model generation using Generative Adversarial Networks (GANs), Smartpoint R&D

Top 3 des tendances en stratégies analytiques et migrations data-to-the cloud


Migrer en état vos traitements (workloads) qu’ils soient en Custom SQL (Python, Scala ou Java), en ETL Low-code (Fivetran ou Matillion par exemple) ou basés sur les technologies Hadoop (SPARK) peut sembler une bonne idée sur le papier… Mais dans les faits, vous ne faites que déplacer les enjeux de dette technologique et de réduction du TCO (total cost of ownership) des pipelines de données et … vous ne tirez pas pleinement partie des capacités des plateformes de dernière génération.

Voici trois best practice à suivre :

  1. Une meilleure utilisation des outils en SaaS qui apportent une valeur ajoutée immédiate sans nécessiter – ou presque – d’administration, d’autant plus qu’ils offrent aujourd’hui des fonctionnalités avancées en termes de sécurité, d’optimisation des performances et de réplication.
  2. La mise en œuvre des concepts DataOps dans vos cycles de développement tels que le contrôle de version et l’automatisation des builds, des tests et des déploiements.
  3. Une meilleure exploitation des capacités des plateformes de Data Cloud qui permettent aujourd’hui le partage massif de données via des data marketplace, sans avoir à concevoir des pipelines pour échanger des extraits des fichiers, ni copier les données, ni développer et maintenir des API pour mettre à disposition les données aux ressources qui vont les consommer. Par exemple Snowflake Data Cloud propose plus de 400 data sets et une plateforme unique pour prendre en charge toute les données de manière sécurisée avec une gouvernance centralisée !

Pour aller plus loin sur notamment l’approche de l’ingénierie de données avec dbt (Data Build tool) en particulier et sur les solutions proposées par Snowflake, c’est ici.

Réduire l’impact environnemental … passe aussi par une meilleure gestion de vos données.

Quelle méthode adopter pour une approche frugale de vos projets data ? Certes, il est nécessaire d’avoir un certain volume de données pour établir des estimations ou des prévisions mais au-delà d’un certain seuil, le gain apporté par une donnée supplémentaire décroit.


Accumuler des data n’est pas synonyme de création de valeur, alors que l’on a tendance à collecter et à stocker un maximum de données « au cas où » nous aurions besoin de les exploiter et de les analyser à moment donné…. C’est au contraire une aberration ! Non seulement les données perdent de manière générale de la valeur avec le temps et surtout, leur capture, leur stockage, leur circulation et leur diffusion génère des dépenses énergétiques exponentielles … d’autant plus que la Data est inexorablement copiée vers des destinations diverses et variées sans que la donnée source ne soit jamais supprimée.


Comment ne pas générer plus de données que nécessaire ? Comment réduire la consommation de ressources matérielles et énergétiques ?
Voici en 5 points des pistes de développement de techniques de minimisation des coûts énergétiques de vos projets Data.

  1. L’intérêt de la data. Avez-vous vraiment besoin de ces données et pour quels usages ? Il est important de ne pas perdre de vue l’objectif à atteindre et en quoi il justifie la collecte et l’informatisation de la donnée (utilité)
  2. Représentativité de la donnée : en quoi cette donnée participe à un ensemble de phénomènes ? Est-ce que cette data est la plus pertinente pour représenter ce ou ces phénomènes ?
  3. Est-ce que cette nouvelle donnée rend caduque une autre donnée déjà collectée et à quelle fréquence ?
  4. Éviter la redondance liée aux étapes de transformation des données en mutualisant notamment les étapes de préparation via un partage des pipelines (DataOps, MLOps) pour pouvoir les réutiliser et analyser les interactions entre les projets.
  5. Meilleur échantillonnage et sondage des données pour déterminer quel volume est réellement nécessaire pour une analyse ou la modélisation souhaitée. Souvent seule 10% des données suffisent pour obtenir les attendus ou suivre les évolutions d’un phénomène … et c’est autant de ressources informatiques économisées au niveau infrastructure !
Pour une approche frugale de vos projets data

Pour aller plus loin : Projets data : comment réduire l’impact environnemental

Ecosystème Data ? État de l’art en cette rentrée 2021

Smartpoint partage avec vous les principaux composants des plateformes data d’aujourd’hui selon lakeFS.

  1. Ingestion des Data soit par lots avec Spark ou Pandas, soit par streaming avec Kafka, soit issues de systèmes opérationnels via managed SaaS ou d’autres BDD internes en utilisant des outils comme Stitch
  2. Datalake avec principalement deux types d’architectures par stockage d’objets dans le cloud (GCP, Azure, AWS) et moteur d’analyse avec une interface SQL (Snowflake, Redshift, Databricks lakehouse, …)
  3. Gestion des métadonnées avec des formats ouverts de tables et des métastores comme celui de Hive
  4. Gestion du cycle de vie des données par CI/CD et des environnement dédié de développement de données
  5. Orchestration des tâches pour les pipelines de données qui s’exécutent sur le datalake avec Airflow ou Dagster 
  6. Traitement des données avec des moteurs de calculs distribués comme Spark
  7. Virtualisation avec des outils tels que Trino (ex PrestoSQL) ou Denodo
  8. Analytics et Data Science en utilisant un modèle MLOps (Meta Flow développé par Netflix ou Kuberslow par Google), des workflows analytiques et des outils de discovery comme datahub (linkedIN), metacat (Netflix) ou dataportal (airbnb)
  9. Gouvernance de données
  10. Qualité des données basée sur des tests et des règles de monitoring enrichies en apprentissage automatique (ML)

Pour aller plus loin : State of data engineering

Développeurs Javascript, votre stack technologique évolue en permanence. Voici les tendances à suivre.

  1. En termes de frameworks, React reste en haut de la pile avec Angluar mais aussi VueJS et Svelte.
  2. Il existe pléthore d’outils de gestion de projet dont les incontournables Jira, Trello, Asana et Confluence mais aussi Notion, Clubhouse ou encore Monday pour gérer le processus de développement CI/CD. Citons également Slack ou Discord pour la communication entre les équipes.
  3. En Back-end, les plus populaires restent NodeJS, PostgreSQL en BDD SQL, MongoDB en noSQL, HaperDB pour les BDD hybrides NoSQL/SQL.
  4. En Front-end, NextJS est parfait pour un site web statique ou Create React App pour un site Web React standard avec Redux.
    Tailwind vous permet d’éviter de partir de zéro pour écrire vos propres CSS pour un processus de développement encore plus rapide. Par ailleurs, Sass et Styled-components peuvent être utilisés comme alternative à Tailwind avec des capacités avancées pour la personnalisation de composants dans React.
  5. Citons également Storybook pour la création modulaire de composants dans une bibliothèque dynamique qui peut être mise à jour et partagée au sein de l’entreprise.
  6. Pour les tests : Jest et Enzyme, React Testing Library et Cypress. Et enfin, Vercel, Netlify et AWS pour un CI/CD avec GitHub.  
    Et pour terminer les applications mobile avec ReactNative et Redux, FlutterApp et Dart.

Source : Modern fullstack

Les buzzwords de la data

Le monde de la tech est truffé de buzzwords et de concepts … et la Data (et Business Intelligence) ne fait pas exception !

Qlik s’est même fendu d’un lexique lors son événement annuel fort bien résumé ici : Comprendre les concepts fondamentaux de la BI moderne


En vrac, on retrouve :
 👉 les Data Insights qui finalement viennent remplacer la BI « historique » dans le sens où on cherche (toujours) à faire parler des données brutes (lesdatas)
 👉 Le Data Catalog qui se rapproche du fameux dictionnaire de données
 👉 Le Pipeline analytique qu’on pourrait rapprocher du Data Management avec l’ETL, le DQM puis la restitution dans des dashboards

On y aborde aussi les concepts de Data Literacy, d’analytique augmentée ou de Modern BI (terme de Gartner), d’analytique embarquée ou l’Active Intelligence.


Le monde de la Data n’en fini pas de se réinventer.

L’IA part à la découverte de nouvelles molécules dans l’industrie pharmaceutique.

La découverte de nouvelles molécules, qui sont dotées de spécifications biochimiques bien particulières, représente toujours un processus très laborieux et coûteux dans la R&D pharmaceutique. En effet, cette découverte est traditionnellement menée par un tâtonnement au cas par cas sur un nombre astronomique de molécules candidates dont l’objectif est de trouver, ou mieux identifier, une molécule qui maximise un grand nombre de critères de natures très diverses. Même en s’appuyant sur des logiciels de simulation complexes, la démarche demeure incertaine, étant donné que, d’une part, la stabilité physico-chimique des molécules prédites numériquement n’est pas toujours assurée, et que, d’autre part, les structures moléculaires générées sont souvent difficiles à développer et à mettre en œuvre. Dans ce contexte, l’Intelligence Artificielle (IA) permet d’optimiser ce problème multiparamétrique dont les contraintes sont abordées simultanément et, par la suite, de mettre au point des modèles holistiques à forte valeur ajoutée qui ont le potentiel de générer des nouvelles molécules pratiques et rentables.

Notre projet intitulé « L’IA pour la génération contrôlée de nouvelles molécules » s’inscrit dans cette perspective de creuser les apports possibles de l’IA dans la R&D pharmaceutique. Pour y parvenir, nous avons développé un nouveau modèle de réseau neuronal récurrent contrôlé, basé sur une architecture multicouche de cellules « Long Short-Term Memory (LSTM) », pour générer des molécules présentant des propriétés pharmacologiques et physico-chimiques particulières (activité sur une protéine, solubilité, toxicité, etc.) et qui peuvent être, par exemple, utiles pour le traitement du cancer. En l’occurrence, nous avons généré des molécules actives sur les cibles suivantes :

  • BRAF, gène responsable de la production de la protéine B-Raf sérine/thréonine kinase B-Raf impliquée dans l’envoi des signaux qui déterminent la croissance des cellules,
  • ITK, gène responsable de la production de la protéine Tyrosine-protéine kinase ITK/TSK soupçonnée de jouer un rôle important dans la prolifération et la différentiation de lymphocytes T,
  • mTOR, enzyme de la famille des sérine/thréonine kinases qui régule la prolifération cellulaire, la croissance, la mobilité et la survie cellulaire ainsi que la biosynthèse des protéines et la transcription.

Le modèle proposé, que nous appelons « Multiplicative Conditionned LSTM-based RNN », est capable de générer de nouvelles molécules qui n’avaient jamais été observées auparavant et qui présentent une diversité proche de celle des molécules qui ont servi à l’apprentissage du modèle, tout en contrôlant leurs propriétés et les caractères actifs ou non sur chaque cible, malgré le nombre limité de données d’apprentissage disponibles.

Omar GASSARA, R&D Project Manager, Smartpoint

Les algorithmes utilisés dans le cadre de ce projet sont : (1) un réseau de neurones récurrents (en anglais « Recurrent Neural Network RNN ») profond avec une cellule d’architecture « Long Short-Term Memory », (2) « Semantically Conditionned LSTM-based RNN » et (3) « Multiplicative Conditionned LSTM-based RNN », le nouveau modèle que nous proposons.

Exemple de nouvelles molécules générées présentant une activité sur le gène BRAF ; Ces représentations graphiques, dites formules topologiques, montrent la structure de chaque molécule et indiquent le nombre et le type d’atomes qui la composent, ses liaisons interatomiques et sa forme dans l’espace.

2022, les tendances de la Data.


Rituel de nouvelle année oblige, voici 6 grandes tendances Data qui devraient marquer 2022 avec pour toile de fond un cloud toujours plus omniprésent, une informatique quantique qui devrait enfin sortir des cartons, un développement soutenu des tissus de données (Data Fabrics) et de son corolaire maillage de données (Data Mesh).

  1. Data Fabric, un environnement qui permet de réconcilier toutes les sources de données et Data Mesh, une approche d’architecture distribuée dynamique qui consiste à spécifier un domaine par sa création, le stockage et le catalogage des données afin qu’il soit exploitable par tous les utilisateurs d’autres domaines.
  2. les Data Platforms cloud-natives « as-a-service » qui apportent élasticité, performance et évolutivité. Elles devraient porter 95% des projets de transformation numérique des entreprise à horizon 2025 vs. 40% cette année.
  3. L’hyper-automatisation et l’apprentissage automatique. Diminuer l’intervention humaine, pour la concentrer sur ce qui apporte le plus de valeur ajoutée, permet d’accélérer le time-to-market. Le développement de l’apprentissage automatique (ML) dans tous les processus métiers où il peut être embarqué est déjà une tendance forte qui devrait, sans surprise, s’accentuer sur toutes les tâches qui peuvent l’être. Cela permet aussi de gagner en capacités décisionnelles.
  4. En parlant de BI (Business Intelligence), elle devrait continuer à se développer et à se démocratiser au-delà des seules grandes entreprises (PME). Plus facile d’accès, solutions moins chères aussi, elle se met de plus en plus au service du pilotage par la performance. Il en est de même de l’analyse prédictive (+ 20% sur 5 ans cf source ci-dessous)
  5. l’ingénierie d’Intelligence Artificielle (IA) qui devrait permettre aux 10% des entreprises qui l’auront mise en pratique de générer trois fois de valeur que les 90% qui ne l’auront pas fait (toujours selon Gartner).
  6. Small Data (vs. Big Data) dont l’objectif est de se concentrer sur la collecte et l’analyse de données vraiment utiles (et non de capter par principe massivement toute les données) … Vers une approche plus rationnelle, réfléchie, plus responsable et économe auquel nous sommes très attachés chez Smartpoint.

Quelles solutions à suivre en cette année 2022 ? Informatica, Microsoft toujours (notamment sur l’automatisation avec Power Automate), Qlik et Denodo pour n’en citer que 4 !

En clair, les années passent … mais l’enjeu reste le même. En revanche, il a gagné en criticité au fur et à mesure que les entreprises ont réalisé que les données sont une ressource stratégique, quel que soit leur secteur d’activité. Leur capture, leur gestion, leur gouvernance, leur exploitation et leur valorisation restent le défi N°1.


D’ailleurs, parmi les 12 tendances de Gartner pour 2022, 5 concernent la Data !

Article : https://www.gartner.fr/fr/technologies-de-l-information/insights/principales-tendances-technologiques

Top 10 des outils incontournables à l’usage des ingénieurs Data

Voici une sélection de 10 outils incontournables à l’usage des ingénieurs Data !

Pour concevoir et mettre en place une infrastructure robuste et efficace, un consultant data doit maîtriser différents langages de programmation, des outils de Data Management, des data warehouses, des outils de traitement des données, d’analyse mais aussi d’ IA et de ML.

  1. Python, la norme en terme de langage de programmation pour coder notamment des frameworks ETL, les interactions entre des API, automatiser certaines tâches, etc.
  2. SQL pour toutes les requêtes mêmes les plus complexes
  3. PostgreSQL, la base de données open source la plus populaire
  4. MongoDB, la base de données NoSQL pour sa capacité à traiter également les données non structurées sur de très larges volumes
  5. Spark pour sa capacité à capter et à traiter des flux de données en temps réel à grand échelle. De plus, il prend en charge de nombreux langages tels que Java, Scala, R et Python
  6. Kafka, la plateforme de streaming de données open source
  7. Redshift (Amazon), le datawarehouse dans le cloud conçu pour stocker et analyser des données sur de fortes volumétries
  8. Snowflake, la cloud Data Platform devenue incontournable aujourd’hui
  9. Amazon Athena, l’outil serverless de query interactif qui vous aide à analyser des données non structurées, semi-structurées et structurées stockées dans Amazon S3 (Amazon Simple Storage Service)
  10. Airflow (Apache) pour orchestrer et planifier les pipelines de données

La source : geek culture