Outils Data
Voici une sélection de 10 outils incontournables à l’usage des ingénieurs Data !
Pour concevoir et mettre en place une infrastructure robuste et efficace, un consultant data doit maîtriser différents langages de programmation, des outils de Data Management, des data warehouses, des outils de traitement des données, d’analyse mais aussi d’ IA et de ML.
- Python, la norme en terme de langage de programmation pour coder notamment des frameworks ETL, les interactions entre des API, automatiser certaines tâches, etc.
- SQL pour toutes les requêtes mêmes les plus complexes
- PostgreSQL, la base de données open source la plus populaire
- MongoDB, la base de données NoSQL pour sa capacité à traiter également les données non structurées sur de très larges volumes
- Spark pour sa capacité à capter et à traiter des flux de données en temps réel à grand échelle. De plus, il prend en charge de nombreux langages tels que Java, Scala, R et Python
- Kafka, la plateforme de streaming de données open source
- Redshift (Amazon), le datawarehouse dans le cloud conçu pour stocker et analyser des données sur de fortes volumétries
- Snowflake, la cloud Data Platform devenue incontournable aujourd’hui
- Amazon Athena, l’outil serverless de query interactif qui vous aide à analyser des données non structurées, semi-structurées et structurées stockées dans Amazon S3 (Amazon Simple Storage Service)
- Airflow (Apache) pour orchestrer et planifier les pipelines de données
La source : geek culture