Abréviation pour Extract, Transform, Load (extraire, transformer, charger), soit les trois actions pour déplacer, migrer des données d’un système à un autre.
Ce processus sert également à préparer les données collectées depuis un certain nombre de sources, les nettoyer , supprimer les doublons et les transformer avant de les centraliser sur le cloud ou un entrepôt de données, un datawarehouse.
Les 3 grandes familles d’outils ETL
| Profil / Besoin | Outil le plus efficace | Pourquoi ? | Alternatives pertinentes |
|---|---|---|---|
| Auto-hébergement + contrôle total + open source RSSI, formateur, infra locale, Synology, souveraineté | Apache NiFi | – Interface visuelle intuitive – Léger, auto-hébergeable – Traite flux batch et temps réel – Traçabilité native (data provenance) – Connecteurs HTTP, SQL, XML, JSON, MQTT, S3, etc. | • Dagster (Python, moderne) • Bonobo (léger, Python) • RMLMapper (pour transformation sémantique RDF) |
| Cloud + rapidité + équipe analytics (pas de dev) (startup, marketing, SaaS, entrepôt cloud) | Fivetran | – Connexion en 2 clics à 200+ sources SaaS – Maintenance zéro – Fiable, scalable – Idéal avec Snowflake/BigQuery | • Stitch (Talend Cloud) • Matillion • Airbyte (open source, version cloud ou self-hosted) |
| Entreprise + intégration legacy + transformation complexe grande structure, DSI, données critiques | Talend Data Fabric | – Puissance de transformation avancée – Gouvernance, qualité des données, lineage – Support Spark, Kafka, mainframes | • Informatica PowerCenter • Microsoft SSIS • Oracle Data Integrator |