Processus d’analyse automatisée ou semi-automatisée de grands volumes de données brutes afin d’y détecter des structures cachées, des corrélations, des tendances, des anomalies ou des modèles exploitables.
Le data mining (ou exploration de données) est une discipline à l’intersection de la statistique, de l’informatique et de l’intelligence artificielle. Il consiste à appliquer des algorithmes d’apprentissage automatique (machine learning), de classification, de segmentation, d’association ou de régression pour extraire, à partir de bases de données massives (data lakes, entrepôts de données, logs web, etc.), des connaissances actionnables.
Ces connaissances peuvent alimenter :
- des systèmes de recommandation (ex. : produits associés dans un panier),
- des modèles prédictifs (ex. : risque de churn client, détection de fraude),
- des analyses comportementales (ex. : parcours d’achat, segmentation marketing),
- ou encore des outils décisionnels (business intelligence).
Le data mining repose souvent sur des étapes préalables de nettoyage (data cleaning), de transformation (ETL) et de réduction dimensionnelle, et s’accompagne fréquemment de techniques de visualisation (dataviz) pour rendre les résultats interprétables par des non-spécialistes.
Domaines d’application :
Marketing, finance, santé, cybersécurité, e-commerce, sciences sociales, maintenance prédictive, etc.
Principaux outils et bibliothèques :
- Open source :
- Scikit-learn (Python)
- R (via packages comme arules, caret, mlr)
- KNIME
- Orange
- ELKI (spécialisé en clustering et détection d’anomalies)
- Apache Mahout (pour le big data distribué)
- RapidMiner (version communautaire)
- DataMelt
- Commerciaux / Entreprise :
- SAS Enterprise Miner
- Teradata Vantage
- RapidMiner Studio (version Pro)
- Board (plateforme intégrée BI + data mining)
Note terminologique :
En français, l’expression « exploration de données » est la traduction normalisée recommandée par la Banque de dépannage linguistique (BDL) et utilisée dans les cadres académiques et institutionnels.
Cependant, le terme anglais « data mining » reste largement employé dans l’industrie et la documentation technique francophone.