Techniques d’extraction de données d’un site Web, de réseaux sociaux, de flux RSS, au travers d’un script ou d’un service en ligne.
Le programme filtre les informations spécifiques, navigue de pages en pages, aspire, nettoie et transforme la data, la reformate pour la réutiliser dans un autre contexte.
Les éléments sont ciblés, classés, filtrés par un processus planifié de stockage dans le temps (CSV, JSON, SQL, MongoDB, APIs de requêtes dynamiques), selon certaines récurrences.
Cas d’utilisation : automatisation du monitoring de la concurrence, créer un service comparateur, des agrégateurs de contenus de news, génération de prises de contacts au travers d’annuaires, génération de tableaux, schémas, graphiques, de la prédiction (dégager des tendances d’un secteur).
Panorama des librairies courantes :
- Beautiful Soup (Python)
- Gazpacho (Python)
- Request Http Library
- Scrapy (Python)
- Splash (Python)
- Selenium (Python)
- Axios (JavaScript)
- Cheerio (JavaScript)
- Roach (PHP)
Site d’entraînement
Outil NoCode
Synonyme : webscraping, extraction de données d’un site Web