Web scraping

Techniques d’extraction de données d’un site Web, de réseaux sociaux, de flux RSS, au travers d’un script ou d’un service en ligne.

Le programme filtre les informations spécifiques, navigue de pages en pages, aspire, nettoie et transforme la data, la reformate pour la réutiliser dans un autre contexte.

Les éléments sont ciblés, classés, filtrés par un processus planifié de stockage dans le temps (CSV, JSON, SQL, MongoDB, APIs de requêtes dynamiques), selon certaines récurrences.

Cas d’utilisation : automatisation du monitoring de la concurrence, créer un service comparateur, des agrégateurs de contenus de news, génération de prises de contacts au travers d’annuaires, génération de tableaux, schémas, graphiques, de la prédiction (dégager des tendances d’un secteur).

Librairies courantes :

Beautiful Soup (Python)

Gazpacho (Python)

Request Http Library

Scrapy (Python)

Splash (Python)

Selenium (Python)

Axios (JavaScript)

Cheerio (JavaScript)

Roach (PHP)

Site d’entraînement :

Quotes to Scrape

Outil NoCode :

Simplescraper.io