Comment gratter un site Web : le guide étape par étape ultime pour extraire des données

Bonjour!

L'extraction de données à partir de sites Web est utile pour d'innombrables raisons, mais si vous débutez dans le web scraping, le processus peut sembler intimidant. Croyez-moi, j'y suis allé !

Mais avec les bons outils et techniques, n’importe qui peut facilement extraire des données du Web.

Dans ce guide complet de plus de 4,000 XNUMX mots, je vais vous apprendre tout ce que vous devez savoir pour extraire des données via le web scraping comme un pro.

A la fin, vous comprendrez :

Qu'est-ce que le web scraping et pourquoi il est utile
Les légalités autour du web scraping
Comment configurer un web scraper étape par étape
Outils et plateformes pour récupérer des données
Comment exporter des données récupérées pour analyse
Techniques avancées de scraping Web

Je partagerai de nombreux conseils de mes 5+ années en tant qu'expert en web scraping pour vous aider à devenir un gourou de l'extraction de données !

Allons gratter.

Qu'est-ce que le Web Scraping?

Le web scraping fait référence à l’extraction automatisée de données à partir de sites Web. Considérez-le comme une collecte et une copie numérique des données à partir du Web, plutôt que manuellement.

Cela implique l’utilisation d’outils logiciels appelés web scrapers pour imiter la navigation humaine sur le Web et collecter systématiquement certaines informations. Cela vous permet d’acquérir de grandes quantités de données en une fraction du temps.

Voici quelques exemples de ce que vous pouvez récupérer sur le Web :

Listes de produits et prix des magasins de commerce électronique
Annonces immobilières et données immobilières
Profils d'utilisateurs et listes d'amis des sites de médias sociaux
Annuaires d'entreprises et coordonnées
Titres et textes des articles de presse

Tout ce que vous pouvez voir dans votre navigateur peut être supprimé !

Les scrapers Web fonctionnent en analysant le code HTML des pages Web pour identifier et extraire les données pertinentes. Les données sont compilées dans un format structuré comme une feuille de calcul CSV ou un fichier JSON pour analyse.

Donc en quelques mots :

Le Web scraping collecte automatiquement les données accessibles au public sur les sites Web pour votre usage.

Pourquoi devriez-vous supprimer les données des sites Web ?

Il existe plusieurs excellentes raisons d’utiliser le web scraping :

1. Échelle et vitesse

Les scrapers Web peuvent extraire des données des centaines ou des milliers de fois plus rapide que les humains :

Un scraper peut extraire 5,000 5 fiches produits en XNUMX minutes. Faire cela manuellement prendrait des heures ou des jours.
Des tâches complexes comme l'agrégation de millions de profils de réseaux sociaux peuvent être effectuées en quelques heures ou quelques jours seulement avec un scraper. Un humain aurait besoin de mois !

L’ampleur et la vitesse d’extraction permises par le web scraping sont impossibles à égaler manuellement.

2. Automatisation

Une fois configurés correctement, les web scrapers peuvent fonctionner 24h/7 et XNUMXj/XNUMX sans surveillance humaine pour collecter en permanence des données à jour.

Vous pouvez configurer un scraper pour qu'il s'exécute quotidiennement, hebdomadairement ou à tout intervalle dont vous avez besoin pour conserver vos données à jour.

3. Disponibilité des données

De nombreux sites Web ne vous permettent pas de télécharger leurs données en masse. Le web scraping vous permet de collecter des données auxquelles vous ne pourriez pas accéder autrement lors d'exportations groupées ou via des API.

4. Structuration des données

Les scrapers extraient des données déjà structurées et prêtes à être analysées, contrairement au copier-coller manuel à partir de sites Web.

5. Analyse des prix et de la concurrence

Les web scrapers excellent dans la collecte de données sur les prix, de listes de produits, d'offres de services et d'autres détails sur le Web à des fins d'analyse concurrentielle et d'études de marché.

Comme vous pouvez le constater, le web scraping répond à de nombreux besoins de collecte de données tant pour les particuliers que pour les entreprises. Les cas d’utilisation sont presque infinis !

Le Web Scraping est-il légal ?

De nombreux nouveaux venus dans le web scraping s’interrogent à juste titre sur la légalité de ces outils.

La réponse courte est que le web scraping est parfaitement légal dans la plupart des cas.

En effet, les web scrapers automatisent uniquement les données que les humains pourraient autrement parcourir manuellement et copier eux-mêmes – et il n'y a rien d'illégal à accéder à des sites Web accessibles au public !

Il y a cependant quelques mises en garde :

La plupart des sites interdisent le scraping dans leurs conditions d'utilisation (ToS). Mais les ToS ne sont pas juridiquement contraignantes.
La récupération de données privées, protégées par des droits d'auteur ou à accès restreint n'est pas autorisée. Utilisez uniquement des scrapers sur les sites publics.
Ne grattez pas excessivement les sites et risquez de surcharger leurs serveurs. Adoptez une bonne étiquette de grattage.
Consultez un avocat si vous essayez de supprimer des secteurs hautement réglementés comme la finance ou la santé.

Si vous évitez les sites et les données privés, concentrez-vous sur la minimisation de la charge du serveur et respectez les restrictions robots.txt, le web scraping reste parfaitement légal dans la plupart des juridictions.

Passons maintenant aux choses amusantes : extraire des données !

Étape 1 : Obtenez un service de Web Scraping (Apify)

Il existe de nombreux outils et bibliothèques pour le web scraping, mais je recommande à Apify de commencer.

Apify est un plateforme de scraping Web basée sur le cloud qui gère toutes les tâches complexes du backend pour vous :

Automatisation du navigateur
Configuration du proxy
Infrastructure évolutive
Stockage de données
Intégrations intégrées

Les principaux avantages sont :

Rien à installer ou à configurer – Apify fonctionne dans le cloud
Facile à utiliser. – Configurez visuellement les scrapers dans un éditeur basé sur un navigateur
Plan gratuit généreux – Vous permet de gratter jusqu'à 1 million de pages par mois gratuitement
Grattoirs préfabriqués – Des outils existent pour les grands sites comme Google et Amazon

J'ai utilisé Apify sur des dizaines de projets de web scraping professionnels, et c'est de loin le moyen le plus simple pour les débutants de démarrer.

Voyons-le en action !

Se diriger vers Apify.com et créez un compte gratuit. Entrez simplement votre e-mail et votre mot de passe – aucune carte de crédit requise.

Vérifiez votre e-mail et vous êtes prêt à commencer à gratter !

Étape 2 : Configurez votre premier Web Scraper

Apify propose des tonnes de scrapers prédéfinis, mais nous en construirons un à partir de zéro pour apprendre les bases.

Nous extrairons les principaux titres d'actualité de CNN, qui présenteront les concepts de base de configuration du scraper que vous pouvez appliquer à n'importe quel site.

Créer un nouveau grattoir Web

Dans votre compte Apify, cliquez sur Créer un acteur dans le menu de gauche. Sélectionner Grattoir Web et un nouveau scraper s'ouvrira :

Cette console vous permet de configurer les entrées du scraper.

Définir l'URL de démarrage

La URL de démarrage est la première page que le scraper visitera.

Pour les titres de CNN, nous utiliserons https://www.cnn.com/. Collez-le dans :

Ajouter un code de fonction de page

Ensuite, nous devons indiquer au scraper quelles données extraire des pages.

Dans le Fonction de page éditeur, supprimez le code par défaut et collez ceci :

const headlines = $(‘#cnn-latest-news ul.cd li h3‘).map((index, el) => $(el).text()).get();

return headlines;

Cela récupère les éléments du titre CNN et renvoie leur texte.

Exécutez le grattoir

Cliquez Courir et le scraper naviguera vers CNN, extraira les titres et les affichera dans le Ensemble de données onglet de la console.

C'est ça! En quelques clics et lignes de code, vous avez créé votre premier scraper.

Les mêmes principes s’appliquent pour extraire des données de n’importe quel site. Apprenons des techniques plus avancées.

Étape 3 : exporter les données récupérées

Une fois que l'extraction fonctionne, vous souhaiterez exporter les données récupérées pour l'analyse et l'utilisation dans d'autres applications.

Les ensembles de données Apify peuvent être exportés au format JSON, CSV, Excel, RSS et autres formats structurés.

Par exemple, vous pourriez:

Enregistrez les données produit dans Google Sheets et créez des graphiques de prix
Exportez les e-mails au format CSV et importez-les dans Mailchimp à des fins de marketing
Téléchargez les informations immobilières au format JSON pour remplir les annonces de votre site
Transformez les titres d'actualité en flux RSS ou en résumé par e-mail

Apify s'intègre parfaitement aux outils de développement Zapier, Integromat ou LinkedIn pour encore plus de possibilités.

Si vous pouvez imaginer un moyen d'utiliser les données, Apify fournit les moyens de les extraire.

Techniques avancées de scraping Web

Les bases ci-dessus vous permettront de gratter presque n'importe quel site standard. Mais vous pouvez parfois rencontrer des sites complexes qui nécessitent des techniques plus avancées.

Explorons certaines des fonctionnalités de web scraping les plus puissantes :

Rendu JavaScript

Certains sites affichent dynamiquement le contenu à l'aide de JavaScript. Les scrapers standards ne peuvent pas exécuter JS, donc Apify fournit des outils tels que Grattoir Marionnettiste et les Grattoir Web qui exploitent de véritables navigateurs Chrome sans tête pour exécuter JavaScript et identifier les éléments de page cachés.

Gratter derrière les connexions

Les sites Web derrière les connexions peuvent être récupérés en automatisant le processus de connexion avec les informations d'identification, puis en accédant aux zones membres.

Grattage de défilement infini

Les sites à défilement infini (chargent plus de contenu lorsque vous faites défiler vers le bas) nécessitent un défilement automatique pour accéder à toutes les données. Les outils Apify peuvent faire défiler automatiquement des milliers d'éléments.

Grattage d'API

Pour les sites proposant des API de développeur, les supprimer directement est plus rapide que l’automatisation du navigateur. Apify fournit des intégrations pour extraire et analyser facilement les API JSON/XML.

Scraping visuel du Web

Apify Visuel CE L'outil vous permet de sélectionner visuellement des éléments pour extraire des données de sites complexes avec une interface utilisateur pointer-cliquer – aucun codage nécessaire.

Automatisation Web

Au-delà de la simple extraction de données, Apify permet automatisation Web en simulant des séquences d'actions et en intégrant les données récupérées dans les applications.

Par exemple, vous pouvez créer un bot pour :

Consultez les pages produits pour connaître les baisses de prix
Ajouter des articles à prix réduit à une feuille Google
Vous envoyer un e-mail lorsque les prix changent

Les possibilités sont infinies!

Cela ne fait qu'effleurer la surface des fonctionnalités avancées d'Apify. Pour des didacticiels détaillés sur chaque fonctionnalité, consultez le Documents Apify.

Pourquoi utiliser Apify pour votre Web Scraping ?

À ce stade, vous êtes peut-être convaincu que le web scraping est utile (c'est le cas !), mais vous vous demandez pourquoi je recommande spécifiquement Apify par rapport à d'autres outils.

Voici les principaux avantages qui font d'Apify la première plateforme de web scraping :

Infrastructure gérée

Apify fournit les serveurs et l'infrastructure nécessaires pour exécuter vos scrapers à grande échelle – aucune maintenance requise.

Automatisation du navigateur

Les Scrapers exploitent de vrais navigateurs comme Chrome et Firefox pour des performances fiables.

Stockage de données

Stockez et gérez des téraoctets de données récupérées dans le cloud d'Apify.

Intégrations intégrées

Exportez facilement des données ou connectez vos scrapers à des applications externes.

Grattoirs préfabriqués

Accédez à des grattoirs réutilisables pour des sites populaires comme Google, Twitter, Yelp et plus encore.

Forfait généreux gratuit

L'offre gratuite d'Apify vous permet de récupérer jusqu'à 1 million de pages par mois, ce qui est suffisant pour de nombreuses utilisations.

Éditeur visuel

Configurez visuellement vos scrapers sans écrire de code à l'aide des outils basés sur l'interface utilisateur d'Apify.

Automatisation Web

Orchestrez des flux de travail de bout en bout en automatisant des processus complexes sur les sites Web.

Assistance 24h/7

Des experts du support client sympathiques dans les fuseaux horaires européens et américains fournissent des conseils.

Apify supprime la courbe d'apprentissage typique du web scraping et les problèmes d'infrastructure. Vous accédez directement à l’extraction des données dès le premier jour.

Voyons tout cela en action

Nous avons couvert une tonne de terrain dans ce guide !

Pour voir les capacités de web scraping d'Apify en action dans des cas d'utilisation réels, consultez ces didacticiels détaillés :

Chaque didacticiel fournit des exemples de code et des instructions étape par étape adaptées au site cible.

Vous acquerrez une expérience pratique en tirant parti d'Apify pour extraire des données de plateformes populaires. Les compétences que vous acquerrez vous permettront de gratter presque tous les sites imaginables !

Récupérer des données de CNN : didacticiel étape par étape

Pour comprendre le processus complet de scraping du Web, passons en revue un exemple de A à Z de scraping des titres d'actualité de CNN.

Nous extrairons le titre principal et les introductions des articles qui l'accompagnent pour créer un résumé d'actualités personnalisé.

Suivez-nous pour mettre en pratique vos nouvelles compétences !

Étape 1 – Créer un grattoir Web CNN

Connectez-vous à votre compte Apify et créez un nouveau Grattoir Web acteur.

Pré-remplissez-le avec :

URL de démarrage: https://www.cnn.com

Cela indique au scraper de commencer sur cnn.com.

Étape 2 – Extraire le titre supérieur

CNN charge dynamiquement le titre de l'article principal via JavaScript.

Pour l'extraire, ajoutez ce code au Fonction de page:

let topHeadline = $(‘h1.cd__headline‘).text().trim();

Cela récupère le texte de l'élément de titre H1.

Étape 3 – Extraire les introductions d’articles

Sous le titre principal se trouvent les introductions des articles. Pour les récupérer :

// Get all .zn-body__paragraph elements
let articles = $(‘.zn-body__paragraph‘).map((index, el) => {

  // Extract the text from each
  const text = $(el).text().trim();

  // Return as an object
  return {
    intro: text
  };

}).get();

On retrouve chacun .zn-body__paragraph div, extrayez son texte et renvoyez-le en tant qu'objet contenant l'intro.

Étape 4 – Renvoyez les données

Pour renvoyer le titre et les articles, ajoutez :

return {
  topHeadline,
  articles  
}

Cela affichera les données sous forme d'objet JSON.

Étape 5 – Exécutez le grattoir

Cliquez sur "Exécuter" pour démarrer le grattoir. En une minute, il extrait le titre principal et les introductions des articles qui l'accompagnent.

Étape 6 – Exporter le News Digest

En vertu des Normes sur l’information et les communications, les organismes doivent rendre leurs sites et applications Web accessibles. Ils y parviennent en conformant leurs sites Web au niveau AA des Web Content Accessibility Guidelines (WCAG). Ensemble de données , exportez les résultats sous forme de fichier JSON.

Vous disposez désormais d’un résumé structuré des dernières nouvelles de CNN, prêt à l’emploi !

Vous pouvez ingérer ces données dans une newsletter par courrier électronique, les publier automatiquement sur votre blog, les alimenter dans une application mobile ou toute autre chose.

Améliorez vos compétences en matière de Web Scraping

Félicitations, vous disposez désormais de toutes les compétences de base nécessaires pour extraire les données de n'importe quel site Web !

Récapituler:

Raclage Web collecte automatiquement les données des sites Web pour vous
Des outils comme Apifier rendre le scraping facile pour les débutants
Vous pouvez gratter presque n'importe quel site public avec quelques lignes de Fonction de page code
Les données récupérées peuvent être exportées de manière transparente l'intégration dans toutes les applications
Les sites plus complexes nécessitent techniques avancées comme le rendu et l'automatisation JS

J'espère que ce guide a servi d'introduction complète au monde du web scraping. Les possibilités sont infinies!

Pour plus de didacticiels et de ressources Apify, rendez-vous sur leur blogue et les docs.

Et si vous avez d’autres questions alors que vous commencez à gratter, n’hésitez pas à nous contacter ! J'aime entendre comment les gens utilisent Apify pour exploiter les données Web.

Bonne extraction !