Passer au contenu

Outils de web scraping IA : fonctionnent-ils vraiment ?

Salut! En tant qu'expert en web scraping avec plus de 5 ans d'expérience dans l'utilisation de proxys et d'outils d'automatisation pour extraire des données, on me pose souvent des questions sur les scrapers basés sur l'IA. Il y a beaucoup de battage médiatique autour de l'IA dans ce domaine, avec de nombreux outils prétendant automatiser le scraping grâce à l'intelligence artificielle.

Mais ces web scrapers IA fonctionnent-ils vraiment aussi bien qu’annoncé ? J'ai décidé de creuser et d'essayer moi-même certaines des principales options pour le découvrir. Dans ce guide, je partagerai ce que j'ai appris afin que vous puissiez prendre une décision éclairée si les scrapers IA conviennent à votre cas d'utilisation.

Les promesses non tenues du web scraping « piloté par l’IA »

Tout d’abord, voyons à quoi ressemblerait un véritable scraping alimenté par l’IA. Le terme « AI web scraping » est devenu un mot à la mode populaire que de nombreux outils utilisent désormais comme étiquette marketing. Mais la plupart n’exploitent pas réellement l’IA sous le capot.

Pour qu’un scraper soit considéré comme véritablement piloté par l’IA, il aurait besoin de capacités avancées de traitement du langage naturel (NLP) pour comprendre à la fois les structures des pages Web et le langage humain. Le scraper devrait s'adapter automatiquement aux changements dans la mise en page, les schémas et les mesures anti-scraping des sites Web sans avoir besoin de mises à jour techniques.

Ce niveau de sophistication n’existe aujourd’hui dans aucune solution commerciale. Ainsi, lorsque vous voyez des outils annonçant le « AI web scraping », abordez ces affirmations avec scepticisme. La réalité ne correspond souvent pas au battage médiatique.

Pour illustrer cet écart entre le marketing et la réalité, j'ai analysé les capacités techniques de 5 outils populaires qui se présentent comme étant alimentés par l'IA :

Cabane de données

  • Utilise le ML avec une capacité limitée pour identifier des modèles répétitifs
  • S'appuie toujours fortement sur des sélecteurs CSS codés en dur
  • Nécessite des mises à jour lorsque les sites modifient le balisage

Import.io

  • Automatise la configuration du scraper pour les sites plus simples via des algorithmes CV
  • Il faut encore des conseils humains pour les sites complexes
  • Offre un rendu OCR et JavaScript pratique

ScrapeHéros

  • Outils visuels intuitifs mais manque de véritable PNL
  • Il faut encore des scripts personnalisés pour les sites complexes
  • Les affirmations de l’IA sont globalement exagérées

GrattageBee

  • Rotation et automatisation puissantes des proxys
  • Le scraping lui-même utilise des sélecteurs codés en dur
  • IA très limitée pour l'optimisation du proxy

ScrapeStack

  • Utilise Puppeteer pour contourner les mesures anti-bots
  • Le grattage des carottes s'appuie sur des techniques traditionnelles
  • Pas de réelles capacités en PNL ou en IA malgré le battage médiatique

Comme vous pouvez le constater à partir de ces exemples, la plupart des outils surestiment considérablement leurs capacités d’IA. Au mieux, ils utilisent l’apprentissage automatique pour aider partiellement les humains dans certaines tâches de scraping. Mais l’essentiel du travail repose toujours sur une configuration manuelle et des modèles codés en dur.

J'estime que moins de 5 % des fournisseurs qui prétendent « faire du web scraping » utilisent réellement l'IA de manière significative. L’espace est actuellement criblé de battage médiatique et de faux marketing.

Tester de vrais scrapers Web IA

Alors que l'IA est surfaite dans ce secteur, certains outils innovants comme Import.io démontrent sa promesse d'automatiser certaines parties du processus de scraping.

J'ai décidé d'approfondir et de tester deux services qui ont réalisé des investissements tangibles dans l'IA/ML pour voir ce qu'ils peuvent réellement faire :

ParcourirIA

BrowseAI propose un enregistreur visuel pointer-cliquer pour configurer les scrapers sans codage. Cet outil est assez similaire à Apify, mais avec l'ajout d'une technologie d'enregistrement alimentée par l'IA.

J'ai testé BrowseAI sur quelques sites, dont ce blog. L'enregistreur a automatiquement capturé les actions au fur et à mesure que je parcourais les pages et mis en évidence les éléments dynamiques :

[capture d'écran de l'enregistreur BrowseAI]

Avantages:

  • Recorder utilise ML pour identifier les modèles répétitifs
  • L'éditeur sans code est idéal pour les non-développeurs

Inconvénients:

  • Les performances baissent pendant l'enregistrement
  • Manque de capacités de personnalisation

L'enregistreur visuel contribue à réduire le temps de configuration du scraper, en particulier pour les utilisateurs moins techniques. Cependant, les fonctionnalités de base de BrowseAI sont en fin de compte comparables aux outils de scraping traditionnels qui nécessitent des mises à jour lorsque les sites Web changent.

Kadoa.com

Kadoa propose un service de scraping basé sur l'IA et axé sur la compréhension du langage naturel. Leur outil de terrain de jeu vous permet de décrire les données à extraire en utilisant un anglais simple au lieu d'avoir besoin d'écrire du code ou de configurer des analyseurs.

Par exemple, lorsque je saisis l'URL d'une page, Kadoa analyse sa structure et son contenu à l'aide d'algorithmes NLP. Il demande ensuite quelles données je souhaite extraire en langage naturel :

[capture d'écran du terrain de jeu Kadoa]

J'ai testé Kadoa sur quelques sites. La modélisation PNL a fait un travail décent en extrayant des données simples telles que les titres d'articles et les métadonnées que j'ai spécifiées dans les instructions en texte brut.

Avantages:

  • L'analyse NLP réduit le besoin de sélecteurs
  • Configuration rapide avec le langage naturel

Inconvénients:

  • Limité aux sites plus simples
  • Produit encore à un stade précoce

Bien que Kadoa ait ses limites, j'ai trouvé que son approche basée sur la PNL est prometteuse. Avec un développement ultérieur, ce type de grattage d'IA axé sur le langage pourrait devenir plus capable d'atteindre une véritable adaptabilité du site.

Évaluation de GPT-3 pour le web scraping

En plus des outils commerciaux, j'ai décidé d'expérimenter l'utilisation de l'API GPT-3 directement pour les tâches de web scraping. Sa capacité à analyser le langage naturel le rend parfaitement adapté pour transformer du HTML brut en données structurées.

Je l'ai testé en fournissant un contenu de page Web simple comme invite, puis en demandant à GPT-3 d'extraire et de formater des attributs spécifiques en JSON.

Voici un exemple d'invite et de réponse :

Prompt:

Here is the HTML body for a blog listing page. Please extract the title, date, author, and summary for each post. Format the output as a JSON array.

<HTML page content>

Response: 

[
  {
    "title": "Post 1 Title",
    "date": "Jan 1, 2024",
    "author": "John Doe", 
    "summary": "This is the summary for post 1..."
  },
  {
    "title": "Post 2 Title",
    "date": "Jan 5, 2024",
    "author": "Jane Doe",
    "summary": "This is the summary for post 2..."
  }
]

Avec des invites soigneusement construites, GPT-3 peut assez bien extraire et structurer des données de page simples. Cependant, j'ai remarqué quelques limitations :

  • Luttes avec le HTML imbriqué complexe
  • Pas de mémoire entre les pages
  • Impossible de gérer le contenu JavaScript dynamique

Dans l’ensemble, les LLM comme GPT ont le potentiel d’accélérer certaines parties du travail de scraping. Mais ils ont encore du chemin à parcourir avant de pouvoir remplacer complètement les techniques traditionnelles.

Devriez-vous utiliser les web scrapers IA aujourd’hui ?

D'après mes tests pratiques, les outils de scraping actuels « alimentés par l'IA » ne sont pas aussi totalement autonomes que leur marketing le suggère. Cependant, certains présentent des capacités prometteuses lorsqu’ils sont appliqués aux bons cas d’utilisation.

Voici mes recommandations sur les cas où les web scrapers IA valent la peine d'être explorés :

Pour les sites simples – Des outils comme Kadoa qui utilisent le NLP peuvent réduire le travail manuel de scraping des pages de base avec un minimum de JavaScript.

Pour une faible expertise – Les interfaces utilisateur sans code comme BrowseAI permettent aux utilisateurs moins techniques de configurer les scrapers plus rapidement.

À l'aide – Les LLM comme GPT-3 peuvent aider les développeurs à analyser le contenu HTML plus facilement.

Pour augmenter – L'intégration d'algorithmes ML directement dans votre scraper peut ajouter des fonctionnalités « intelligentes » au fil du temps.

Cependant, pour le scraping professionnel à grande échelle de sites complexes, les navigateurs sans tête traditionnels et les analyseurs codés en dur restent le choix le plus fiable et le plus personnalisable. L’IA n’est pas encore tout à fait prête à les remplacer complètement.

Le domaine du web scraping par l’IA mérite certainement d’être surveillé à mesure que la recherche NLP/ML progresse. Mais pour l’instant, évaluez les affirmations des fournisseurs de manière critique et concentrez-vous sur l’utilisation de l’IA pour aider les humains plutôt que d’essayer de les retirer complètement de la boucle.

L'avenir de l'IA pour l'extraction de données Web

Bien que les outils de web scraping de l’IA présentent actuellement certaines limites, les progrès rapides dans le traitement du langage naturel laissent présager un avenir intrigant.

À mesure que des modèles tels que GPT-3 évoluent pour gérer des tâches linguistiques plus complexes, leur capacité à analyser des données Web désordonnées et à s'adapter à de nouveaux sites pourrait s'améliorer considérablement.

Voici quelques fonctionnalités intéressantes de scraping d’IA qui devraient émerger plus tard :

  • Compréhension plus approfondie du contenu – Les modèles PNL pourraient bientôt aller au-delà du balisage de page pour interpréter le sens sous-jacent du texte. Cela pourrait permettre de récupérer des données nécessitant une compréhension contextuelle.

  • Navigation à la manière d'un humain – Les futurs agents d’IA pourraient imiter les comportements humains tels que le défilement, le clic sur des liens et le remplissage de formulaires pour interagir dynamiquement avec les sites Web.

  • Apprentissage continu – Les Scrapers peuvent continuellement mettre à jour leurs propres connaissances en analysant les nouvelles pages rencontrées, éliminant ainsi le besoin de formation manuelle.

  • Résolution de problèmes créative – Au-delà de l’extraction de données par cœur, des systèmes d’IA innovants pourraient trouver des solutions de contournement pour contourner les mesures anti-grattage.

Nous ne verrons probablement pas ce genre de véritables capacités de grattage cognitif avant au moins 5 à 10 ans. Mais les progrès rapides de l’apprentissage profond suggèrent que l’IA pourrait transformer l’extraction de données Web à l’avenir.

Pour l’instant, un scepticisme mesuré est justifié lors de l’évaluation des affirmations des fournisseurs concernant le scraping de l’IA. Mais je suis enthousiasmé par le potentiel de l’IA à assumer davantage de tâches à mesure que la technologie évolue. Le scraping de sites complexes pourrait être très différent dans 10 ans !

J'espère que ce guide vous donnera une perspective équilibrée sur ce que l'IA peut (et ne peut pas encore) faire pour le web scraping. N'hésitez pas à nous contacter si vous avez d'autres questions ! Je suis toujours heureux de discuter davantage des techniques émergentes dans ce domaine dynamique.

Mots clés:

Prendre part à la conversation

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *