Passer au contenu

Le guide complet pour supprimer les publications Facebook

Les réseaux sociaux contiennent une mine d’or de données publiques précieuses pour ceux qui savent les extraire. Ce guide définitif de plus de 4000 XNUMX mots vous apprendra comment supprimer efficacement les publications Facebook en utilisant les outils et techniques appropriés.

L’importance croissante du Web Scraping

Le Web scraping fait référence à l'extraction automatisée de données de sites Web via des scripts et des outils logiciels. Selon Insider Intelligence, plus de 80 % des organisations utilisent désormais le web scraping sous une forme ou une autre à des fins de business intelligence.

Alors que la quantité de données précieuses publiées en ligne continue de croître de façon exponentielle, le web scraping est devenu vital pour exploiter ces données. Les détaillants suppriment les listes de produits, les sociétés financières suppriment les relevés de notes des appels de résultats, les recruteurs suppriment les offres d'emploi, et les candidatures s'enchaînent encore et encore.

L'industrie du web scraping devrait croître de plus de 20 % TCAC pour atteindre 13.9 milliards de dollars d'ici 2026, selon Meticulous Research. De toute évidence, le web scraping devient essentiel pour une entreprise compétitive.

De nombreux sites Web interdisent le web scraping dans leurs conditions d’utilisation (ToS). Facebook ne fait pas exception. Cela soulève des questions sur la légalité du web scraping.

La bonne nouvelle est qu’aux États-Unis, où Facebook est basé, plusieurs décisions de justice ont affirmé que les données présentes sur des sites Web accessibles au public sont des proies faciles à extraire et que les interdictions contenues dans les ToS ne constituent pas des contrats juridiquement exécutoires.

Par exemple, dans l'arrêt HiQ Labs contre LinkedIn de 2020, la Cour d'appel du 9e circuit a confirmé le droit de HiQ de supprimer les pages publiques LinkedIn, en déclarant :

"Nous concluons que HiQ a soulevé une question sérieuse quant à savoir si les parties ont conclu un contrat exécutoire qui interdirait à HiQ d'accéder aux données publiques de LinkedIn."

Tant que vous accédez aux données via des interfaces publiques comme un utilisateur ordinaire, sans contourner les barrières techniques, le web scraping semble légal selon la jurisprudence américaine.

Cela dit, l’éthique compte aussi. Voici quelques bonnes pratiques à suivre :

  • Récupérez uniquement les données publiques
  • Ne perturbez pas le trafic régulier
  • Respecter les règles du fichier robots.txt
  • Utiliser des proxys et limiter les taux
  • Sources de crédit
  • Supprimer les données lorsqu'elles ne sont plus nécessaires

La position de Facebook sur le Web Scraping

Les conditions d'utilisation de Facebook stipulent :

Vous ne collecterez pas le contenu ou les informations des utilisateurs, ni n'accéderez à Facebook de toute autre manière en utilisant des moyens automatisés (tels que des robots de récolte, des robots, des araignées ou des grattoirs) sans notre autorisation préalable.

Cela implique qu’ils découragent le grattage. Cependant, leurs principales préoccupations semblent concerner :

  • Récupération des données des utilisateurs privés
  • Faux comptes/bots abusant de la plateforme
  • Perturber l'infrastructure de Facebook

Supprimer le contenu des pages publiques de manière non invasive ne semble pas être un problème basé sur un précédent public. De nombreux outils et services tiers permettent spécifiquement le scraping de Facebook.

Facebook laisse le champ libre en exigeant une « autorisation préalable » pour supprimer les robots. Mais l’autorisation n’est pas accordée activement aujourd’hui, de manière transparente et pratique.

La meilleure approche consiste à gratter de manière éthique et responsable selon les meilleures pratiques décrites précédemment. En supposant que vous vous en tenez aux pages et aux données publiques, la récupération de montants modestes ne devrait pas poser de problème. Mais il est impossible de donner des garanties définitives lorsque les politiques d’une plateforme sont vagues.

Voyons maintenant comment supprimer les publications Facebook…

Supprimer Facebook avec des navigateurs sans tête

L'approche la plus simple consiste à contrôler directement un navigateur via des scripts. Les bibliothèques de navigateurs sans tête modernes telles que Puppeteer et Playwright fournissent un accès API aux fonctionnalités du navigateur.

Passons en revue un exemple utilisant Marionnettiste – l’un des choix les plus populaires en raison de son équilibre entre puissance et simplicité.

Nous devons d’abord installer Puppeteer :

npm install puppeteer  

Ensuite, nous pouvons écrire un script comme celui-ci :

// puppeteer-scraper.js

const puppeteer = require(‘puppeteer‘);

(async () => {

  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  await page.goto(‘https://www.facebook.com/nasa/‘);

  // Wait for posts to load
  await page.waitForSelector(‘.userContentWrapper‘); 

  // Extract post data
  const posts = await page.$$eval(‘.userContentWrapper .permalinkPost‘, posts => {

    return posts.map(post => {

      return {

        text: post.querySelector(‘.userContent‘)?.textContent ?? ‘‘,  
        date: post.querySelector(‘.timestampContent‘)?.textContent ?? ‘‘,
        reactions: post.querySelector(‘.likeCount‘)?.textContent ?? ‘‘,
        comments: post.querySelector(‘.commentCount‘)?.textContent ?? ‘‘,
        shares: post.querySelector(‘.shareCount‘)?.textContent ?? ‘‘

      };

    });

  });

  console.log(posts);

  await browser.close();

})();

Voici ce qui se passe :

  1. Lancez un navigateur Chrome sans tête avec Puppeteer.

  2. Ouvrez la page Facebook de la NASA.

  3. Attendez que les premiers messages se chargent.

  4. Utilisez page.$$eval pour évaluer tous les éléments correspondant au .userContentWrapper .permalinkPost sélecteur.

  5. Fournissez une fonction de rappel qui mappe chaque élément de publication aux données souhaitées : texte, date, réactions, etc.

  6. Imprimez le tableau des messages extraits.

Une fois exécuté, ce script générera un tableau d'objets contenant du texte, des données de date et d'engagement pour chaque publication récupérée.

Nous pouvons désormais facilement enregistrer les publications récupérées au format JSON :

const fs = require(‘fs‘);

// ...scrape posts

fs.writeFileSync(‘nasa-posts.json‘, JSON.stringify(posts, null, 2)); 

Ou nous pourrions ajouter chaque message sous forme de ligne dans un fichier CSV. Les possibilités sont infinies!

Comparaison entre marionnettiste et dramaturge

Le marionnettiste est génial, mais Dramaturge est une autre excellente option de navigateur sans tête avec des avantages uniques :

  • Prend en charge Firefox et WebKit en plus de Chromium.
  • Temps de chargement des pages légèrement plus rapides.
  • Meilleure prise en charge intégrée de la pagination, des iframes et des popups.
  • Interface utilisateur pour prévisualiser les données récupérées.
    -Syntaxe asynchrone/attente plus fluide.

Par exemple, voici le même script dans Playwright :

const { chromium } = require(‘playwright‘); 

(async () => {

  const browser = await chromium.launch();

  const context = await browser.newContext();

  const page = await context.newPage();

  await page.goto(‘https://www.facebook.com/nasa/‘);

  const posts = await page.$$eval(‘.userContentWrapper .permalinkPost‘, posts => {

    // Map elements to data  

  });

  await browser.close();

})();

L'utilisation du dramaturge est pour l'essentiel identique. Les deux bibliothèques sont d'excellents choix selon vos préférences.

Voyons maintenant comment utiliser des proxys pour un scraping plus efficace…

Gratter les proxys

Pour supprimer efficacement Facebook à grande échelle, l'utilisation de proxys est fortement recommandée pour distribuer les demandes et éviter la détection.

Procurations résidentielles fonctionnent mieux, car ils fournissent de vraies adresses IP provenant des foyers/appareils mobiles pour des résultats identiques à ceux des utilisateurs normaux. Proxy de centre de données sont moins chers mais plus susceptibles d’être détectés et bloqués.

Voici comment configurer Puppeteer pour utiliser des proxys résidentiels :

const puppeteer = require(‘puppeteer-extra‘);
const pluginStealth = require(‘puppeteer-extra-plugin-stealth‘);

// Enable stealth plugin  
puppeteer.use(pluginStealth());

(async () => {

  const browser = await puppeteer.launch({
    headless: true, 
    args: [
      ‘--proxy-server=http://USER:PASS@PROXY:PORT‘ 
    ]
  });

// ...rest of script

})();

Nous passons simplement le --proxy-server argument avec les informations d'identification de notre fournisseur proxy. Cela achemine tout le trafic via l’adresse IP du proxy.

La puppeteer-extra-plugin-stealth Le module applique diverses techniques pour échapper à la détection des robots lors du passage par des proxys.

Les principaux services proxy résidentiels comprennent :

  • Smartproxy – Forfaits à partir de 75 $/mois pour 40 Go de trafic. API disponible.

  • GeoSurf – Forfaits à partir de 50 $/mois. S'intègre parfaitement à Puppeteer.

  • Luminati – Les forfaits commencent à 500 $/mois. Grand pool IP.

  • Oxylabs – Forfaits à partir de 100 €/mois. API offerte.

Les proxys résidentiels commencent à 3 à 5 cents par Go, beaucoup plus chers que les proxys de centres de données, mais cela en vaut la peine pour un grattage sérieux.

Faites pivoter fréquemment les adresses IP du proxy pour maximiser les résultats et minimiser la détection. Déchargez ce fardeau de gestion des proxys sur le fournisseur de services.

Scraper Facebook avec de vrais navigateurs

Dans certains cas, l’exécution de scripts de scraping 24h/7 et XNUMXj/XNUMX côté serveur peut ne pas être idéale ou réalisable.

Scraper à partir d'un navigateur réel sur votre propre ordinateur est une alternative. Cela réduit la complexité des petits grattoirs.

Des outils comme Poulpe, ParseHub et Import.io proposez des extensions de navigateur pour récupérer le contenu lorsque vous naviguez naturellement sur Facebook.

Par exemple, voici les étapes à suivre pour scraper avec Octoparse :

  1. Installez l'extension du navigateur.

  2. Accédez à la page cible.

  3. Cliquez sur l'icône d'extension.

  4. Sélectionnez les éléments à gratter.

  5. Extraire des données.

Le scraping du navigateur est facile à configurer mais moins flexible que les scripts qui offrent un contrôle programmatique complet. Considérez toutes vos options en fonction de votre cas d’utilisation.

Scraper Facebook avec des outils et des API

Au-delà des scripts, de nombreux outils sont spécialement conçus pour scraper Facebook :

API de scraper comme Dexi.io, ScrapeHéros et SerpApiComment gérez le scraping pour vous afin que vous puissiez vous concentrer sur la consommation des données. Par exemple:

import dexi 

data = dexi.FacebookPage(
  page_urls=[‘https://www.facebook.com/nasa‘]
).get_posts()

print(data)

Modules complémentaires Google Sheets comme ImporterFacebook et Portée sociale vous permet d'extraire les données Facebook directement dans Google Sheets pour une analyse instantanée.

La API Facebook fournit un accès programmatique officiel, mais est très limité par rapport au scraping car il restreint la quantité de données que vous pouvez extraire.

Extensions de navigateur DIY comme Grattoir Facebook rendre le scraping accessible sans codage.

Évaluez les options en fonction de votre budget, de votre expertise technique et de votre cas d'utilisation.

Quelles données pouvez-vous réellement extraire de Facebook ?

Bien que nous nous soyons concentrés sur les publications, de nombreux types de données peuvent en fait être récupérés sur Facebook :

  • Métadonnées de la page – Nom, catégorie, nombre de followers, etc.

  • Poteaux – Contenu du texte, date, réactions, commentaires.

  • Commentaires – Texte du commentaire, nom du commentateur, date, réactions.

  • Commentaires – Révisez le texte, les images, les notes, le nom du réviseur.

  • Événements – Titre, description, lieu, horaire, informations sur les participants.

  • Groupes – Informations sur le groupe, liste des membres, publications, commentaires.

  • Annonces du marché – Titre, description, prix, images, vendeur.

  • annonces – Création publicitaire, texte, images, critères de ciblage.

Cependant, concentrez-vous uniquement sur ce dont vous avez légitimement besoin. Ne supprimez jamais les données personnelles des utilisateurs – uniquement les pages et publications publiques.

Supprimer Facebook de manière responsable

Facebook fournit une abondance de données publiques. Mais il faut le récolter de manière responsable :

  • Respectez le fichier robots.txt : Le fichier robots.txt de Facebook permet de supprimer des pages et des publications. Mais obéissez à tous les chemins bloqués.

  • Limiter la fréquence des demandes : Ne bombardez pas les pages avec des centaines de requêtes par seconde. Être raisonnable.

  • Utilisez des proxys : Faites pivoter les adresses IP pour répartir la charge. Les proxys résidentiels fonctionnent mieux.

  • Grattez uniquement les données publiques: Ne ciblez jamais les profils personnels ou les informations privées.

  • Sources de crédit : Si vous republiez du contenu récupéré, créditez-le de manière appropriée.

  • Supprimer les données inutiles : supprimez les données récupérées qui ne sont plus nécessaires.

  • Suivre l'éthique : Récupérez uniquement les données que vous avez un intérêt légitime à utiliser ou à analyser.

Le scraping ne doit jamais perturber l’infrastructure de Facebook ni compromettre la confidentialité des utilisateurs. Nous extrayons simplement public données que Facebook a déjà exposées.

Scraping Facebook : points à retenir

  • Le web scraping peut extraire des données publiques précieuses de Facebook à des fins professionnelles.
  • Concentrez-vous sur la suppression des pages et des publications publiques, et non sur les profils personnels.
  • Respectez les meilleures pratiques de scraping responsable.
  • Utilisez des outils tels que Puppeteer, Playwright, les API Scraper et bien plus encore.
  • Faites pivoter les proxys résidentiels pour éviter d’être détectés.
  • Ne collectez que des données que vous pouvez légitimement utiliser.
  • Supprimez les données récupérées lorsqu’elles ne sont plus nécessaires.

Cela conclut mon guide de plus de 4000 XNUMX mots pour supprimer les publications Facebook de manière efficace et éthique. J'espère que tu as trouvé ça utile! Veuillez nous contacter si vous avez d'autres questions.

Prendre part à la conversation

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *