Zum Inhalt

Ihre Schritt-für-Schritt-Anleitung zum Scrapen von Amazon-Produktdaten

Das Extrahieren von Produktdaten von Amazon kann für eine Reihe von Anwendungen, von der Marktforschung bis zur Konkurrenzüberwachung, äußerst wertvoll sein. Amazon verfügt zwar über eine Produktwerbungs-API, diese ist jedoch mit Ratenbegrenzungen verbunden, erfordert eine Genehmigung und kostet Geld. Eine Alternative besteht darin, Amazon-Produktdaten direkt von der Website zu extrahieren.

In diesem umfassenden Leitfaden gehen wir die wichtigsten Schritte und Überlegungen zum Extrahieren von Amazon-Produktinformationen durch Web Scraping durch.

Übersicht über das Scraping von Amazon-Produktdaten

Beim Web Scraping handelt es sich um das programmgesteuerte Extrahieren von Daten von Websites. Bei ethischer und gesetzeskonformer Vorgehensweise können Sie große Datenmengen von Websites wie Amazon sammeln.

Scraping Amazon kann alle Arten von Produktinformationen bereitstellen, darunter:

  • Titel
  • Produkt-URL
  • PREISLISTE
  • Bilder
  • Bewertungen und Rezensionen
  • Fragen & Antworten
  • Beschreibung
  • Aufzählungspunktfunktionen
  • Varianten (Größe, Farbe etc.)
  • Verfügbarkeit
  • Name des Verkäufers
  • Kategorie/Suchbaum

Diese Daten können dann in eine Tabellenkalkulation, Datenbank oder Analyseplattform exportiert werden. Das Scraping von Amazon eröffnet Möglichkeiten wie:

  • Preisüberwachung der Wettbewerber
  • Marktforschung zu Produkttrends
  • Entdecken Sie die meistverkauften Artikel in einer Nische
  • Stimmungsanalyse zu Bewertungen
  • Bestandsüberwachung
  • Dropshipping-Produktrecherche
  • Aufbau einer Produktdatenbank
  • Und vieles mehr!

Eine wichtige erste Frage ist, ob das Scraping von Amazon tatsächlich legal ist. Die kurze Antwort lautet in den meisten Fällen „Ja“.

Web Scraping fällt in eine rechtliche Grauzone, ist aber unter folgenden Bedingungen grundsätzlich zulässig:

  • Sie scrapen öffentlich zugängliche Daten (z. B. nicht hinter einem Login oder einer Paywall)
  • Sie verstoßen nicht gegen die Nutzungsbedingungen der Zielwebsite
  • Sie stehlen kein geistiges Eigentum oder urheberrechtlich geschütztes Material
  • Sie überlasten die Server der Website nicht mit einer unangemessenen Anzahl von Anfragen

Die Nutzungsbedingungen von Amazon verbieten Web Scraping nicht ausdrücklich. Solange Sie verantwortungsbewusst scrapen und sich an eine angemessene Scraping-Etikette halten, ist das Extrahieren öffentlich gelisteter Amazon-Daten nicht illegal.

Allerdings verfügt Amazon über technische Maßnahmen, um Scraper zu erkennen und zu blockieren. Daher muss besonders darauf geachtet werden, dass das Schaben effektiv und ohne Verstopfungen erfolgt.

Tools zum Scrapen von Amazon

Es gibt verschiedene Tools, mit denen Sie Daten von Amazon extrahieren können:

Web-Scraping-Bibliotheken Wie BeautifulSoup und Scrapy von Python können Sie benutzerdefinierte Scraper schreiben, erfordern jedoch Programmierkenntnisse.

Browsererweiterungen wie Octoparse und ParseHub bieten Point-and-Click-GUIs zum Extrahieren von Daten aus Amazon-Seiten in Tabellenkalkulationen. Diese sind jedoch auf einzelne Seitenkratzer beschränkt.

Schaber von der Stange wie die Amazon-Produktschaber auf Apify ermöglichen das vollautomatische Scraping ganzer Amazon-Kataloge, ohne dass Code erforderlich ist. Bietet jedoch weniger Anpassungsmöglichkeiten.

Kommerzielle Web-Scraping-APIs wie ScrapeStorm und ScraperAPI übernehmen die Proxy-Verwaltung und -Rotation für Sie, kosten jedoch pro API-Aufruf.

Für die meisten Anwendungsfälle bietet ein handelsüblicher Scraper wie Apify oder eine Web-Scraping-Bibliothek die beste Balance aus Anpassung und Benutzerfreundlichkeit beim Scraping von Amazon.

Schritt 1: Holen Sie sich eine Liste mit ASINs oder Produkt-URLs

ASIN steht für Amazon Standard Identification Number. Dabei handelt es sich um die eindeutige ID, die Amazon jedem Produkt zuweist.

Um detaillierte Produktinformationen abzurufen, benötigen Sie zunächst eine Liste von ASINs oder Produkt-URLs. Es gibt mehrere Möglichkeiten, dies zu erreichen:

  • Manuell kompilieren – Kopieren/Einfügen oder Exportieren von ASINs aus Amazon-Kategorie- und Suchseiten.

  • Saatgutstandorte – Entfernen Sie ASINs von Websites, die Amazon-Produkte wie Camelcamelcamel anbieten.

  • HTML analysieren – Scrapen Sie ASINs direkt von den Amazon-Kategorieseiten.

Für große Amazon-Scraping-Projekte ist das Parsen von ASINs direkt von Amazon-Kategorieseiten der beste Ansatz. Das bedeutet, die Kategorie-URLs zu extrahieren und ASINs oder Produktlinks aus dem HTML zu extrahieren.

Die meisten Amazon-Produkt-URLs folgen dieser Struktur:

https://www.amazon.com/dp/ASIN

So können Sie die ASIN aus dem Produktpfad analysieren und dann die paginierten Kategorieseiten durchlaufen, um eine Basisliste von URLs/ASINs zu erstellen.

Schritt 2: Durchsuchen Sie die Produktseiten

Mit einer Liste von ASINs oder Produkt-URLs können Sie jede einzelne durchgehen und die gewünschten Daten von jeder Produktseite extrahieren.

Verwenden Sie ein Tool wie Apify oder eine Python-Bibliothek wie BeautifulSoup, um den HTML-Code zu analysieren und Produktdetails zu extrahieren wie:

  • Titel
  • Beschreibung
  • Aufzählungspunktfunktionen
  • AnzeigenPreise
  • Bewertungen
  • Bilder
  • Verfügbarkeit
  • Variantenoptionen

Stellen Sie für die Preisgestaltung sicher, dass Sie den tatsächlichen numerischen Wert extrahieren, z. B. 29.99, und nicht den formatierten Preis wie 29.99 $. Dies erleichtert später die Analyse und den Vergleich.

Bilder können auf Ihren Server heruntergeladen werden oder Sie können die Amazon S3-URL-Links in einer Tabelle speichern.

Um Rezensionen zu erhalten, scannen Sie den Abschnitt „Rezensionen“ oder die Anzahl der Rezensionen, vermeiden Sie jedoch das Scrapen persönlicher Daten von Rezensenten wie Namen.

Schritt 3: Speichern Sie die gescrapten Amazon-Daten

Da Ihr Scraper die gewünschten Informationen aus jeder Produktseite extrahiert, möchten Sie diese Daten zur weiteren Analyse und Verwendung irgendwo speichern.

JSON ist ein gutes Standardformat zum Speichern gescrapter Amazon-Daten. Von dort kann es in eine Datenbank geladen oder in Excel geöffnet werden.

Für größere Datensätze eignet sich eine Datenbank wie MongoDB ist effizienter als das Laden in Tabellenkalkulationen.

S3 Eimer auf Cloud-Plattformen wie AWS bieten kostengünstigen Speicher für Scraped-Datensätze, der bis in den Terabyte-Bereich anwachsen kann.

Schritt 4: Bereinigen und strukturieren Sie die Daten

Raw-Scraping-Daten enthalten zwangsläufig Inkonsistenzen, Formatierungsprobleme, fehlende Werte usw.

So erstellen Sie eine nutzbare Amazon-Produktdatenbank:

  • Entfernen Sie doppelte Einträge
  • Standardisieren Sie die Preisgestaltung in einem einzigen numerischen Format
  • Validieren und formatieren Sie Felder wie ASINs und Produkt-URLs
  • Geteilte kombinierte Felder wie Bewertungsanzahl vs. durchschnittliche Bewertung
  • Füllen Sie fehlende Felder aus oder entfernen Sie sie

Verwenden Sie die Pandas-Bibliothek von Python oder OpenRefine für Datenbereinigungs- und Transformationsskripte.

Stellen Sie für eine einfache Analyse in Excel sicher, dass Ihre gecrackten Amazon-Produktdaten:

  • Enthält ein Produkt pro Zeile
  • Verwendet separate Spalten für alle Attribute (Titel, Bewertung, Preis usw.)
  • Entfernt zusätzliche Leerzeichen, Kommas und Zeichen aus Zellen

Gut strukturierte Daten erleichtern das Sortieren, Filtern und Pivotieren Ihres Amazon-Datensatzes, um Erkenntnisse zu gewinnen.

Schritt 5: Analysieren und überwachen Sie die Amazon-Daten

Nun der lustige Teil: Was können Sie mit einer Datenbank mit strukturierten Amazon-Produktdaten machen?

Preisverfolgung – Zeichnen Sie Preise im Zeitverlauf auf, um Rabatte und Trends zu erkennen.

Wettbewerbsüberwachung – Überprüfen Sie die Preise und Lagerbestände der Wettbewerber.

Amazon SEO – Identifizieren Sie hochrangige Produkte in Ihrer Nische.

Marktforschung – Filtern Sie die am besten bewerteten und meistverkauften Produkte nach Kategorie.

Nachfragevorhersage – Prognostizieren Sie Verkäufe basierend auf der Anzahl der Rezensionen und Bewertungen.

Stichwortforschung – Analysieren Sie Produkttitel, Funktionen und Beschreibungen.

Regelmäßiges Re-Scraping und Aktualisieren Ihres Amazon-Datensatzes ermöglicht alle Arten wichtiger E-Commerce-Analysen.

Erweiterte Tipps zum effektiven Scraping von Amazon

Hier sind einige Profi-Tipps zum Vermeiden von Blockaden und zum effizienten Extrahieren von Daten aus Amazon:

  • Anfragerate begrenzen – Scrapen Sie verantwortungsbewusst und vermeiden Sie die Bombardierung von Servern.

  • Überwachung der Leistung – Suchen Sie nach Ratenbegrenzungen und CAPTCHAs.

  • Verwenden Sie Proxys – Rotieren Sie verschiedene IPs, um Anfragen zu verteilen.

  • Benutzeragenten randomisieren – Verwenden Sie verschiedene Desktop- und Mobil-Header.

  • Versuchen Sie fehlgeschlagene Anfragen erneut – Behandeln Sie Fehler und Wiederholungsversuche ordnungsgemäß.

  • Schaben parallelisieren – Öffnen Sie mehrere Verbindungen, um die Datenextraktion zu beschleunigen.

  • Filter anwenden – Scrapen Sie nur relevante Daten, um die Verarbeitung zu minimieren.

  • Ergebnisse paginieren – Gehen Sie die einzelnen Produktlistenseiten durch.

  • Verwenden Sie Caching – Speichern Sie gelöschte Daten vorübergehend, um ein erneutes Löschen zu vermeiden.

Holen Sie das Beste aus Ihrem Scraper heraus und erstellen Sie robuste, effiziente Arbeitsabläufe zum Extrahieren von Amazon-Daten.

Obwohl das Scraping von Amazon-Produktdaten in den meisten Fällen legal ist, sollten Sie dennoch verantwortungsvolle Web-Scraping-Praktiken befolgen:

  • Respektiere robots.txt – Vermeiden Sie das Scrapen von durch robots.txt blockierten Seiten

  • Überprüfen Sie die Nutzungsbedingungen – Bestätigen Sie, dass Ihr Anwendungsfall zulässig ist.

  • Begrenzen Sie die Kratzhäufigkeit – Verteilen Sie Anfragen über längere Zeiträume.

  • Selektiv schaben – Extrahieren Sie nicht mehr Daten als nötig.

  • Attributdaten – Geben Sie Amazon als Quelle an.

  • Daten schützen – Daten sicher speichern und verarbeiten.

Es ist ratsam, vor einem groß angelegten Web-Scraping-Projekt einen erfahrenen Rechtsberater zu konsultieren. Aber die Einhaltung angemessener Grenzwerte und ethischer Grundsätze trägt wesentlich dazu bei, dass Ihr Amazon-Konto in Ordnung bleibt.

Zusammenfassung

Durch das Scrapen von Produktlisten auf Amazon erhalten Sie Zugriff auf eine Goldgrube an E-Commerce-Daten. Wenn Sie die in diesem Leitfaden beschriebenen Schritte befolgen, können Sie erfolgreich Informationen von Amazon für Forschung, Überwachung, datenwissenschaftliche Anwendungen und mehr extrahieren – und das alles, ohne die offizielle Amazon-Produkt-API zu benötigen.

Wie immer beim Web-Scraping sollten Sie darauf achten, beim Scraping ethisch vorzugehen, die Leistung zu überwachen und Techniken wie Proxys einzusetzen, um Blockaden zu vermeiden. Mit etwas technischem Geschick und bewährten Scraping-Praktiken steht Ihnen der Amazon-Katalog zur Verfügung.

Jetzt verfügen Sie über alle Tools und Kenntnisse, die Sie benötigen, um Amazon-Produktdaten in großem Maßstab zu erfassen und zu nutzen. Also los und schaben!

Mitreden

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *