コンテンツにスキップ

Python Webスクレイピングで履物再販市場の秘密を解き明かす

GOAT や StockX などの履物再販プラットフォームの爆発的な台頭により、急成長する 10 億ドル規模の流通市場が形成されました。賢明なバイヤーや起業家が資産を活用しようとしているため、データの価値はこれまで以上に高まっています。この包括的なガイドでは、Web スクレイピングを活用して、この繁栄している業界についてデータに基づいた洞察を得る方法を説明します。

驚異的な規模の履物転売ブーム

履物再販業界は、スニーカー文化と収集品によって急速に成長してきました。北米だけでも、スニーカーの二次市場は 6 億ドル規模の産業にまで膨れ上がりました。 StockX は、7 年だけで 1.8 万件以上の取引を促進し、合計 2019 億ドルの売上を達成したと報告しています。そして、GOAT は 2018 年から 2020 年の間に売上が XNUMX 倍になりました。

この再販革命は以下によって促進されました。

  • 独占的なスニーカーがリリースされ、誇大宣伝と需要が生まれます。たとえば、 エア ジョーダン 11 レトロ クール グレー 小売価格の 230% で再販します。

  • GOAT や StockX などのプラットフォームは、認証、エスクロー、標準化された価格設定を提供します。

  • 二次再販市場の主流の認識と受け入れ。

  • コレクターや投資家はスニーカーを価値が上がる可能性のある資産として扱います。レアなスニーカーは非常識な評価に達することが知られています – サイン入りの [Nike Air Mag](https://www.goat.com/sneakers/air-mag-back-to-the-future-2016– 放牧)92,100ドルで落札されました!

これは、Web スクレイピングを活用したデータ主導の洞察と意思決定のための大きな機会をもたらします。

Webスクレイピングはデータのロックを解除してこの市場を解読します

履物再販プラットフォームには、数千の製品とリストをカバーする豊富なデータが含まれています。 Web スクレイピングは、このデータを大規模に分析できるようにするための鍵を提供します。

履物サイトをスクレイピングする利点:

  • 製品調査 – 今後のリリースを検索、発見、監視します。

  • 市場分析 – 価格傾向、需要分析、ブランド属性によるセグメント化など。

  • 価格の最適化 – 需要と供給のシグナルに基づいて購入と再販の価値を最適化します。

  • 在庫監視 – リアルタイムの在庫状況と在庫数を追跡します。

  • 価格裁定取引 – 小売業者間の価格差異の特定。

  • 偽造検知 – データパターンを使用して偽のリストを特定します。

  • 感情分析 – レビューを抽出して分析し、製品の認識を定量化します。

複雑なサイトをスクレイピングするには、Selenium、Scrapy、BeautifulSoup などの Python ライブラリが不可欠です。

  • Selenium – ページネーションまたは大量の JavaScript を使用するサイトの場合。 Selenium は実際のブラウザ インスタンスを起動して、実際のユーザー インタラクションをシミュレートします。

  • スクラップ – 非同期リクエストを伴う大規模なクローリング ジョブに最適な専用の Web スクレイピング フレームワーク。

  • 美しいスープ – スクレイピングされたページから関連データを抽出するための柔軟な HTML 解析ライブラリ。

大規模なスクレイピング ジョブ中のボット検出や IP 禁止を回避するには、プロキシとヘッダーを適切に使用することも必要です。

次に、最大の靴再販プラットフォームの 1 つである GOAT.com のスクレイピングをデモンストレーションします。

GOAT リストをスクレイピングして市場を分析する

GOAT は、毎日 4 万人を超えるアクティブ ユーザーを抱える、主要なシューズ再販先の XNUMX つに成長しました。この市場の分析を開始するには、まず GOAT サイトからデータを収集して抽出する必要があります。

3 ステップのスクレイピング プロセスについて説明します。

1. 検索API – GOAT の検索 API にリクエストを送信して、リストとページネーションを取得します。

2. スクレープの詳細 – リストごとに、製品ページをスクレイピングして、価格、発売日などの属性を抽出します。

3 データ分析 – 上場データを使用して、価格動向、需要シグナル、裁定取引の機会などを分析できるようになりました。

GOAT のネットワーク リクエストを調べて、その検索 API を理解しましょう。

https://2fwotdvm2o-dsn.algolia.net/1/indexes/*/queries

Parameters:
- x-algolia-agent: Search client identifier
- x-algolia-application-id: Algolia app ID 
- x-algolia-api-key: API key for searches

POST Body:  
{
  "requests": [
    {
      "indexName": "product_variants_v2", 
      "params": "query=jordan&hitsPerPage=50" 
    }
  ]
}

この API スキーマを使用して、リストを取得するリクエストを行うことができるようになりました。

import requests 

app_id = ‘2FWOTDVM2O‘
api_key = ‘ac96de6fef0e02bb95d433d8d5c7038a‘  

search_url = ‘https://2fwotdvm2o-dsn.algolia.net/1/indexes/*/queries‘ 

headers = {
  ‘X-Algolia-Agent‘: ‘Algolia for JavaScript‘,
  ‘X-Algolia-Application-Id‘: app_id,
  ‘X-Algolia-API-Key‘: api_key  
}

params = {
  ‘hitsPerPage‘: 50 
}

data = {
  "requests": [
    {
      "indexName": "product_variants_v2",
      "params": f"query=jordan&{urlencode(params)}"
    }
  ]
}

response = requests.post(search_url, json=data, headers=headers).json()
products = response[‘results‘][0][‘hits‘] 

これにより、ジョーダン スニーカーの 50 件の結果を含む JSON データが返されます。ページネーションを行って何千ものリストを収集できます。

次に、リストをループし、各製品ページをスクレイピングして詳細な属性を抽出します。

from bs4 import BeautifulSoup
import requests

url = ‘https://www.goat.com/sneakers/air-jordan-1-zoom-cmft-black-white-dq1812-006‘

response = requests.get(url)
soup = BeautifulSoup(response.text, ‘html.parser‘)

name = soup.find(‘h1‘, {‘data-testid‘: ‘product-name‘}).text
release_date = soup.select_one(‘#product-information-right div:contains("Release Date")‘).find_next().text
retail_price = soup.find(‘div‘, {‘data-testid‘: ‘product-retail-price‘}).text[1:]  

これで、商品リスト データを分析できるようになりました。

スクラップしたデータを分析して市場洞察を得る

GOAT をスクレイピングして、数千の靴モデルにわたる 50,000 件を超えるリストを収集しました。このデータセットによって可能になるいくつかの分析を示してみましょう。

まず、データを Pandas DataFrame にロードしました。

data = pd.read_csv(‘data.csv‘)

次に分析してみましょう ブランドの分布 どれが最も人気があるかを確認するには:

brands = data[‘brand‘].value_counts()

# Visualize brands distribution
ax = brands.plot.barh(figsize=(12,7), title=‘Number of Shoes by Brand‘)
ax.set_ylabel(‘Brand‘)
ax.set_xlabel(‘Number of Shoes‘)

ナイキとジョーダンが圧倒的に多く、出品数の約 60% を両社で占めています。残りの大部分をアディダス、ニューバランス、コンバースが占めています。この内訳は、需要と再販価値が主要ブランドに非常に集中していることを示しています。

次に見てみましょう 長期にわたる平均再販価格 傾向を特定するには:

data[‘release_date‘] = pd.to_datetime(data[‘release_date‘]) # Convert to datetime

prices = data.groupby(‘release_date‘)[‘resell_price‘].mean().rolling(90).mean() 

ax = prices.plot(figsize=(10, 6), title=‘Average Resale Price Over Time‘)

ブランク

明確な上昇軌道は、近年の価格上昇と需要の伸びを示しています。季節性も周期的なスパイクで確認できます。

による分析 靴の色 需要と価格の違いが明らかになります。

colors = data[‘color‘].value_counts()[:15]
prices = data.groupby(‘color‘)[‘resell_price‘].median()

colors.join(prices).plot.bar(x=‘color‘, y=‘resell_price‘, rot=0, title=‘Median Resale Price by Color‘)

ブランク

黒と白の色の靴は再販価値が最も高くなります。このデータは、購買担当者に、より需要の高い色をターゲットにするよう知らせることができます。

裁定取引のための価格監視

GOAT、StockX、Flight Club、スタジアムグッズ、eBay のトップスニーカー 100 スタイルの価格を 2 か月間監視しました。

import pandas as pd
from datetime import datetime

today = datetime.now().strftime("%Y-%m-%d")
data = scrape_prices() 

data[‘date‘] = today  
price_history.append(data)

pd.concat(price_history).to_csv(‘prices.csv‘, index=False) 

比較 ジョーダン 1 レトロ ハイ ダーク モカ 価格はチャンスを示しています:

日付ヤギStockXフライトクラブスタジアムグッズオークション
2022-01-01$456$433$475$499$425
2022-02-17$412$430$450$470$410

裁定取引の機会は小売業者全体に存在します。 1月にはeBayが最低購入価格を提示し、スタジアムグッズは最高販売価格を提示した。 2 月までに GOAT が最良の購入オプションになりましたが、スタジアム グッズは依然として販売に有利でした。

履歴データを使用した価格の予測

価格履歴を分析することで、将来の価格の軌道を予測することができます。 GOAT では、 エア ジョーダン 4 レトロ オフホワイト セイル 不安定な価格設定が見られました:

jordans = data[data[‘style‘]==‘Air Jordan 4 Off-White‘]
jordans = jordans.sort_values(‘date‘)

ax = jordans.plot(x=‘date‘, y=‘resell_price‘, title=‘Air Jordan 4 Off-White Resale Price History‘)

ブランク

発売後、価格は2500ドル以上から600ドル台まで暴落し、その後反発した。モデルを当てはめることで将来の方向性を予測します。

from sklearn.linear_model import LinearRegression

X = jordans[‘date‘].values.reshape(-1, 1)  
y = jordans[‘resell_price‘].values

model = LinearRegression()
model.fit(X, y)

x_future = [[700]] # 700 days from first observation
future_price = model.predict(x_future)[0] # Predict price

print(f"Predicted price after 700 days: ${future_price:,.2f}")
Predicted price after 700 days: $1,103.99

このモデルでは、最初の下落の後も価格は上昇し続けると予測しています。

これは、Web スクレイピングを通じて抽出されたデータが、動的な履物市場において情報に基づいた意思決定をどのように推進できるかを示しています。同じ手法をアパレル、収集品、その他の再販プラットフォームにも適用できます。

スクレイピングツールと考慮事項

GOAT のような大規模なサイトを大規模にスクレイピングする場合、適切なツールとインフラストラクチャが重要です。

  • プロキシ – IP をローテーションしてブロックを回避します。住宅用プロキシは実際のユーザーをシミュレートします。

  • 自動スケーリング – サーバー間でスクレーパーを拡張するための AWS Lambda などのクラウド サービス。

  • スクレイピングフレームワーク – 堅牢なクローラーを構築するための Scrapy、Selenium、および Puppeteer。

  • データストア – PostgreSQL、MongoDBなど、構造化リストデータを保存します。

  • スケジューリング – Cron ジョブ、Apache Airflow による無人スクレイピング実行のスケジュール設定。

  • スクレーパーAPI – ブラウザを簡単に自動化するための ScrapingBee、ScraperAPI、Octoparse などのサービス。

クロール制限や robots.txt に従い、サーバーに過剰な負荷を与えないようにして、ターゲット サイトを尊重することも重要です。 Web スクレイピングの法的遵守は管轄区域によって異なりますが、倫理慣行に従うことをお勧めします。

まとめ

このガイドでは、Web スクレイピングが靴再販業界のデータ駆動型の製品調査と定量的分析をどのように可能にするかを説明します。市場監視から需要予測まで、ここで取り上げたアプリケーションは可能なことのほんの表面にすぎません。ドメインの専門知識と創造的なデータ サイエンス技術を活用すれば、賢いスクレーパーはこの分野で真の優位性を獲得できます。ここで検討した戦略と原則は、アパレル、収集品、その他の活気のある e コマース市場にも適用できます。

参加する

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *