Amazonスクレイピングにはどのプロキシタイプが最適ですか？

レジデンシャルプロキシが最適です。Amazonのアンチボットシステムはデータセンター IP範囲のデータベースを保持し、積極的にブロックします。レジデンシャルプロキシは実ISP割り当てIPを使用するため、Amazonのレピュテーションチェックを通過します。

Amazonのスクレイピングは合法ですか？

公開商品ページからの情報収集は一般的に合法とされていますが、Amazonの利用規約はスクレイピングを制限しています。公開価格データの収集は競争情報として広く行われています。個人データの収集は避け、レート制限を尊重してください。

Amazonにブロックされずにスクレイピングするコツは？

ローテーションレジデンシャルプロキシを使用し、リクエスト間にランダムな遅延（2-5秒）を入れ、リアルなブラウザヘッダーを送信し、リクエスト順序をランダム化してください。同一IPからの連続アクセスを避け、指数バックオフ付きのリトライロジックを実装します。

Amazon商品ページからどのようなデータを抽出できますか？

商品名、価格、在庫状況、商品説明、仕様、カスタマーレビュー、評価、ランキング、セラー情報、関連商品などを抽出できます。ASINを使用して商品を一意に識別し、構造化データとして保存します。

Amazonスクレイピングにヘッドレスブラウザは必要ですか？

基本的な商品データ（価格、タイトル、説明）はHTTPリクエストで取得可能です。ただし、動的にロードされるレビューや一部のコンテンツにはヘッドレスブラウザ（PuppeteerやPlaywright）が必要な場合があります。HTTPリクエストの方がはるかに高速で帯域幅効率が良いため、可能な限りHTTPリクエストを優先してください。

Amazonデータをプロキシでスクレイピング

なぜAmazon製品データをScrapeするのですか?

アマゾンは、世界中の数十万のマーケットプレイスで350万以上の製品をホストしています。 eコマース企業にとって、このデータは有能です。競合価格、製品説明、顧客レビュー、ベストセラーランク、在庫シグナルはすべてスマートな決定を促すことができます。あなたが構築しているかどうか価格監視ツール市場調査、AIモデルのトレーニング、Amazon製品データは、Web上で最も価値の高いターゲットの1つです。

課題は、アマゾンが反ボット防衛に大きく投資していることです。適切なプロキシ戦略がなければ、スクレーパーは、CAPTCHA、IPブロック、および不正な応答を数分でヒットします。このガイドでは、Amazonをスケールで確実にスクレイピングするために必要なアーキテクチャ、コード、プロキシ構成を説明します。

Amazonのアンチボット保護

単一行のコードを書く前に、相手が何をしているかを理解する必要があります。 Amazonは、あらゆる着信リクエストを分析するレイヤード検出システムを採用しています。

指紋の要求

Amazon は HTTP ヘッダ、TLS の指紋、および注文を要求します。標準ブラウザのヘッダを欠落させたり、既知のボットシグネチャを使用していたい場合はすぐにフラグが付けられます。ザ・オブ・ザ・ Accept-Language, Accept-Encodingと User-Agent ヘッダは一貫して現実的でなければなりません。

行動分析

ヒトが達成できず、予測可能なパターン(例、シーケンシャル ASIN)をフォローし、トリガーレート制限を要求します。 Amazonは複数のリクエストでセッションの動作を追跡します。そのため、各IPは本物の買い物客のように動作する必要があります。

CAPTCHAチャレンジ

Amazon が自動トラフィックを疑うと、製品データではなく CAPTCHA のページが機能します。住宅IPは、同じIPプールを実際のAmazonの買い物客と共有しているため、データセンターIPよりもはるかに少ないCAPTCHAsを受け取ります。より深い検出方法を見るには、ガイドを参照してくださいアンチボットシステムがプロキシを検出する方法. .

キーテイクアウト: 適切な回転を持つ住宅のプロキシは、持続可能なアマゾンスクレイピングのために不可欠です。データセンターのプロキシは時間内にブロックされます。

Amazonから抽出できるデータ

Amazonから抽出できるデータ
データポイント	ソースページ	ユースケース
商品名、画像、説明	製品詳細ページ	カタログ作成、コンテンツ解析
現在の価格, 取引価格, リスト価格	プロダクト細部/提供のリスト	価格の監視、補充
顧客レビューと評価	レビューページ	センティメント分析、製品研究
ベストセラーズランク(BSR)	製品詳細ページ	市場需要推定
購入ボックス販売者、配送情報	製品詳細ページ	競争の追跡
結果ランキングの検索	検索結果ページ	SEOと広告の最適化
カテゴリ階層	ノードを参照	課税マッピング

プロキシの設定

ProxyHatの住宅プロキシゲートウェイは、Amazonスクレイピングに必要なIPダイバーシティとジオターゲティングを提供します。ゲートウェイを介して接続し、IP をリクエストごとに自動回転したり、必要に応じて粘液セッションを維持したりします。

基本接続

# HTTP proxy
http://USERNAME:PASSWORD@gate.proxyhat.com:8080
# With geo-targeting (US Amazon)
http://USERNAME-country-US:PASSWORD@gate.proxyhat.com:8080
# With sticky session (maintain same IP for a browsing session)
http://USERNAME-session-amz001:PASSWORD@gate.proxyhat.com:8080

Amazonのスクレイピングには、スクレイピングしている市場に合った国をターゲットにすることをお勧めします。 scraping amazon.de? ドイツのIPを使用してください。 scraping amazon.co.jp? 日本語のIPを使用してください。チェックイン利用可能な場所完全なリストのために。

Pythonの実装

ここでは、Amazon製品データの完全なPythonスクレーパーです。 ProxyHatのPython SDK リクエストとBeautifulSoupと一緒に。

基本的なプロダクトスクレーパー

import requests
from bs4 import BeautifulSoup
import random
import time
import json
PROXY_URL = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
USER_AGENTS = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:125.0) Gecko/20100101 Firefox/125.0",
]
def get_amazon_product(asin, marketplace="com"):
    """Scrape product data from Amazon by ASIN."""
    url = f"https://www.amazon.{marketplace}/dp/{asin}"
    headers = {
        "User-Agent": random.choice(USER_AGENTS),
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        "Accept-Language": "en-US,en;q=0.9",
        "Accept-Encoding": "gzip, deflate, br",
        "Connection": "keep-alive",
    }
    proxies = {
        "http": PROXY_URL,
        "https": PROXY_URL,
    }
    response = requests.get(url, headers=headers, proxies=proxies, timeout=30)
    if response.status_code != 200:
        return None
    soup = BeautifulSoup(response.text, "html.parser")
    product = {
        "asin": asin,
        "title": extract_title(soup),
        "price": extract_price(soup),
        "rating": extract_rating(soup),
        "review_count": extract_review_count(soup),
        "bsr": extract_bsr(soup),
        "availability": extract_availability(soup),
    }
    return product
def extract_title(soup):
    el = soup.find("span", {"id": "productTitle"})
    return el.get_text(strip=True) if el else None
def extract_price(soup):
    el = soup.find("span", {"class": "a-price-whole"})
    if el:
        fraction = soup.find("span", {"class": "a-price-fraction"})
        price = el.get_text(strip=True).rstrip(".")
        if fraction:
            price += "." + fraction.get_text(strip=True)
        return price
    return None
def extract_rating(soup):
    el = soup.find("span", {"class": "a-icon-alt"})
    if el and "out of" in el.get_text():
        return el.get_text(strip=True).split(" ")[0]
    return None
def extract_review_count(soup):
    el = soup.find("span", {"id": "acrCustomerReviewCount"})
    return el.get_text(strip=True) if el else None
def extract_bsr(soup):
    el = soup.find("th", string=lambda t: t and "Best Sellers Rank" in t)
    if el:
        return el.find_next("td").get_text(strip=True)
    return None
def extract_availability(soup):
    el = soup.find("div", {"id": "availability"})
    return el.get_text(strip=True) if el else None
# Example usage
if __name__ == "__main__":
    asins = ["B0CHX3QBCH", "B0D5BKRY4R", "B0CRMZHDG7"]
    for asin in asins:
        product = get_amazon_product(asin)
        if product:
            print(json.dumps(product, indent=2))
        time.sleep(random.uniform(2, 5))  # Random delay between requests

検索結果の移行

def scrape_search_results(keyword, max_pages=5):
    """Scrape Amazon search results with pagination."""
    results = []
    for page in range(1, max_pages + 1):
        url = f"https://www.amazon.com/s?k={keyword}&page={page}"
        headers = {
            "User-Agent": random.choice(USER_AGENTS),
            "Accept-Language": "en-US,en;q=0.9",
        }
        proxies = {"http": PROXY_URL, "https": PROXY_URL}
        response = requests.get(url, headers=headers, proxies=proxies, timeout=30)
        if response.status_code != 200:
            print(f"Page {page}: status {response.status_code}")
            break
        soup = BeautifulSoup(response.text, "html.parser")
        items = soup.find_all("div", {"data-component-type": "s-search-result"})
        for item in items:
            asin = item.get("data-asin", "")
            title_el = item.find("h2")
            price_el = item.find("span", {"class": "a-price-whole"})
            results.append({
                "asin": asin,
                "title": title_el.get_text(strip=True) if title_el else None,
                "price": price_el.get_text(strip=True) if price_el else None,
                "page": page,
            })
        time.sleep(random.uniform(3, 7))
    return results

Node.js 実装

Node.js プロジェクトでは、 ProxyHat ノード SDK パッシングのためのcheerioを使って。

const axios = require("axios");
const cheerio = require("cheerio");
const { HttpsProxyAgent } = require("https-proxy-agent");
const PROXY_URL = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080";
const agent = new HttpsProxyAgent(PROXY_URL);
const USER_AGENTS = [
  "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/124.0.0.0 Safari/537.36",
  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 Chrome/124.0.0.0 Safari/537.36",
];
async function scrapeProduct(asin, marketplace = "com") {
  const url = `https://www.amazon.${marketplace}/dp/${asin}`;
  const { data } = await axios.get(url, {
    httpsAgent: agent,
    headers: {
      "User-Agent": USER_AGENTS[Math.floor(Math.random() * USER_AGENTS.length)],
      "Accept-Language": "en-US,en;q=0.9",
      Accept: "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    },
    timeout: 30000,
  });
  const $ = cheerio.load(data);
  return {
    asin,
    title: $("#productTitle").text().trim() || null,
    price: $(".a-price-whole").first().text().trim() || null,
    rating: $(".a-icon-alt").first().text().trim().split(" ")[0] || null,
    reviewCount: $("#acrCustomerReviewCount").text().trim() || null,
    availability: $("#availability").text().trim() || null,
  };
}
async function scrapeMultiple(asins) {
  const results = [];
  for (const asin of asins) {
    try {
      const product = await scrapeProduct(asin);
      results.push(product);
      console.log(`Scraped: ${product.title}`);
    } catch (err) {
      console.error(`Failed ${asin}: ${err.message}`);
    }
    // Random delay 2-5 seconds
    await new Promise((r) => setTimeout(r, 2000 + Math.random() * 3000));
  }
  return results;
}
// Usage
scrapeMultiple(["B0CHX3QBCH", "B0D5BKRY4R"]).then((results) => {
  console.log(JSON.stringify(results, null, 2));
});

Amazon用のプロキシローテーション戦略

Amazonの検出は、複数のリクエストが単一のIPから来るほど攻撃的になります。ここが一番うまくいく回転戦略です。

リクエスト回転

各要求が独立したバルクプロダクト一見のために、あらゆる要求にIPsを回して下さい。これは、ProxyHatのゲートウェイでデフォルトの動作です。各新しい接続は新しい住宅IPを取得します。

セッションベースの回転

複数のページで検索結果をスクレイピングするときは、セッション全体に同じIPを保持します。 IP のミッドペジネーションを切り替えると、Amazon に疑わしいようです。 ProxyHat のスティッキーセッションを使用する:

# Maintain same IP for up to 10 minutes
http://USERNAME-session-search001:PASSWORD@gate.proxyhat.com:8080

ジオターゲット回転

プロキシの場所をAmazonマーケットプレイスに合わせます。 US IP から amazon.de にアクセスすると、フラグが上がります。ターゲット特定の国:

# German IPs for amazon.de
http://USERNAME-country-DE:PASSWORD@gate.proxyhat.com:8080
# Japanese IPs for amazon.co.jp
http://USERNAME-country-JP:PASSWORD@gate.proxyhat.com:8080
# UK IPs for amazon.co.uk
http://USERNAME-country-GB:PASSWORD@gate.proxyhat.com:8080

回転技術の詳細については、詳細なガイドをご覧ください 2026年にWebスクレイピングに最適なプロキシ. .

Amazonスクレイピングのベストプラクティス

遅延をランダム化: リクエスト間で2-7秒のランダムな間隔を使用します。固定レートでスクレイピングしないでください。
ユーザーエージェントを回転させる: 少なくとも10の現実的なブラウザのユーザーエージェント文字列のプールを維持し、それらを回転させます。
ハンドル CAPTCHAs gracefully: CAPTCHAの応答を受信したら、30〜60秒間戻って、新しいIPで再試行してください。
Robots.txt の尊重: ほとんどの管轄区域で合法的に結合しない間、robots.txt命令に続くことはよい信仰を示します。
住宅のプロキシを使用して下さい: データセンターIPは、Amazonで簡単に識別され、ブロックされます。住宅用プロキシ同じIP範囲を実際の買い物客と共有します。
モニターの成功率: HTTP 200 レートを追跡します。 90%以下にドロップすると、通貨を削減したり、回転戦略を調整したりできます。
キャッシュレスポンス: データが変更されていない場合は、同じURLを2回スクレイピングしないでください。製品のデータをキャッシュし、価格変更の頻度に基づいてリフレッシュ間隔を設定します。

Amazonスクレーパーのスケーリング

数百～数百万もの製品に移行するとき、建築問題。

キューベースアーキテクチャ

メッセージキュー(Redis、RabbitMQ、SQS)を使用して、ASINリストを管理します。ワーカープロセスは、キューから ASIN をプルし、それらをスクレイピングし、結果をデータストアにプッシュします。スクレーピングからスケジューリングし、労働者を独立してスケールアップさせます。

並列制御

5-10同時リクエストで開始し、成功率を監視しながら徐々に増加します。 ProxyHatの住宅プールでは、問題なく20-50の同時セッションを実行できます。お問い合わせウェブスクレイピングユースケースページ推奨設定のため。

データパイプライン

PostgreSQL またはデータウェアハウス内のデータを再処理するためのオブジェクトストア(S3)で未加工 HTML を保存します。この分離では、再スクレイピングなしでバグを解析することができます。

プロのヒント:アマゾンの製品ページは頻繁に構造を変えます。生のHTMLを保存して、セレクターが変更したときにデータを再抽出することができます。Amazonを再度ヒットすることなく。

法的および倫理的考慮事項

Webスクレイピングは、一般に利用可能なデータのためのほとんどの管轄区域で合法であるが、責任ある慣行の問題である。公開されているデータを収集するだけ。認証されたページ、販売者アカウント、またはプライベートデータにアクセスしようとしないでください。 Amazonのサービスを他のユーザーに劣化させないようにリクエストを率制限します。必要なデータのみを保存し、該当するプライバシー法を遵守して取り扱います。

キーテイクアウト

Amazonのアンチボットシステムは、ターゲット市場に合わせてジオターゲティングを備えた住宅用プロキシを必要とします。
バルクルックアップのためのリクエストごとにIPを回転させる。コピーされたブラウジングのためにスティッキーセッションを使用してください。
遅延、ユーザーエージェント、および要求パターンをランダム化して検出を回避します。
数千もの製品を超えてスケーリングするためのキューベースのアーキテクチャを構築します。
セレクターの変更に対するレジリエンスのために生のHTMLを保存します。
使用条件 ProxyHatの住宅用プロキシすべてのAmazonマーケットプレイス全体で高い成功率のために。

Amazonデータをスクレイピングする準備はできましたか? 私たちについて eコマースデータスクレイピングガイド完全な戦略をカバーし、 ProxyHat のプロキシインフラストラクチャを弊社で探索できます。プライシングページ. .

プロキシを使ったAmazon商品データのスクレイピング方法

なぜAmazon製品データをScrapeするのですか?

Amazonのアンチボット保護

指紋の要求

行動分析

CAPTCHAチャレンジ

Amazonから抽出できるデータ

プロキシの設定

基本接続

Pythonの実装

基本的なプロダクトスクレーパー

検索結果の移行

Node.js 実装

Amazon用のプロキシローテーション戦略

リクエスト回転

セッションベースの回転

ジオターゲット回転

Amazonスクレイピングのベストプラクティス

Amazonスクレーパーのスケーリング

キューベースアーキテクチャ

並列制御

データパイプライン

法的および倫理的考慮事項

キーテイクアウト

始める準備はできましたか？

なぜAmazon製品データをScrapeするのですか?

Amazonのアンチボット保護

指紋の要求

行動分析

CAPTCHAチャレンジ

Amazonから抽出できるデータ

プロキシの設定

基本接続

Pythonの実装

基本的なプロダクト スクレーパー

検索結果の移行

Node.js 実装

Amazon用のプロキシローテーション戦略

リクエスト回転

セッションベースの回転

ジオターゲット回転

Amazonスクレイピングのベストプラクティス

Amazonスクレーパーのスケーリング

キューベースアーキテクチャ

並列制御

データパイプライン

法的および倫理的考慮事項

キーテイクアウト

始める準備はできましたか？

こちらの記事もおすすめです

プロキシで商品レビューを大規模にスクレイピングする方法

スクレイピング時にAmazon IPバンを回避する方法

スクレイピングレート制限の解説

プロキシでShopifyストアをスクレイピングする方法：完全ガイド

基本的なプロダクトスクレーパー