なぜプロキシが禁止されるのですか?
ターゲットのウェブサイトが特定のIPアドレスまたはアドレスの範囲からトラフィックをブロックしたときにプロキシ禁止が起こります。 ウェブサイトは、そのIPから来ているトラフィックが自動化され、虐待的、またはその他の望ましくないことを、さまざまな信号によって決定しました。
禁止が起こる理由を理解することは、それらを防ぐための最初のステップです。 お問い合わせ ウェブサイトのスクレイピング、価格を監視するか、または追跡します 採用情報, 検出信号を知っているし、それらを移行する方法は、あなたの成功率を劇的に改善します.
一般的なバントリガー
1. 過剰要求の容積
最も基本的な検出信号は要求率です。 単一のIPが同じウェブサイトに1秒あたりの100リクエストを送信した場合、それは明らかに人間の閲覧ではありません。 ほとんどのWebサイトでは、ブロックやCAPTCHAを上回る確率が制限されます。 これらの制限は大きく異なります。一部のサイトでは、1分あたりの10リクエストをIPごとに許可します。一方、他の人は数百を許容します。
2. 既知のプロキシ/データセンター IP 範囲
IPインテリジェンスサービス(IPinfo、IP2Location)は、IPをタイプ別に分類します。 ホスティングプロバイダASS(AWS、Google Cloud、OVH)に属しているため、データセンターIPは簡単に識別できます。 多くのウェブサイトは、既知のデータセンターIP範囲からすべてのトラフィックを自動的にブロックまたはチャレンジします。 だからこそ 住宅のプロキシ 成功率が高いため、IP はコンシューマー接続として分類されます。
3. IPの評判のブラックリスト
複数のサービスは、スクレイピング、スパム、またはその他の自動化されたアクティビティに使用されるIPアドレスのブラックリストを維持します。 これらのリストにプロキシIPが表示された場合、ブラックリストサービスに加入するWebサイトは、単一のリクエストを送信する前に、優先的にブロックされます。 プールの健康の監視 プロバイダーは、回転からブラックリストされたIPを削除するのに役立ちます。
4. 疑わしい要求パターン
合理的なリクエスト率でも、トラフィックパターンは自動化を明らかにできます。
- 均一タイミング: 人間の閲覧のランダムな間隔ではなく、正確な間隔(毎回2.0秒)で到着するリクエスト
- 順次アクセス: 自然の航路を追うのではなく、アルファベットや数字の順でページを訪問
- サブリソース負荷なし: 実際のブラウザは、画像、CSS、JavaScript、フォントをロードします。 — HTMLのみをキャッチするスクレイパーは、HTMLのみを目立たせる
- レファラーヘッダを欠く: ブラウザは、ページ間をナビゲートするときに必ず参照者を送信します。スクレーパーは頻繁には使用しません
- 異常な深さ優先パターン: 人のようにブラウジングするのではなく、次のに移動する前にカテゴリに深く描画
5. 一致させた指紋
アンチボットシステム 訪問者プロファイルを作成するために複数の信号を関連付けます。 これらの信号が互いに矛盾するとき、訪問者はフラグが付けられます。
- ジオの不一致: IPはドイツと言いますが、ブラウザのタイムゾーンは米国パシフィックであり、受け入れ言語は
en-US - TLSの指紋: TLSクライアントハローシグネチャは、要求されたブラウザに一致しません(例えば、Chromeに要求するPythonリクエストライブラリ)
- JavaScriptの実行: ボット検出スクリプトは、ヘッドレスブラウザが完全に実装できないブラウザAPIのテスト
- WebRTCの漏出: 適切に設定されていない場合、WebRTC はプロキシの背後にある実際の IP を公開することができます
6. 集中されたSubnetの交通
同じ /24 サブネット (例えば、185.23.100.1 から 185.23.100.254) の複数の IP が同じウェブサイトに当たると、サイト全体がサブネットをブロックする可能性があります。 お問い合わせ IPの回転 アルゴリズムは、連続リクエスト間でサブネットダイバーシティを確保します。
7. セッションとクッキー異常
ウェブサイトは、最初の訪問でクッキーを設定し、その後の要求にそれらを期待します。 クッキーを維持しないスクレーパー, その現在の有効期限が切れたクッキー, またはそれは矛盾したセッション状態を表示 (1つのリクエストで強制的に, 次に匿名) 疑惑を引き起こします.
バンとブロックの種類
| ブロックタイプ | それはどのように見えるか | サビティ | バックアップ |
|---|---|---|---|
| CAPTCHAチャレンジ | コンテンツではなくCAPTCHAページ | ソフトブロック | 回転IP、減速 |
| HTTP 403 禁止 | アクセス拒否応答 | 中ブロック | IP を回して下さい、指紋を変えて下さい |
| HTTP 429 Too 多くのリクエスト | レート制限を超える | ソフトブロック | 待ち時間と再試行、速度を削減 |
| 空の/破損した応答 | 空白ページやゴミデータ | ステルスブロック | 異なるIPで検証 |
| ブロックページへのリダイレクト | 「ブロックされた」通知に送信 | 中ブロック | IP の回転、ヘッダーのチェック |
| IPブラックリスト | 関係のタイムアウトかリセット | ハードブロック | IP は燃え、別の 1 を使用します |
| サブネット/ASN禁止 | 範囲内のすべてのIPをブロック | ハードブロック | 異なるASNへの切り替え |
予防戦略
保護されたターゲットのための住宅のプロキシを使用する
住宅用プロキシ 実際の家庭にISPによって割り当てられたIPを持っています。 それらはASNレベルのチェックを通過し、データセンターIPをブロックします。 強い反ボット保護のウェブサイトのために、住宅のプロキシはベースラインの条件です。 最も積極的なターゲットのために、モバイルプロキシは、CGNAT IP共有によるさらに高い信頼を提供します。
スマートレート制限の実装
接続が許すので、ターゲットを素早くヒットしないでください。 代わりに:
- ターゲットのレート制限を調べる(429s または CAPTCHAs を参照するまでのトライエスカレート要求周波数)
- リクエスト間でランダムな遅延を追加(例えば、ジッタで1-5秒)
- 破裂時にそれらを送信するのではなく、時間を渡る分散要求
- 異なるエンドポイントの異なるレート制限を使用する(検索ページと製品ページ)
import time
import random
import requests
PROXY = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
for url in urls:
resp = requests.get(
url,
proxies={"http": PROXY, "https": PROXY},
timeout=15,
)
# Random delay between 1.5 and 4.5 seconds
time.sleep(random.uniform(1.5, 4.5))
理性的なIPsを回して下さい
IPの回転 複数のアドレスにトラフィックを分散させます。 しかし、回転は他の戦略と組み合わせなければならない:
- 独立したページ fetches の per-request を回転させる
- セッションの継続を必要とするマルチステップのワークフローにスティッキーセッションを使用する
- サブネットの多様性を確保 — 同じ /24 の範囲からの連続リクエストを送信しない
- ターゲットの感度に回転戦略をマッチ — より積極的なサイトでは、より高速な回転が必要
リアルなヘッダを設定する
実際のブラウザにマッチするヘッダを含む必要があります。
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
"Accept-Language": "en-US,en;q=0.9",
"Accept-Encoding": "gzip, deflate, br",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"Sec-Fetch-Dest": "document",
"Sec-Fetch-Mode": "navigate",
"Sec-Fetch-Site": "none",
"Sec-Fetch-User": "?1",
}
ユーザーのエージェント文字列を現在の一般的なブラウザのセットに回転させます。 User-Agent が TLS の指紋にマッチすることを確認してください。Python TLS の署名を送信すると、Chrome が要求されます。
地理的な信号を合わせて下さい
使用時 ジオターゲティングプロキシ、プロキシの場所とすべてのリクエストメタデータを整列します。
- セット
Accept-Language国の第一次言語に合わせて - ブラウザの自動化を使用する場合は、プロキシの地理に合わせてタイムゾーンを設定
- 実際のIP漏洩を防ぐWebRTCを無効に
クッキーとセッションを適切に処理
セッション内でリクエストを介したクッキーを維持します。 セッションオブジェクトを使う(のような) requests.Session() Pythonで)クッキーの永続を自動的に処理します。 IP を回転させるとき、また新しいクッキーの瓶を始めて下さい–これが矛盾を作成するので別の IP からのクッキーを、運びません。
回復技術
早期に禁止の検出
パイプライン全体が失敗するまで待つ必要はありません。 禁止信号のためのモニター:
- ターゲットドメインごとの成功率を追跡 — 突然の低下は禁止が始まります
- CAPTCHAページ(CAPTCHAインジケータのレスポンスボディをチェック)
- 応答サイズを監視 — ブロックされた応答は、実際のページよりもはるかに小さい
- 応答時間をチェック — 疑わしいボット(タルピット)に対する応答を意図的に遅くするサイト
再試行ロジックの実装
import requests
from time import sleep
PROXY = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
def fetch_with_retry(url, max_retries=3):
for attempt in range(max_retries):
resp = requests.get(
url,
proxies={"http": PROXY, "https": PROXY},
timeout=15,
)
if resp.status_code == 200 and len(resp.text) > 1000:
return resp
# Exponential backoff before retry (new IP via rotation)
sleep(2 ** attempt)
return None
エスカレーション戦略
ブロックが永続するとき、あなたのアプローチをエスカレートします。
- ファースト: レートを削減し、よりランダム化された遅延を追加
- 第2: データセンターから切り替える 住宅のプロキシ
- 第3: ブラウザの自動化(Puppeteer/Playwright)を追加して、JavaScriptを実行し、ブラウザのチェックを渡す
- 4位: 全指紋管理を実施(TLS、キャンバス、WebGL)
- 第5回: モバイルプロキシを使用して、最高レベルのIP分類
主なテイクアウト: プロキシ禁止は、IPアドレスだけでなく、信号の組み合わせによって引き起こされます。 禁止を防ぐには、包括的なアプローチが必要です。品質は、 スマートな回転、現実的な要求パターン、適切なヘッダーおよび一貫した指紋。 禁止が発生した場合は、早期に検出し、戦略を増分的にエスカレーションします。
よくある質問
プロキシ禁止は通常どのくらいの期間は続きますか?
ターゲットにより異なります。 一部のサイトでは、IP を分数または時間、日数または永続的にブロックします。 レート・リミット・ブロック(45)は通常、数分で期限が切れます。 IPブラックリストは、数か月間持続することができます。 回転プロキシでは、自動的に新しいIPを得るため、禁止期間は関連性が少なくなります。
プロキシを回転させると、すべての禁止を防ぐことができますか?
回転は防ぎます IPベース カスケードから禁止しますが、指紋ベースのまたは行動ベースの検出には対処しません。 回転と現実的な要求パターン、適切なヘッダー、一貫性のあるブラウザの指紋が必要です。
プロキシタイプが禁止される可能性は?
モバイルプロキシは、モバイルIPがCGNATを介して多くの実際のユーザーによって共有されているため、最も低い禁止率を持っています。 住宅のプロキシは次の通りです。 ISPのプロキシ。 データセンタープロキシは、保護されたサイト上で最も高い禁止率を持っています。
私のプロキシIPが既にブラックリストされているかどうかはどうすればよいですか?
大きい仕事を始める前にあなたのターゲットに対するIPをテストして下さい。 単一のリクエストを送信し、通常の応答を得ることを確認します。 また、パブリックブラックリストサービスに対して IP をチェックすることもできますが、これらはウェブサイトが維持するすべてのプライベートブラックリストをカバーしていません。
すべてのターゲットに同じプロキシを使用する必要がありますか?
いいえ。 異なったターゲットに異なった感受性があります。 使用条件 専用のプロキシ 大量のデータ収集のための高値、永続的なタスクと共有回転プロキシ。 各ターゲットの保護レベルにプロキシタイプと戦略を一致させます。






