Pourquoi les mandataires sont-ils interdits?
Une interdiction par procuration survient lorsqu'un site Web cible bloque le trafic à partir d'une adresse IP ou d'une gamme d'adresses spécifiques. Le site a déterminé — à travers divers signaux — que le trafic provenant de cette IP est automatisé, abusif, ou autrement indésirable, et il refuse de répondre à d'autres demandes de lui.
Comprendre pourquoi des interdictions se produisent est la première étape vers leur prévention. Si vous êtes suppression de sites Web, suivi des prix ou suivi SERP, connaître les signaux de détection et comment les atténuer améliorera considérablement vos taux de réussite.
Déclencheurs d'interdiction courants
1. Volume excessif des demandes
Le signal de détection le plus basique est le taux de demande. Si une seule IP envoie 100 requêtes par seconde au même site, ce n'est clairement pas une navigation humaine. La plupart des sites web fixent des limites de taux — seuils qui déclenchent des blocs ou des CAPTCHA lorsqu'ils sont dépassés. Ces limites varient considérablement : certains sites permettent 10 requêtes par minute par IP, tandis que d'autres tolèrent des centaines.
2. Gammes IP Proxy/Datacenter connues
Les services d'intelligence IP (MaxMind, IPinfo, IP2Location) classent les IP par type. Les IP Datacenter sont faciles à identifier car elles appartiennent au fournisseur d'hébergement ASN (AWS, Google Cloud, OVH). De nombreux sites Web bloquent ou contestent automatiquement tout trafic à partir de gammes IP connues de datacenter. C'est pourquoi Proxies résidentielles ont des taux de réussite plus élevés — leurs PI sont classées comme des connexions de consommateurs.
3. Listes noires de réputation IP
Plusieurs services maintiennent des listes noires d'adresses IP connues pour être utilisées pour le grattage, le spammage ou toute autre activité automatisée. Lorsque votre IP proxy apparaît sur ces listes, les sites Web qui s'abonnent au service de liste noire vous bloqueront de façon préventive, même avant d'envoyer une seule demande. Surveillance sanitaire de la piscine aide les fournisseurs à supprimer les IP sur liste noire de la rotation.
4. Patterns de demandes suspectes
Même à des taux de demande raisonnables, votre trafic peut révéler l'automatisation:
- Horaire uniforme: Demandes arrivant à des intervalles exacts (toutes les 2,0 secondes) au lieu des intervalles aléatoires de la navigation humaine
- Accès séquentiel : Visiter les pages par ordre alphabétique ou numérique plutôt que de suivre des chemins de navigation naturels
- Aucun chargement de sous-ressources: Les vrais navigateurs chargent des images, CSS, JavaScript et polices — les racleurs qui ne récupèrent que HTML se démarquent
- En-têtes manquants de la référence: Les navigateurs envoient toujours un référent lorsqu'ils naviguent entre les pages; les racleurs ne font souvent pas
- Patterns anormaux de profondeur-première: Traîner profondément dans une catégorie avant de passer à la suivante, plutôt que de naviguer comme un humain
5. Empreintes digitales erronées
Systèmes antibots Corréler plusieurs signaux pour créer un profil de visiteur. Lorsque ces signaux se contredisent, le visiteur est signalé:
- Désaccord géographique: IP dit Allemagne, mais le fuseau horaire du navigateur est US Pacific et Accept-Language est
en-US - Empreinte TLS : La signature TLS Client Bonjour ne correspond pas au navigateur revendiqué (par exemple, Python demande la bibliothèque prétendant être Chrome)
- Exécution JavaScript : Test des scripts de détection de bot pour les API du navigateur que les navigateurs sans tête ne peuvent pas implémenter complètement
- Fuite du WebRTC: WebRTC peut exposer la véritable IP derrière un proxy si elle n'est pas correctement configurée
6. Trafic sous-réseau concentré
Si plusieurs IP du même sous-net /24 (p. ex., 185.23.100.0.1 à 185.23.100.254) ont tous touché le même site Web, le site peut bloquer l'ensemble du sous-net. Bonne Rotation IP les algorithmes assurent la diversité du sous-réseau entre les requêtes consécutives.
7. Anomalies des sessions et des cookies
Les sites Web fixent les cookies lors de la première visite et les attendent sur les demandes subséquentes. Des gratte-ciels qui ne maintiennent pas les cookies, qui présentent des cookies expirés ou qui affichent un état de session incohérent (logué sur une requête, anonyme sur la suivante) déclenchent des soupçons.
Types d'interdictions et de blocs
| Type de bloc | Comment ça a l'air | Gravité | Récupération |
|---|---|---|---|
| Défi CAPTCHA | Page CAPTCHA au lieu du contenu | Bloc mou | Rotation IP, ralentissement |
| HTTP 403 Interdit | Accès refusé | Bloc moyen | Rotation IP, changement d'empreinte digitale |
| HTTP 429 Trop de requêtes | Taux maximal dépassé | Bloc mou | Attendre et réessayer, réduire le taux |
| Réponse vide/corruption | Page vierge ou données sur les ordures | Bloc volant | Vérifier avec une IP différente |
| Rediriger pour bloquer la page | Envoyé à un avis "bloqué" | Bloc moyen | Rotation IP, contrôle des en-têtes |
| Liste noire IP | Chronologie ou réinitialisation de la connexion | Bloc dur | IP est brûlé, utiliser différent |
| Interdiction de sous-réseaux/réseaux | Toutes les IP dans la plage bloquée | Bloc dur | Passer à différents ASN |
Stratégies de prévention
Utiliser les proxies résidentielles pour les cibles protégées
Proxies résidentielles avoir des PI attribuées par les FSI aux ménages réels. Ils passent des contrôles de niveau ASN qui bloquent les IP de datacenter. Pour les sites Web qui bénéficient d'une forte protection anti-bots, les procurations résidentielles constituent l'exigence de base. Pour les cibles les plus agressives, les proxies mobiles offrent une confiance encore plus grande grâce au partage IP CGNAT.
Mettre en œuvre la limitation intelligente des tarifs
Ne touchez pas la cible aussi vite que votre connexion le permet. Plutôt:
- Rechercher les limites de taux de la cible (essayer d'augmenter la fréquence des demandes jusqu'à ce que vous voyiez 429 ou CAPTCHAs)
- Ajouter des retards aléatoires entre les demandes (par exemple, 1-5 secondes avec jitter)
- Distribuez les demandes dans le temps plutôt que de les envoyer en éclats
- Utiliser des limites de taux différentes pour différents paramètres (pages de recherche par rapport aux pages de produits)
import time
import random
import requests
PROXY = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
for url in urls:
resp = requests.get(
url,
proxies={"http": PROXY, "https": PROXY},
timeout=15,
)
# Random delay between 1.5 and 4.5 seconds
time.sleep(random.uniform(1.5, 4.5))
Rotation intelligente des IP
Rotation IP distribue votre trafic sur de nombreuses adresses. Mais la rotation doit être combinée avec d'autres stratégies:
- Rotation par demande de recherche de page indépendante
- Utiliser des sessions collantes pour les workflows en plusieurs étapes nécessitant une continuité de session
- Assurer la diversité du sous-réseau — n'envoyez pas de demandes consécutives de la même gamme /24
- Stratégie de rotation en fonction de la sensibilité de la cible — les sites plus agressifs ont besoin d'une rotation plus rapide
En-têtes réalistes
Chaque requête doit inclure des en-têtes qui correspondent à un vrai navigateur:
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
"Accept-Language": "en-US,en;q=0.9",
"Accept-Encoding": "gzip, deflate, br",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"Sec-Fetch-Dest": "document",
"Sec-Fetch-Mode": "navigate",
"Sec-Fetch-Site": "none",
"Sec-Fetch-User": "?1",
}
Rotation des chaînes Utilisateur-Agent sur un ensemble de navigateurs courants et populaires. Assurez-vous que l'utilisateur-Agent correspond à l'empreinte TLS — prétendant être Chrome tout en envoyant une signature Python TLS est un drapeau rouge instantané.
Aligner les signaux géographiques
Lorsque vous utilisez Proxies géo-cible, aligner toutes les métadonnées de demande avec l'emplacement du proxy :
- Jeu
Accept-Languagepour correspondre à la langue primaire du pays - Si vous utilisez l'automatisation du navigateur, définissez le fuseau horaire pour correspondre à la géographie du proxy
- Désactiver WebRTC pour prévenir les fuites réelles
Gérer correctement les cookies et les sessions
Maintenir les cookies sur toutes les demandes au cours d'une session. Utiliser un objet de session (comme requests.Session() dans Python) qui gère automatiquement la persistance des cookies. Lors de la rotation des IP, lancez également un nouveau pot à cookies — ne transportez pas de cookies d'une IP à une autre, car cela crée des incohérences.
Techniques de récupération
Détection précoce des interdictions
N'attendez pas l'échec de votre pipeline. Surveillance des signaux d'interdiction:
- Taux de réussite par domaine cible — une chute soudaine indique que les interdictions commencent
- Surveillez les pages de CAPTCHA (vérifier l'organisme de réponse pour les indicateurs CAPTCHA)
- Tailles des réponses — les réponses bloquées sont souvent beaucoup plus petites que les pages réelles
- Vérifier les temps de réponse — certains sites ralentissent intentionnellement les réponses aux boots suspects (tarpit)
Mise en œuvre de la logique de réessayer
import requests
from time import sleep
PROXY = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
def fetch_with_retry(url, max_retries=3):
for attempt in range(max_retries):
resp = requests.get(
url,
proxies={"http": PROXY, "https": PROXY},
timeout=15,
)
if resp.status_code == 200 and len(resp.text) > 1000:
return resp
# Exponential backoff before retry (new IP via rotation)
sleep(2 ** attempt)
return None
Stratégie d'escalade
Lorsque les blocs persistent, augmentez votre approche :
- Premièrement : Réduire le taux de demande et ajouter des retards randomisés
- Deuxième : Passer du datacenter à Proxies résidentielles
- Troisièmement : Ajouter l'automatisation du navigateur (Puppeteer/Playwright) pour exécuter JavaScript et passer les vérifications du navigateur
- Quatrièmement : Mettre en œuvre la gestion complète des empreintes digitales (TLS, toile, WebGL)
- Cinquième : Utiliser des proxies mobiles pour la classification IP la plus fiable
À emporter : Les interdictions de procuration sont causées par une combinaison de signaux, et pas seulement par l'adresse IP. La prévention des interdictions exige une approche holistique: rotation intelligente, des motifs de demande réalistes, des en-têtes appropriés et des empreintes digitales cohérentes. Lorsque des interdictions se produisent, les détecter tôt et intensifier votre stratégie progressivement.
Foire aux questions
Combien de temps les interdictions par procuration durent-elles habituellement?
Elle varie selon la cible. Certains sites bloquent les IP pendant des minutes ou des heures, d'autres pendant des jours ou en permanence. Les blocs-limites (429) expirent généralement en quelques minutes. Les listes noires IP peuvent persister pendant des mois. Avec les procurations tournantes, la durée d'interdiction est moins pertinente car vous obtenez automatiquement une nouvelle IP.
Les procurations tournantes peuvent-elles empêcher toutes les interdictions?
La rotation empêche Base de données IP interdiction de cascading, mais il n'aborde pas la détection basée sur les empreintes digitales ou le comportement. Vous avez besoin de rotation plus des modèles de demande réalistes, des en-têtes appropriés, et des empreintes du navigateur cohérents.
Quel type de proxy est le moins susceptible d'être interdit?
Les proxys mobiles ont le taux d'interdiction le plus bas car les IP mobiles sont partagés par de nombreux utilisateurs réels via CGNAT. Proxies résidentielles sont les suivantes, suivies de Proxies des FSI. Les datacenters ont le taux d'interdiction le plus élevé sur les sites protégés.
Comment savoir si mon IP mandataire est déjà sur la liste noire ?
Testez l'IP contre votre cible avant de commencer un gros travail. Envoyez une seule demande et vérifiez que vous obtenez une réponse normale. Vous pouvez également vérifier les IP par rapport aux services de liste noire publics, bien que ceux-ci ne couvrent pas toutes les listes noires privées que les sites Web maintiennent.
Dois-je utiliser le même proxy pour toutes mes cibles?
C'est pas vrai. Différentes cibles ont des sensibilités différentes. Utilisation proxies dédiés pour des tâches persistantes et de grande valeur et des procurations tournantes partagées pour la collecte de données en vrac. Faire correspondre le type de proxy et la stratégie au niveau de protection de chaque cible.






