Combien de requêtes proxy concurrentes puis-je exécuter ?

Cela dépend du langage et des ressources. Python avec asyncio : 50-200 concurrentes. Node.js : 50-500 concurrentes. Go avec goroutines : 100-1000+ concurrentes. Le facteur limitant est souvent le débit du proxy ou la tolérance du site cible, pas les capacités du langage.

Qu'est-ce que le backpressure dans le contexte du scraping ?

Le backpressure est un mécanisme qui ralentit la production de nouvelles requêtes quand le système en aval (proxy, réseau, site cible) ne peut pas suivre. Sans backpressure, vous risquez la saturation mémoire, les timeouts massifs et le blocage. Implémentez avec des files d'attente bornées et des sémaphores.

Dois-je utiliser des threads ou de l'async pour le scraping Python ?

L'async (asyncio + aiohttp) est le meilleur choix pour le scraping Python. Il gère des centaines de connexions concurrentes avec une seule thread, utilisant moins de mémoire que le threading. Les threads Python sont limités par le GIL pour le CPU, mais l'I/O réseau bénéficie de l'async.

Comment éviter de submerger le site cible ?

Implémentez un limiteur de débit par domaine (pas global). Utilisez des sémaphores pour limiter la concurrence par cible. Ajoutez des délais aléatoires entre les requêtes. Surveillez les codes de réponse — si vous voyez des 429 ou 503, ralentissez automatiquement.

Quel est le meilleur pattern de concurrence pour Go ?

Le pattern worker pool est le plus efficace en Go. Créez un canal de tâches et N goroutines workers qui consomment depuis ce canal. Utilisez un sémaphore (canal avec buffer) pour limiter la concurrence. Le pattern est simple, efficace et s'intègre naturellement avec les goroutines de Go.

Mise à l'échelle des requêtes proxy avec concurrence

Pourquoi le contrôle des devises est important pour le scrapage par procuration

Envoi des requêtes séquentiellement à travers un mandataire gaspille la bande passante et le temps. Les envoyer tous à la fois envahit la passerelle proxy, le serveur cible et votre propre système. Le contrôle de la devises permet de réaliser l'équilibre : maximiser le débit tout en restant dans les limites de votre bassin de procurations, de la tolérance au site cible et des ressources disponibles.

Ce guide couvre les modèles de concordance de qualité de production en trois langues : Python (asyncio), Node.js (pools Promise) et Go (goroutines avec sémaphores). Chaque exemple utilise Proxies résidentielles tournantes de ProxyHat et est prêt à copier dans vos projets.

L'objectif du contrôle de la proximité est simple : maximiser les requêtes par seconde sans déclencher de blocs, de mémoire épuisante ou d'écrasement de votre processus. Le bon modèle dépend de votre langue, site cible et échelle.

Comparativement aux modèles de devises

Comparativement aux modèles de devises
Modèle	Langue	Meilleur pour	Monnaie maximale
Asyncio. Sémaphore	Python	Dégraissage lié aux E/S	50 à 200 par procédé
Groupe de travailleurs (asyncio)	Python	Tâches en attente avec contrepression	10-100 travailleurs
Promise.tous + lot	Node.js	Recherche parallèle simple	50-500 par procédé
P-limit / P-queue	Node.js	Cohérence à grains fins	10-200 par file d'attente
Goroutines + Sémaphore	Allez	Dégraissage à haut débit	100-1000+
Groupe de travailleurs (canaux Go)	Allez	Répartition structurée des tâches	10-500 travailleurs

Python: asyncio Semaphore

Le modèle de concordance le plus simple et le plus efficace de Python. Un sémaphore limite le nombre de coroutines qui peuvent être exécutées simultanément, empêchant ainsi l'épuisement des ressources.

import asyncio
import aiohttp
import uuid
import time
PROXY_GATEWAY = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
MAX_CONCURRENCY = 50
TIMEOUT = aiohttp.ClientTimeout(total=30)
async def fetch(session: aiohttp.ClientSession, url: str, semaphore: asyncio.Semaphore) -> dict:
    async with semaphore:
        session_id = uuid.uuid4().hex[:8]
        proxy = f"http://USERNAME-session-{session_id}:PASSWORD@gate.proxyhat.com:8080"
        start = time.time()
        try:
            async with session.get(url, proxy=proxy, timeout=TIMEOUT) as response:
                body = await response.text()
                return {
                    "url": url,
                    "status": response.status,
                    "length": len(body),
                    "latency": round(time.time() - start, 3),
                }
        except Exception as e:
            return {"url": url, "error": str(e), "latency": round(time.time() - start, 3)}
async def scrape_all(urls: list[str]) -> list[dict]:
    semaphore = asyncio.Semaphore(MAX_CONCURRENCY)
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url, semaphore) for url in urls]
        results = await asyncio.gather(*tasks)
    return results
# Usage
urls = [f"https://example.com/product/{i}" for i in range(1000)]
results = asyncio.run(scrape_all(urls))
success = sum(1 for r in results if "error" not in r)
print(f"Completed: {success}/{len(results)} successful")
print(f"Avg latency: {sum(r['latency'] for r in results) / len(results):.3f}s")

Python: Pool de travailleurs avec contrepression

Lorsque vous avez besoin d'un plus grand contrôle — limitation de la vitesse, contrepression ou planification prioritaire — utilisez un bassin de travailleurs avec un asyncio. Une enquête.

import asyncio
import aiohttp
import uuid
class WorkerPool:
    """Fixed-size worker pool with backpressure via bounded queue."""
    def __init__(self, num_workers: int = 20, queue_size: int = 100):
        self.num_workers = num_workers
        self.queue: asyncio.Queue = asyncio.Queue(maxsize=queue_size)
        self.results: list = []
        self.stats = {"success": 0, "failed": 0, "total_latency": 0.0}
        self._stop = False
    async def worker(self, session: aiohttp.ClientSession, worker_id: int):
        while not self._stop:
            try:
                url = await asyncio.wait_for(self.queue.get(), timeout=5.0)
            except asyncio.TimeoutError:
                if self._stop:
                    break
                continue
            session_id = uuid.uuid4().hex[:8]
            proxy = f"http://USERNAME-session-{session_id}:PASSWORD@gate.proxyhat.com:8080"
            import time
            start = time.time()
            try:
                async with session.get(
                    url, proxy=proxy,
                    timeout=aiohttp.ClientTimeout(total=30)
                ) as response:
                    body = await response.text()
                    latency = time.time() - start
                    self.stats["success"] += 1
                    self.stats["total_latency"] += latency
                    self.results.append({
                        "url": url, "status": response.status,
                        "length": len(body), "worker": worker_id,
                    })
            except Exception as e:
                self.stats["failed"] += 1
                self.results.append({"url": url, "error": str(e), "worker": worker_id})
            finally:
                self.queue.task_done()
    async def run(self, urls: list[str]) -> list[dict]:
        async with aiohttp.ClientSession() as session:
            # Start workers
            workers = [
                asyncio.create_task(self.worker(session, i))
                for i in range(self.num_workers)
            ]
            # Feed URLs into the queue (backpressure: blocks when queue is full)
            for url in urls:
                await self.queue.put(url)
            # Wait for all tasks to complete
            await self.queue.join()
            self._stop = True
            # Cancel workers
            for w in workers:
                w.cancel()
        return self.results
# Usage
pool = WorkerPool(num_workers=30, queue_size=50)
urls = [f"https://example.com/item/{i}" for i in range(500)]
results = asyncio.run(pool.run(urls))
print(f"Success: {pool.stats['success']}, Failed: {pool.stats['failed']}")
avg_lat = pool.stats["total_latency"] / max(pool.stats["success"], 1)
print(f"Avg latency: {avg_lat:.3f}s")

Python : Limiteur de vitesse

Certaines cibles imposent des limites de taux strictes. Ce limiteur de taux de jeton-bucket s'intègre aux modèles de concordance ci-dessus.

import asyncio
import time
class RateLimiter:
    """Token-bucket rate limiter for async operations."""
    def __init__(self, rate: float, burst: int = 1):
        """
        Args:
            rate: Requests per second
            burst: Maximum burst size
        """
        self.rate = rate
        self.burst = burst
        self.tokens = burst
        self.last_refill = time.monotonic()
        self._lock = asyncio.Lock()
    async def acquire(self):
        async with self._lock:
            now = time.monotonic()
            elapsed = now - self.last_refill
            self.tokens = min(self.burst, self.tokens + elapsed * self.rate)
            self.last_refill = now
            if self.tokens < 1:
                wait_time = (1 - self.tokens) / self.rate
                await asyncio.sleep(wait_time)
                self.tokens = 0
            else:
                self.tokens -= 1
# Combined with semaphore
async def fetch_rate_limited(session, url, semaphore, limiter):
    async with semaphore:
        await limiter.acquire()
        session_id = uuid.uuid4().hex[:8]
        proxy = f"http://USERNAME-session-{session_id}:PASSWORD@gate.proxyhat.com:8080"
        async with session.get(url, proxy=proxy, timeout=TIMEOUT) as resp:
            return await resp.text()
# 10 requests/second, max 30 concurrent
async def main():
    semaphore = asyncio.Semaphore(30)
    limiter = RateLimiter(rate=10.0, burst=5)
    urls = [f"https://example.com/page/{i}" for i in range(200)]
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_rate_limited(session, u, semaphore, limiter) for u in urls]
        results = await asyncio.gather(*tasks, return_exceptions=True)
    success = sum(1 for r in results if not isinstance(r, Exception))
    print(f"Done: {success}/{len(results)}")
asyncio.run(main())

Node.js: Promesse d'écrasement

Le modèle le plus simple Node.js concurrency traite les URLs dans des lots de taille fixe.

const { HttpsProxyAgent } = require('https-proxy-agent');
const crypto = require('crypto');
const BATCH_SIZE = 20;
function createAgent() {
  const sessionId = crypto.randomBytes(4).toString('hex');
  return new HttpsProxyAgent(
    `http://USERNAME-session-${sessionId}:PASSWORD@gate.proxyhat.com:8080`
  );
}
async function fetchUrl(url) {
  const agent = createAgent();
  const start = Date.now();
  try {
    const response = await fetch(url, {
      agent,
      signal: AbortSignal.timeout(30000),
    });
    const text = await response.text();
    return {
      url,
      status: response.status,
      length: text.length,
      latency: Date.now() - start,
    };
  } catch (err) {
    return { url, error: err.message, latency: Date.now() - start };
  }
}
async function scrapeInBatches(urls) {
  const results = [];
  for (let i = 0; i < urls.length; i += BATCH_SIZE) {
    const batch = urls.slice(i, i + BATCH_SIZE);
    const batchResults = await Promise.all(batch.map(fetchUrl));
    results.push(...batchResults);
    const success = batchResults.filter(r => !r.error).length;
    console.log(`Batch ${Math.floor(i / BATCH_SIZE) + 1}: ${success}/${batch.length} OK`);
  }
  return results;
}
// Usage
const urls = Array.from({ length: 200 }, (_, i) =>
  `https://example.com/product/${i + 1}`
);
scrapeInBatches(urls).then(results => {
  const success = results.filter(r => !r.error).length;
  console.log(`Total: ${success}/${results.length} successful`);
});

Node.js: limite de p pour le contrôle fin

Pour des limites de concordance précises sans lotage manuel, utilisez le p-limit bibliothèque.

// npm install p-limit
const pLimit = require('p-limit');
const { HttpsProxyAgent } = require('https-proxy-agent');
const crypto = require('crypto');
const limit = pLimit(30); // Max 30 concurrent requests
function createAgent() {
  const sessionId = crypto.randomBytes(4).toString('hex');
  return new HttpsProxyAgent(
    `http://USERNAME-session-${sessionId}:PASSWORD@gate.proxyhat.com:8080`
  );
}
async function fetchWithLimit(url) {
  return limit(async () => {
    const agent = createAgent();
    const response = await fetch(url, {
      agent,
      signal: AbortSignal.timeout(30000),
    });
    return {
      url,
      status: response.status,
      body: await response.text(),
    };
  });
}
// All 500 URLs start immediately, but only 30 run concurrently
const urls = Array.from({ length: 500 }, (_, i) =>
  `https://example.com/item/${i + 1}`
);
Promise.all(urls.map(fetchWithLimit)).then(results => {
  const success = results.filter(r => r.status === 200).length;
  console.log(`Success: ${success}/${results.length}`);
});

Node.js: Requête du travailleur avec contrepression

// npm install p-queue
const PQueue = require('p-queue').default;
const { HttpsProxyAgent } = require('https-proxy-agent');
const crypto = require('crypto');
const queue = new PQueue({
  concurrency: 25,
  intervalCap: 10,   // Max 10 requests...
  interval: 1000,    // ...per second (rate limiting)
});
queue.on('active', () => {
  console.log(`Active: ${queue.pending} pending, ${queue.size} queued`);
});
function createAgent() {
  const sessionId = crypto.randomBytes(4).toString('hex');
  return new HttpsProxyAgent(
    `http://USERNAME-session-${sessionId}:PASSWORD@gate.proxyhat.com:8080`
  );
}
async function processUrl(url) {
  const agent = createAgent();
  const response = await fetch(url, { agent, signal: AbortSignal.timeout(30000) });
  return { url, status: response.status, body: await response.text() };
}
// Add URLs to the queue
const urls = Array.from({ length: 1000 }, (_, i) =>
  `https://example.com/page/${i + 1}`
);
const results = await Promise.all(
  urls.map(url => queue.add(() => processUrl(url)))
);
console.log(`Completed: ${results.filter(r => r.status === 200).length}/${results.length}`);

Go: Goroutines avec Sémaphore

Go's goroutines sont légers, mais vous devez encore limiter la concurrence pour éviter les connexions proxy écrasantes. Un sémaphore basé sur canal est l'approche idiomatique.

package main
import (
	"crypto/rand"
	"encoding/hex"
	"fmt"
	"io"
	"net/http"
	"net/url"
	"sync"
	"time"
)
const maxConcurrency = 50
type Result struct {
	URL     string
	Status  int
	Length  int
	Latency time.Duration
	Error   error
}
func newProxyClient() *http.Client {
	b := make([]byte, 4)
	rand.Read(b)
	sessionID := hex.EncodeToString(b)
	proxyStr := fmt.Sprintf("http://USERNAME-session-%s:PASSWORD@gate.proxyhat.com:8080", sessionID)
	proxyURL, _ := url.Parse(proxyStr)
	return &http.Client{
		Transport: &http.Transport{Proxy: http.ProxyURL(proxyURL)},
		Timeout:   30 * time.Second,
	}
}
func fetchURL(target string, sem chan struct{}, wg *sync.WaitGroup, results chan<- Result) {
	defer wg.Done()
	sem <- struct{}{}        // Acquire semaphore
	defer func() { <-sem }() // Release semaphore
	client := newProxyClient()
	start := time.Now()
	resp, err := client.Get(target)
	if err != nil {
		results <- Result{URL: target, Error: err, Latency: time.Since(start)}
		return
	}
	defer resp.Body.Close()
	body, _ := io.ReadAll(resp.Body)
	results <- Result{
		URL:     target,
		Status:  resp.StatusCode,
		Length:  len(body),
		Latency: time.Since(start),
	}
}
func main() {
	urls := make([]string, 500)
	for i := range urls {
		urls[i] = fmt.Sprintf("https://example.com/item/%d", i+1)
	}
	sem := make(chan struct{}, maxConcurrency)
	results := make(chan Result, len(urls))
	var wg sync.WaitGroup
	start := time.Now()
	for _, u := range urls {
		wg.Add(1)
		go fetchURL(u, sem, &wg, results)
	}
	// Close results channel when all goroutines finish
	go func() {
		wg.Wait()
		close(results)
	}()
	var success, failed int
	var totalLatency time.Duration
	for r := range results {
		if r.Error != nil {
			failed++
		} else {
			success++
			totalLatency += r.Latency
		}
	}
	elapsed := time.Since(start)
	fmt.Printf("Completed in %s\n", elapsed)
	fmt.Printf("Success: %d, Failed: %d\n", success, failed)
	fmt.Printf("Avg latency: %s\n", totalLatency/time.Duration(max(success, 1)))
	fmt.Printf("Throughput: %.1f req/s\n", float64(success+failed)/elapsed.Seconds())
}

Aller: Piscine de travailleurs avec canaux

Pour un traitement plus structuré, utilisez un bassin fixe de travailleurs consommant depuis un canal.

package main
import (
	"crypto/rand"
	"encoding/hex"
	"fmt"
	"io"
	"net/http"
	"net/url"
	"sync"
	"time"
)
type Job struct {
	URL string
}
type JobResult struct {
	URL     string
	Status  int
	Body    string
	Latency time.Duration
	Err     error
}
func worker(id int, jobs <-chan Job, results chan<- JobResult, wg *sync.WaitGroup) {
	defer wg.Done()
	for job := range jobs {
		b := make([]byte, 4)
		rand.Read(b)
		sessionID := hex.EncodeToString(b)
		proxyStr := fmt.Sprintf("http://USERNAME-session-%s:PASSWORD@gate.proxyhat.com:8080", sessionID)
		proxyURL, _ := url.Parse(proxyStr)
		client := &http.Client{
			Transport: &http.Transport{Proxy: http.ProxyURL(proxyURL)},
			Timeout:   30 * time.Second,
		}
		start := time.Now()
		resp, err := client.Get(job.URL)
		latency := time.Since(start)
		if err != nil {
			results <- JobResult{URL: job.URL, Err: err, Latency: latency}
			continue
		}
		body, _ := io.ReadAll(resp.Body)
		resp.Body.Close()
		results <- JobResult{
			URL:     job.URL,
			Status:  resp.StatusCode,
			Body:    string(body),
			Latency: latency,
		}
	}
}
func main() {
	numWorkers := 30
	urls := make([]string, 300)
	for i := range urls {
		urls[i] = fmt.Sprintf("https://example.com/page/%d", i+1)
	}
	jobs := make(chan Job, len(urls))
	results := make(chan JobResult, len(urls))
	var wg sync.WaitGroup
	// Start workers
	for i := 0; i < numWorkers; i++ {
		wg.Add(1)
		go worker(i, jobs, results, &wg)
	}
	// Send jobs
	for _, u := range urls {
		jobs <- Job{URL: u}
	}
	close(jobs)
	// Collect results
	go func() {
		wg.Wait()
		close(results)
	}()
	var success, failed int
	for r := range results {
		if r.Err != nil {
			failed++
		} else {
			success++
		}
	}
	fmt.Printf("Success: %d, Failed: %d\n", success, failed)
}

Choisir le bon niveau de devises

La concordance optimale dépend de plusieurs facteurs. Voici un guide pratique de départ :

Choisir le bon niveau de devises
Type de cible	Concurrence recommandée	Motifs
API légères (JSON)	50-200	Réponses rapides, faible mémoire par demande
Pages Web standard	20-50	Tailles modérées de la réponse, certaines limites de taux
Pages lourdes rendues par JS	5-15	Les contextes du navigateur utilisent une mémoire importante
Sites anti-bots agressifs	5-10	Nécessité d'un calendrier réaliste entre les demandes
Téléchargements de fichiers importants	5-20	Bande passante, non liée au processeur

Commencez par 10 demandes simultanées et augmentez graduellement tout en surveillant les taux de réussite. Si votre taux de réussite est inférieur à 90 %, réduisez la concordance ou ajoutez des retards entre les demandes. Pour en savoir plus sur le suivi de ces paramètres, consultez notre Surveillance de la performance proxy guide.

Pour une abstraction proxy réutilisable avec une concordance intégrée, voir Bâtir un calque mandataire. Pour une architecture de grattage de bout en bout, lire Concevoir une architecture de scraping fiable. Explorer les Python SDK, Numéro SDKet Allez au SDK pour l'intégration proxy prête à la production, ou vérifier Prix ProxyHat pour commencer.

Mise à l'échelle des requêtes proxy avec contrôle de concurrence

Pourquoi le contrôle des devises est important pour le scrapage par procuration

Comparativement aux modèles de devises

Python: asyncio Semaphore

Python: Pool de travailleurs avec contrepression

Python : Limiteur de vitesse

Node.js: Promesse d'écrasement

Node.js: limite de p pour le contrôle fin

Node.js: Requête du travailleur avec contrepression

Go: Goroutines avec Sémaphore

Aller: Piscine de travailleurs avec canaux

Choisir le bon niveau de devises

Foire aux questions

Prêt à commencer ?

Pourquoi le contrôle des devises est important pour le scrapage par procuration

Comparativement aux modèles de devises

Python: asyncio Semaphore

Python: Pool de travailleurs avec contrepression

Python : Limiteur de vitesse

Node.js: Promesse d'écrasement

Node.js: limite de p pour le contrôle fin

Node.js: Requête du travailleur avec contrepression

Go: Goroutines avec Sémaphore

Aller: Piscine de travailleurs avec canaux

Choisir le bon niveau de devises

Foire aux questions

Prêt à commencer ?

Cela pourrait aussi vous intéresser

Concevoir une architecture de scraping fiable

Surveiller la performance des proxies : latence, taux de succès et alertes

Comment mettre à l'échelle l'infrastructure de scraping

Construire un middleware de proxy pour le scraping