Pourquoi BBC News Crawl a-t-il besoin d'un agent ISP britannique ?
Les personnes qui collectent des données de réseau savent que le site web officiel de la BBC dispose d'un mécanisme d'identification strict pour le trafic anormal. Lorsque l'on y accède avec l'IP d'un centre de données ordinaire, on se heurte souvent au blocage CAPTCHA ou même au blocage direct. En revanche, l'IP locale à large bande du Royaume-Uni (proxy ISP) peut simuler le comportement d'utilisateurs réels.L'essentiel est que ces adresses IP soient accompagnées d'informations d'authentification du fournisseur d'accès à Internet.qui est plus difficile à reconnaître comme un crawler que comme un agent résidentiel normal.
Méthodes pour tester manuellement l'efficacité d'un proxy
Tout d'abord, ouvrez le navigateur sans mode trace, visitez directement le fichier robots.txt de la BBC (attention à contrôler la fréquence d'accès). Si vous voyez le contenu complet, cela signifie que l'IP n'est pas bloquée. Ensuite, essayez de rafraîchir la page d'actualités 10 fois de suite :
impunité | prescription |
---|---|
L'image captcha apparaît | Vérifier si l'en-tête de la requête contient l'empreinte digitale complète du navigateur |
Afficher l'accès restreint | Changer immédiatement d'IP et réduire la fréquence d'acquisition |
Charger le contenu normalement | Conserver la période d'enquête actuelle pour poursuivre l'acquisition |
Conseils pratiques pour la configuration de proxies avec ipipgo
Après avoir obtenu le proxy du FAI britannique dans le backend ipipgo, il est recommandé de définir trois paramètres clés dans le code :
1. modifier de manière aléatoire l'agent utilisateur pour chaque demande, de préférence en utilisant une version commune du navigateur britannique.
2. définir des intervalles de retard aléatoires de 5 à 8 secondes pour éviter les visites régulières
3. activer le masquage de l'empreinte digitale TLS, ce qui est particulièrement important car la BBC détecte les caractéristiques de la poignée de main SSL.
Voici une astuce : ajoutez l'adresse du proxy obtenue via ipipgo à la requête avec l'optionX-Forwarded-Fordes en-têtes de requête qui simulent mieux les caractéristiques du réseau des utilisateurs réels de la large bande.
Notes sur le processus de collecte
D'après notre expérience de test réel, la stratégie anti-crawl de BBC mettra à jour la base de règles à 2 heures du matin (heure GMT) tous les jours. Il est recommandé d'arrêter la capture pendant une heure à ce moment-là et d'utiliser la fonction de capture d'ipipgo.Fonction de rotation de l'IPRemplacement de proxy en masse. Veillez tout particulièrement à éviter les heures de travail locales au Royaume-Uni (9h-18h), ce qui réduit le seuil de fréquence d'accès d'environ 30%.
Questions fréquemment posées
Q : Pourquoi l'adresse IP que je viens de changer est-elle à nouveau bloquée ?
R : Vérifiez si des cookies et d'autres identifiants sont conservés, et il est recommandé d'effacer les données de session chaque fois que vous changez d'adresse IP. L'utilisation du mode d'anonymisation profonde d'ipipgo prend en charge ces détails automatiquement.
Q : Que dois-je faire si le contenu capturé est brouillé ?
Une page A:BBC renverra un encodage différent en fonction de la localisation géographique de l'IP du visiteur, et ce problème peut être résolu en forçant Accept-Language à être en-GB dans l'en-tête de la requête.
Q : Dois-je gérer le contenu rendu par JavaScript ?
R : La partie BBC du résumé des nouvelles utilisant le chargement dynamique, il est recommandé d'utiliser le navigateur sans tête. ipipgo prend en charge le protocole proxy Websocket, qui peut être parfaitement adapté à Puppeteer et à d'autres outils.
Éléments clés d'une opération durable
La collecte stable et à long terme des données de la BBC doit répondre à deux questions fondamentales : la pureté de l'IP et l'intégrité du protocole. C'est là que le proxy ISP britannique d'ipipgo a un avantage : toutes les IP proviennent d'utilisateurs locaux de large bande au Royaume-Uni et sont accompagnées d'une authentification de l'opérateur ISP, ainsi que d'une émulation complète de la pile TCP, ce qui permet de contourner efficacement l'inspection approfondie des paquets (Deep Packet Inspection, DPI).
Remarque spéciale : BBC a mis en œuvre des stratégies de contrôle des vents différentes pour les pages détaillées des articles et les interfaces de commentaires. Il est recommandé d'attribuer ces deux types de demandes à des groupes d'adresses IP différents par l'intermédiaire de l'optionFonction de regroupement d'entreprisesLa collecte peut être effectuée avec différentes fréquences d'accès et différents types de mandataires, ce qui peut améliorer considérablement le taux de réussite de la collecte.