Méthode de capture de l'IP du serveur proxy
Lorsque vous effectuez des recherches sur le web, des collectes de données ou d'autres applications de technologie web, vous avez souvent besoin d'utiliser l'adresse IP d'un serveur proxy pour cacher votre véritable adresse IP ou pour obtenir les données du site web cible dans différents lieux géographiques. L'extraction de l'adresse IP d'un serveur mandataire à partir du code source d'un site web est un besoin relativement courant. Nous allons maintenant présenter quelques méthodes courantes pour atteindre cet objectif.
Tout d'abord, nous pouvons utiliser la bibliothèque de requêtes de Python pour obtenir le code source d'une page web, puis utiliser une expression régulière pour faire correspondre l'adresse IP qui s'y trouve. Voici un exemple de code simple :
"`ipipgothon
importer re
demandes d'importation
url = 'https://www.example.com'
response = requests.get(url)
html = response.text
pattern = re.compile(r'd+.d+.d+.d+:d+')
proxy_list = pattern.findall(html)
pour proxy dans proxy_list :
print(proxy)
“`
Le code ci-dessus utilise d'abord la bibliothèque de requêtes pour obtenir le code source d'un exemple de site web, puis il utilise des expressions régulières pour faire correspondre les adresses IP et les ports, et il imprime les résultats. Bien entendu, dans la pratique, vous pouvez utiliser des expressions régulières plus complexes pour faire correspondre d'autres formats d'adresses IP.
Extraire l'IP du proxy à partir du code source du site web
Outre l'utilisation d'expressions régulières, l'extraction de l'IP du proxy peut également être réalisée à l'aide de certaines bibliothèques tierces. Par exemple, Beautiful Soup est une bibliothèque Python qui peut nous aider à manipuler plus facilement le code source des pages web. Voici un exemple simple d'extraction de l'adresse IP d'un proxy à l'aide de Beautiful Soup :
"`ipipgothon
from bs4 import BeautifulSoup
demandes d'importation
url = 'https://www.example.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
proxy_list = []
for tag in soup.find_all('div', class_='proxy'): :
proxy = tag.get_text()
proxy_list.append(proxy)
pour proxy dans proxy_list :
print(proxy)
“`
Dans le code ci-dessus, nous avons d'abord utilisé Beautiful Soup pour analyser le code source de la page web, puis nous avons extrait des informations sur l'IP du proxy à l'aide d'un sélecteur. Cela permet une plus grande flexibilité dans la localisation du contenu souhaité et évite les expressions régulières complexes.
Dans l'ensemble, il existe plusieurs façons d'extraire les adresses IP proxy du code source d'un site web, et vous pouvez choisir l'implémentation appropriée en fonction de vos besoins spécifiques et de la structure de votre page web. Que vous utilisiez des expressions régulières ou des bibliothèques tierces, elles peuvent nous aider à obtenir rapidement et efficacement l'adresse IP proxy dont nous avons besoin.