Scraping Annonces Immobilières


#1

Bonjour, j’essaie de faire un script en python/selenium pour scraper un site d’annonces immobilières. La spider fonctionne correctement, mais le site bloque l’accès à l’API après 3 à 10 requêtes.

J’ai essayé :

  • IP tournants
  • proxy
  • user agent

Des idées ?


#2

Salut,

Tu as essayer de faire des pauses entre chaque requête? Genre 15 secondes voir plus si il te bloque encore


#3

Quel est le site en question ? Combien de temps entre chaque requête? J’y jetterai un oeil à l’occaz.


#4

Coucou,

Merci à tous pour vos conseil, effectivement en ajoutant des pauses, les sites scrapés stop le ban.
@francima, les sites sont :

Bonne journée,
Sasha


#5

Qu’est ce qui ne fonctionne pas avec des proxy ?
Il n’y pas 36 solutions pour qu’ils détectent que c’est un bot. Générallement le blocage est fait sur les critères suivant :

  • Requêtes / sec
  • Requêtes / ip
  • User agent inconnu
  • Javascript desactivé
  • Captcha

Pour contourner, tu peux effectivement utiliser des proxy, et les faire tourner, mettre un vrai user-agent, voir faire tourner les users-agents, et égallement copier l’intégralité des headers qu’envoit un vrai navigateur. Met égallement un temps random entre chaque requête (du genre entre 100 et 300 ms).

Si ça ne fonctionne toujours pas, il y a peut-être un contrôle plus poussé a base de javascript, que tu peux contourner avec Chrome en mode headless. Il y a des binding python avec selenium :) De cette manière, il n’y a aucune manière (a ma connaissance) de faire la différence entre ton bot et un “vrai” navigateur Chrome.


#6

Bonjour Kevin,

Merci beaucoup pour ta réponse, il y avait en effet un nombre limite de requêtes pas IP par minute, qui a été contourné avec du rotating IP.

Qu’est-ce que tu appelles “binding python” cependant ?

Bonne journée,
Sasha