Crawl des résultats de Google / Google Shopping


#1

Salut,

Je souhaiterais récupérer des informations sur la page de résultat de Google, notamment sur l’encadré Google Shopping, savez-vous si c’est possible ? simple ? ou s’il y a des alternatives ?

Je sais que Google propose une API pour le search, mais je ne sais pas si c’est aussi pertinent et si les data de Google Shopping sont présentes.

Des retours ou conseils ?


#2

De ce que je me souviens, j’avais parsé google il y a quelques années pour récupérer des infos via PHP et http://simplehtmldom.sourceforge.net/.

Si tu fais trop de requête, google te ban’

Bref je sais pas comment google réagis maintenant …


#3

Je le fais en Python, j’utilise le module Request pour interroger les pages de recherches et le module Beautiful Soup pour parser le HTML. Il suffit de trouver la div qui contient les informations de Google Shopping.
Mais attention comme le dis @GesJeremie google te bloquera si jamais tu fais trop d’interrogation, il faut donc espacer tes requetes sur le moteur et changer ton referrer ;)


#4

Merci pour vos réponse.

Tu pourrais développer ? Je ne trouve pas grand chose sur la toile à ce sujet.
Tu penses à combien de ms entre chaque requête ?
Tu connais des solutions simple pour changer de referrer ?


#5

Excuse moi je me suis trompé ce n’est pas un referrer mais le user_agent qui faut changer.

Sur mon script je fait un random sur 10 user_agent pour chaque requete puis un random entre 50 et 80 sec entre deux requêtes et je ne chope jamais le captcha.
Par contre il faut être patient…


#6

Outch, tu l’as dit !
Merci.


#7

C’est ce que j’avais fait en php, suffi probablement d’un VPN qui change l’ip toutes les x secondes (déterminer le nombre de requêtes avant d’être bloqué) afin d’éviter de cumuler trop de requêtes sur une même ip au court d’un laps de temps.


#8

En effet avec un VPN ce peut être une solution plus rapide mais plus coûteuse.


#9

L’utilisation du VPN Hide my ass peut résoudre ton problème.


#10

Effectivement mon ami manaoazy, à voir le test du VPN Hide my ass je dirais que c’est une solution efficace et surtout pas chère pour une naviguation 100% sécurisée.