Quelques questions pour ceux qui scrapent

Bonjour,

Je m’apprête a lancer une nouvelle API de scrapping qui s’occupe des proxy / chrome headless / JS rendering / captcha pour vous.

En clair vous envoyer un URL a l’API et elle vous renvoit du html, vous n’avez plus qu’a extraire la donnée ensuite.

Dans ce contexte que j’avais quelques questions avous poser concernant le scraping et votre usage?

  1. Quel est votre plus gros problème en scrappant:
    a. Gestion des proxys (vous vous faites bloquer)
    b. Gestion de Chome headless
    c. JS rendering

  2. Combien de requête par mois de scraping faite vous ?

  3. Combien depensez vous par mois en outils de scrapping?
    a. 0€ / mois
    b. 1€ - 50€ / mois
    c. 50€ - 150€ / mois
    d. 150€+ par mois

Merci d’avances pour vos réponses. N’hésitez a m’envoyer un MP si vous voulez avoir accès à la bêta.

Mon plus gros souci c’est que ce soit autorisé et tout simplement légal.

C’est presque toujours interdit par les CGU des sites que je veux scraper, ou pas mentionné.
On parle alors de délit d’intrusion dans un système informatique, et ce même si la donnée est “publique” : on considère qu’en écrivant ton scrappeur, tu sais que le site scrapé ne désire pas t’aider à utiliser ses données, ou en contournant le proxy/les limites que tu sais pertinamment que tu contournes les sécurités pour abuser d’un passage légitime.

Partant de là, mon plus gros souci est de réussir à contacter les boîtes dont je veux la donnée, pour qu’ils me la fournissent de manière agréable et à jour. Il faut alors monter un vrai dossier de partenariat et un dossier technique avant de faire quoi que ce soit.

Et si jamais on parle de données personnelles, c’est pire encore.

Il faut recueillir le consentement explicite des personnes, et que la boîte d’en face m’identifie comme un partenaire commercial, fasse une étude de cas et inscrive ça dans ses process… sinon on tombe dans la pire des deux cases du RGPD/GDPR : pas celui où on a un manquement technique (2% du CA mondial annuel ou je ne sais quel montant) mais celui où on a carrément pas envisagé la vie privée (4% ou… ???).

Après, la partie technique est plutôt facile :)