Bonjour à tous,
Dans le cadre d’un projet à base de crawler web je cherche à connaitre les techno/framework utilisé par les développeurs pour leur crawler.
J’ai fait le tour des différents solutions du marché :
- PhantomJS + CasperJS - Node.JS
- Scrapy - Python
- CURL et Wget - ligne de commande
- CURL en PHP
- Nutch - PHP
Connaissez-vous d’autre framework Open Source permettant de faire du crawl ?
De mon côté j’utilise actuellement sur CasperJS/PhantomJS. J’en éprouve les limites.
Je me pose donc la question de passer à Scrapy pour plus de stabilités. Je cherche des retours
d’expérience afin de faire les bons choix.
J’ai un gros volumes de pages à analyser régulièrement avec un coût CPU/RAM que je souhaite maitriser.
Est-ce que certains parmi vous ont déjà développé un crawler/scrapper ?
Si oui, à partir de quel language et avec quel framework ?
A bientôt,
Pierre