Encuentros
>
>

Node.js Madrid - Scraping At Scale

Thursday 14 December 2017, 19:00 - 20:00

Glorieta de Quevedo 6, 1º centro, Madrid, España

En diciembre nos veremos en las oficinas de Geoblink, que además nos invitarán a refrescos y pizzas terminada la charla. Nota: hay sólo unas 30 sillas y el resto tendrá que quedarse de pie, así que ¡procurad llegar pronto! Scraping At Scale Scrapear es una tarea sencilla, pero que se puede volver tediosa si hay que recoger información de muchas webs diferentes. Además, si la información obtenida tiene que mantenerse actualizada, hay que repetir el proceso periódicamente, con la complejidad de que la estructura puede que haya cambiado y que haya que actualizar los scripts. Una librería estándar que se suele utilizar es Scrapy para Python, pero tiene dos problemas, por un lado hay que repetir mucho código y por otro no es capaz de ejecutar Javascript de cliente, lo cual puede ser necesario cuando la web es dinámica. Es por eso que en Geoblink usamos habitualmente la extensión de Chrome Webscraper. La ventaja es que en un par de clics es posible construir una araña y al ejecutarse en el navegador puede ejecutar el código cliente si lo hubiera. El principal problema con esta extensión es que automatizar estos procesos es complicado, porque corren en el navegador. Motivados por el lanzamiento de Chrome Headless hemos adaptado la extensión para correr tanto en el navegador como en Node.js https://www.npmjs.com/package/web-scraper-headless En la charla explicaremos cómo es la arquitectura de las extensiones de Chrome en general, cómo hemos automatizado los procesos de scrapeo usando Webscraper y los problemas que hemos tenido para adaptar el código de una extensión para funcionar en Node.js. Si te gusta el código isomórfico ésta es tu charla. Gabriel Fürstenheim Matemático y desarrollador Senior en Geoblink. Es raro verle separado de su bicicleta.

Más información

Publicado por: Betabeers