normalmente se hace web scrapping cuando la web que nos interesa no ofrece API que nos permita extraer los datos en formato json o xml.
ejemplos donde es útil scrapear:
- analizar el BOE para proyectos open data
- extraer locales de un directorio como páginas amarillas
aquí tienes algunos ejemplos míos donde he usado web scrapping:
http://migueldev.com/codemotion/analytics.php
http://betabeers.com/uploads/estudios/crunchbase-startup-data/
http://betabeers.com/uploads/estudios/techcrunch-data/
hice un curso de introducción en betabeers ;)
http://betabeers.com/curso/screencast-web-scrapping-100/
no sé en que lenguaje programas pero en PHP te recomiendo que mires:
http://simplehtmldom.sourceforge.net/
http://php.net/manual/es/simplexmlelement.xpath.php
Una técnica de web scrapping que da buen resultado y no requiere una fuerte curva de aprendizaje es emplear Expresiones Regulares (regex). Están disponibles en muchos lenguajes de programación y son como la navaja suiza del Text Content Retrieval.
24/10/2013 11:26
normalmente se hace web scrapping cuando la web que nos interesa no ofrece API que nos permita extraer los datos en formato json o xml.
ejemplos donde es útil scrapear:
- analizar el BOE para proyectos open data
- extraer locales de un directorio como páginas amarillas
aquí tienes algunos ejemplos míos donde he usado web scrapping:
http://migueldev.com/codemotion/analytics.php
http://betabeers.com/uploads/estudios/crunchbase-startup-data/
http://betabeers.com/uploads/estudios/techcrunch-data/
hice un curso de introducción en betabeers ;)
http://betabeers.com/curso/screencast-web-scrapping-100/
no sé en que lenguaje programas pero en PHP te recomiendo que mires:
http://simplehtmldom.sourceforge.net/
http://php.net/manual/es/simplexmlelement.xpath.php
espero que te sirva la información
24/10/2013 11:30
25/10/2013 03:41