Hace unos días scrapee crunchbase para sacar una vista general de lo que ha pasado entre 2000-2012, puede que no sea exacto del todo ya que hay una parte de la información con fechas incompletas.
Para quién no conozca crunchbase es el directorio de startups de techcrunch, los datos que se recogen en la infografía son:
- Total de adquisiciones respecto inversiones
- Categorías donde más se ha invertido en 2012 y 2011
- 10 adquisiciones más valoradas de cada año
- Total de rondas y el importe invertido
- Empresas que más startups han comprado y que han pagado más por estas
- Tagcloud con las palabras populares según la descripción de las startups
El proceso de hacer la infografía ha sido la siguiente:
1- Como el servidor de crunchbase es lento y a veces inestable tuve que descargar el html de las páginas de inversiones, adquisiciones, startups, todo esto en local y con varios procesos en distintos terminales.
2- Parsear los datos que me interesaban de cada HTML e importar los datos a una base de datos.
3- Corregir los datos por ejemplo en la web de crunchbase a veces las fechas vienen como 26/00 o 2000 y convertir los importes K, M, B a número entero.
4- Hacer las consultas a la base de datos para sacar la información ordenada por años.
5- Visualizar los datos mediante gráficos usando la API de google chart.
6- El tagcloud ha sido lo más lento de hacer ya que tenía que guardar las palabras de las descripciones de startups en una tabla contabilizando las repeticiones.
Para quién no conozca crunchbase es el directorio de startups de techcrunch, los datos que se recogen en la infografía son:
- Total de adquisiciones respecto inversiones
- Categorías donde más se ha invertido en 2012 y 2011
- 10 adquisiciones más valoradas de cada año
- Total de rondas y el importe invertido
- Empresas que más startups han comprado y que han pagado más por estas
- Tagcloud con las palabras populares según la descripción de las startups
El proceso de hacer la infografía ha sido la siguiente:
1- Como el servidor de crunchbase es lento y a veces inestable tuve que descargar el html de las páginas de inversiones, adquisiciones, startups, todo esto en local y con varios procesos en distintos terminales.
2- Parsear los datos que me interesaban de cada HTML e importar los datos a una base de datos.
3- Corregir los datos por ejemplo en la web de crunchbase a veces las fechas vienen como 26/00 o 2000 y convertir los importes K, M, B a número entero.
4- Hacer las consultas a la base de datos para sacar la información ordenada por años.
5- Visualizar los datos mediante gráficos usando la API de google chart.
6- El tagcloud ha sido lo más lento de hacer ya que tenía que guardar las palabras de las descripciones de startups en una tabla contabilizando las repeticiones.
Ver infografía Startup data 2000-2012 from CrunchBase