Logo Import.ioA la hora de extraer información de una web, import.io es la herramienta definitiva y, además, es gratuita. Aunque al principio las cosas pueden parecer complicadas, teniendo unos cuantos conceptos claros la herramienta es bastante sencilla de utilizar.

En primer lugar, es importante entender que hay dos maneras de utilizar la herramienta. O bien puede utilizarse en el navegador, o bien se puede usar desde un programa que descargas e instalas en tu ordenador.

La versión web permite usar los conectores, extractores y crawlers creados por nosotros o por otras personas, sacar los datos y combinarlos. Con la versión descargable podremos hacer esto mismo, pero, además, ofrece la posibilidad de crear nuestros propios conectores, extractores y crawlers. Por tanto, debes saber que para crear los diferentes extractores y conectores o crawlers necesitas trabajar en tu propio ordenador.

En segundo lugar, es importante diferenciar entre las tres posibles herramientas a crear:

Captura de pantalla 2014-02-26 a la(s) 00.42.26Los elementos más básicos son los extractores. Sirven para sacar información de una página concreta. El resto de las herramientas los utilizan. Permiten seleccionar una página y extraer la información que nos interesa. Son de dos tipos: los que se aplican a una página de tipo tabla y los que se aplican a una página tipo ficha.

  • Las páginas tipo tabla son aquellas en las que encontramos más de un elemento diferente del mismo tipo en cada página. Ejemplos de este tipo son los cuadros de países y las listas de resultados o acepciones de una palabra en un diccionario.
  • Las páginas tipo ficha son aquellas en las que encontramos información de un único elemento en cada página. Sirve de ejemplo la entrada de una palabra en un diccionario, y también la ficha de un producto en una tienda.

En ocasiones, el tipo de página lo determina la información que queramos obtener de ella. Para ilustrar esta posibilidad, piensa que estás ante una página con la ficha de un producto y que quieres obtener las opiniones de los clientes. Como normalmente en cada página hay más de una opinión, deberías utilizar un extractor tipo tabla. Si, pongamos por caso, quisiéramos obtener los sinónimos de una palabra en un diccionario, estaríamos en el mismo caso: tendríamos una página tipo tabla, ya que suele haber más de un sinónimo por palabra. También podemos obtener los sinónimos en un bloque y separarlos después. Como veis, en todos estos casos el tipo de extractor a utilizar depende de la información que necesitemos.

tipo de extractor

Tipos de extractor

Sin embargo, las herramientas verdaderamente útiles son los conectores y los crawlers. Es bastante sencillo identificar la diferencia.

Los conectores sirven cuando hay una pantalla en la que puedes buscar una información. Podemos encontrarlos en aquellas páginas en la que introduces unos datos, seleccionas unos parámetros y obtienes unos resultados, ya sea en forma de lista, como ocurre en páginas del tipo de Google, o en una página de tipo ficha, como en un diccionario.

Captura de pantalla 2014-02-26 a la(s) 00.42.41

Si quieres saber si estás ante un conector, solo tienes que fijarte en si hay un recuadro de búsqueda en la página. Google, un diccionario o Idealista son ejemplos clásicos de páginas que utilizan conectores.

El último caso son los crawlers. La principal diferencia entre ellos y los conectores es que, en el caso de los crawlers, no hay recuadro de búsqueda. Lo que hay es una web con un montón de páginas que están enlazadas entre sí. Ejemplos clásicos de este tipo son un periódico o la Wikipedia. En ambas es posible que encontremos recuadros de búsqueda, pero normalmente se navega por ellos. Las páginas de las que extraemos información en este caso suelen ser de tipo ficha.

Captura de pantalla 2014-02-26 a la(s) 00.42.35

También  entran en juego los crawlers en aquellos casos en los que necesitamos que el sistema vaya recorriendo toda la web, o al menos todas las páginas de un determinado tipo, sin que nosotros digamos nada.

Si te ha resultado útil este post, debes agradecérselo a los amigos de ASETRAD, que me invitaron a pasar una tarde con ellos en la que nos dedicamos a disfrutar de import.io. Al final, me comprometí a hacer este resumen y ¡aquí esta!

Suerte y a sacar los datos de tu web favorita.

Tagged with →  
Share →