BUSCADORES Y ROBOTS

Qué son los buscadores en Internet ?

La manera más rápida y moderna de buscar información, es por medio de la Internet. Hoy en día existen millones de sitios web en todo el mundo (billones de páginas indexadas por los buscadores), las cuales contienen la más variada información posible de imaginar. Es por lo mismo, que con la globalización y la tecnología, la búsqueda de información dejó se de estar limitada principalmente a las bibliotecas, para ahora llevarse a cabo en la red de información que accedemos por medio de la Internet. Y la cantidad de información disponible se va incrementando a una gran velocidad, año tras año.

Los buscadores en Internet, son programas o aplicaciones que residen en un sitio o página web, los cuales, al ingresar palabras en sus recuadros de búsqueda, operan dentro de la base de datos del mismo buscador y recopilan todas las páginas que contengan información relevante y relacionada con lo que se busca; de hecho este es el principal desafío que enfrentan las compañías que brindan este servicio, el ser capaces de brindar un orden al verdadero océano de información que es la web (hablamos de red o web también para referirnos a la Internet). Las palabras que ingresamos en los recuadros para buscar se denominan en el medio «palabras clave», o «keywords» en inglés, por su importancia para obtener la información necesaria de la gran base de datos que maneja cada buscador.

Existen básicamente dos tipos de buscadores en Internet. Están los buscadores de Internet tipo directorio, y los que operan mediante robots o arañas. Los primeros, los buscadores en Internet tipo directorios, funcionan igual que cualquier directorio en papel existente que conozcamos. Como por ejemplo, las páginas blancas o amarillas encontramos en los distintos países, donde clasifican y ordenan la información comercial, residencial o personal según categorías preestablecidas. Dentro de los buscadores en Internet tipo directorios, entre los más famosos está Yahoo! (el primero en gran escala de su tipo, que curiosamente como directorio ya es historia del pasado, dado que en la actualidad opera principalmente como portal y buscador, e incluso en su función de búsquedas toma sus resultados del buscador de Microsoft, Bing), y Dmoz o el Open Directory Proyect, directorio cuya particularidad es que opera mediante editores voluntarios de todo el mundo.

Ahora, si hablamos de los buscadores en Internet que operan mediante robots, estamos hablando de sitios como Google (a juicio del autor el más recomendable, y por lo mismo el más usado a la fecha en el mundo), una de las páginas más visitadas y exitosas en la búsqueda de información. Otra denominación común para los buscadores que operan a través de robots es la de «motores de búsqueda», un sinónimo técnico poco utilizado. Los robots o arañas son programas que escudriñan la web siguiendo los links o enlaces que van encontrando en las diferentes páginas, de tal manera de ir descubriendo y archivando lo que encuentran a su paso. Estas arañas no descansan nunca, descubriendo cada vez nuevas páginas en la red; entre los robots más conocidos tenemos al Googlebot, de Google, el Slurp, de Yahoo, el Bingbot (antes el MSN bot, de MSN search) de Microsoft y otros menos conocidos. En todo caso se mencionan aquí de manera informativa, ya que para el usuario todos estos tecnicismos son completamente transparentes, o sea no necesita saber ni de su existencia ni funcionamiento para poder utilizar un buscador.

Regresando al tema de fondo, la información que recopilan estos robots es almacenada en una gran base de datos, que consultamos cada vez que realizamos una búsqueda mediante palabras clave. Y la base de datos no es algo estático, sino que internamente los buscadores tras recopilar la información la ordenan y clasifican, para poder entregar resultados relevantes y útiles al usuario. Y su trabajo no se queda allí, ya que interpretan además las palabras clave que ingresamos para «adivinar» por así decirlo nuestra intención (¿buscamos información, compras, noticias, música, etc…?). Si bien Google es el buscador más utilizado y recomendado por este autor, hay también otros como Bing de Microsoft, y en su tiempo tuvieron relevancia Yahoo! y Ask Jeeves.

Ahora, también existen aquellos buscadores en Internet que satisfacen zonas geográficas específicas. Los hay de tipo provincial, de ciudades, de un país y aquellos internacionales, ya que buscan en páginas de distintos países. Incluso los grandes buscadores ya ofrecen la opción de búsqueda local, como en el caso de Google, que permite buscar dentro de las páginas de un determinado país. En realidad en la actualidad este gran sitio de búsquedas satisface incluso las necesidades locales (años atrás tuvieron mayor relevancia en su nicho los buscadores locales).

Como se puede ver, es cosa de definir que es lo que deseamos buscar, e ingresarlo como palabra o frase clave en nuestro motor de búsqueda favorito para obtener la información que tanto deseamos.

Qué es un robot

Un robot es un programa que atraviesa una estructura de hipertexto recuperando ese enlace y todos los enlaces que están referenciados allí. De ello se alimentan los grandes motores de búsqueda de la web.

La diferencia con los Directorios, es que éstos no poseen robots, están operados por humanos y no recuperan automáticamente los enlaces incluidos en las páginas web, sino que sólo se limitan a hallar lo que las personas manualmente incluyen en ellos, pudiendo como ventaja clasificar por secciones la temática de las web al hacer el proceso manual.

Los robots son usualmente llamados «Web Wanderers», «Web Crawlers», o «Spiders» (arañas de búsqueda) y se suele imaginar que se mueven entre los sitios como si fuesen virus, este no es el caso, un robot simplemente visita los sitios y extrae los enlaces que están incluidos dentro de estos.

Arañas (Spiders)

Es un robot, pero otorga resultados más fríos.

Gusanos (Worms)

Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original.

Orugas (Web crawlers)

Es lo mismo que un robot, pero hay que aclarar que es un tipo específico de robot.

Hormigas (WebAnts)

Cooperativa de robots

Qué es un Agente:

La palabra «Agente» tiene muchos significados en el mundo de la computación de nuestros días.

Específicamente:

Agente autónomo:

Es un programa que «viaja» entre los sitios web, decidiendo por ellos mismos cuando son movidos a otros lugares y también deciden qué hacer.

Hay que tener en cuenta que sólo pueden viajar entre sitios ubicados en servidores especiales y no son muy difundidos en el área de internet.

Agente inteligente:

Son programas que ayudan al usuario por ejemplo: a elegir productos, rellenar formularios o a encontrar determinada cosa. Generalmente no tienen mucha tarea en la red.

Agente de usuario:

Es un nombre técnico para programas que ejecutan tareas para un usuario en la red. Un ejemplo de ellos son: Netscape Navigator,Microsoft Internet Explorer, y Email User-agent como Qualcomm Eudora etc.

Motor de búsqueda o Search engine

Se trata de un programa que busca a través de una base de datos, en el contexto de la Web, se refiere usualmente a búsquedas de bases de datos de documentos Html, recopilados por un robot.

Los robots pueden ser usados para varios propósitos:

Indexar

Validar HTML

Validar Links

Monitorear «qué hay de nuevo»

Generar imágenes

Cómo decide un robot qué visitar

Esto depende del robot. Cada uno usa diferentes estrategias. En general comienzan a trabajar desde una lista histórica de URL’s. Especialmente con documentos con muchos links, tales como una lista de servidores «what’s New»(qué hay de nuevo») y desde los sitios más populares en la Web.

Muchos indexan servicios que le permiten dar de alta un sitio manualmente, los cuales harán cola para ser indexados por el robot.

Son usados a veces otros recursos también como listas de correo, grupos de discusión, etc.

Esto les da un punto de partida para comenzar a seleccionar url’s que ha de visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.

Cómo decide un robot qué indexar

Depende del robot, pero generalmente usa los títulos de HTML (Titles) o los primeros párrafos, o selecciona la HTML completa e indexa las palabras contenidas, excluyendo las de uso común (pronombres, adverbios y palabras como «web», «página», etc.)dependiendo de las construcciones de HTML, etc. Algunos seleccionan las metaetiquetas, u otros tipos especiales de tags ocultas. Una práctica muy común es indexar también los textos alternativos de los gráficos. Le recomendamos les preste especial atención, pues en caso de indexarse, son palabras que contarán con un gran peso sobre la relevancia final en el documento.

Cómo saber si se es visitado por un robot:

En el caso de ser visitado por un robot, las estadísticas de las páginas muestran un mismo IP que accede en unos pocos segundos a todas las páginas de su web, cosa que no puede hacerse manualmente de una forma natural. En ocasiones, por el propio nombre de Host correspondiente a su IP son reconocibles.

Cómo puede evitar que un robot escanee su sitio

El camino más rápido para evitar esto es crear un archivo robot.txt con las siguientes dos líneas y ponerlo en su servidor.

User-agent: *

Disallow: /

Si no tiene acceso completo a su servidor, simplemente puede incluir las siguientes líneas (tags o etiquetas) en su página web para que no sea indexada:

<META name=»ROBOTS» content=»NOINDEX»>

Y si desea que los links no sean indexados por el robot incluya:

<META name=»ROBOTS» content=»NOFOLLOW»>

Deja una respuesta