|
Aumenta
las visitas colocando el fichero
robots.txt optimizado por
contadorwap.com.
Los
robots son programas automatizados,
y las arañas son un tipo de robots
que se desplazan continuamente por
la red, saltando de un lugar a otro
con el fin de compilar estadísticas
sobre el Web o crear bases de datos
con el contenido del mismo (Altavista,
Lycos, WebCrawler los utilizan).
Las arañas hacen un valioso trabajo
para todos; sin ellas sería
imposible crear índices actualizados
de la red. Pero también tiene sus
desventajas: aumentan el tráfico en
la red, además de que una araña mal
diseñada puede visitar tantas veces
a un sitio que impide el acceso a
los usuarios. Tampoco pueden
discernir sobre páginas permanentes
y temporales, a menos que los sitios
que visiten sean concientes de los
robots.
¿ Cómo funcionan ?
Básicamente, un visualizador es un
programa que responde a información
introducida por el usuario, enviando
comandos HTTP (HyperText Transport
Protocol - Protocolo de transporte
de hipertexto) a través de internet.
Las páginas Web son archivos de HTML
que contienen texto, códigos de
formato y otros datos que definen su
contenido.
Hacer clic en un vínculo ejecuta una
serie de acciones:
El visualizador recupera la URL (Uniform
Resource Locator - Localizador de
recursos uniformes) del destino a la
página actual.
Establece una conexión con el
servidor remoto, transmite un código
Get http para recuperar el archivo
HTML y presenta el documento en la
pantalla.
Pues bien, un robot Web es un
visualizador con piloto automático.
En vez del usuario haciendo clics,
el robot baja una página del Web y
busca vínculos hacia otros sitios,
selecciona una URL y salta hacia
ella; desde allí, salta a otro sitio
Web y comienza todo de nuevo. Cuando
llega a páginas sin vínculos,
regresa uno o dos niveles, y salta
hacia uno de los que omitió la vez
anterior.
¿ Qué hacen ?
¿Qué hace un robot con las páginas
que visita?. Bueno, depende de la
razón para lo cual fue creado. Los
robots que hacen índices del Web,
utilizan algoritmos para generar
resúmenes de documentos que se
almacenan en inmensas bases de
datos.
Otros robots sirven para identificar
los vínculos hacia páginas que ya no
existen; otros para llevar
estadísticas relacionadas con su uso
(sitios más populares, por ejemplo),
etc.
¿ Cómo controlar su
comportamiento?
Gracias al SRE (Standard for Robot
Exclusion - Estándar para la
exclusión de robots), protocolo que
permitirá a administradores de
sitios indicar instrucciones hacia
los distintos robots.
Por ejemplo, se puede indicar que no
revisen el contenido completo de un
sitio, que no trabajen en las
páginas en construcción o no ingrese
a directorios que no poseen páginas
HTML, haciendo además más eficiente
y rápido su trabajo.
Para traspasar las instrucciones
deseadas a una araña, sólo debe
crearse un archivo de texto
denominado "robots.txt".
Este archivo de texto contendrá
comandos de un sencillo lenguaje
indicando las políticas de acceso de
un sitio a estos extraños seres del
cyberespacio.
¿ Cómo es un archivo robots.txt?
Por ejemplo, a continuación se
muestra un archivo sencillo que
solicita al robot que se aleje de
/dibujos/imagenes y de sus
subdirectorios.
# Ejemplo
archivo robots.txt
User-agent:*
Disallow: /dibujos/imagenes
La primera línea corresponde a un
comentario (#).
La segunda línea indica a que robot
se le hace la solicitud; en este
caso, la orden es para todos (*).
La tercera línea muestra a que ruta
se le quita el acceso, conjuntamente
con los directorios que le siguen en
orden jerárquico.
Si se desea indicar una orden
específica para un robot:
# Ejemplo
archivo robots.txt
User-agent:*
Disallow: /dibujos/imagenes
Disallow: /en_contruccion
User-agent:Scooter
Disallow:
En el ejemplo, el robot Scooter
tiene acceso ilimitado dentro del
sitio, pero prohibe a otros a
ingresar a las rutas especificadas.
[Scooter es el robot de AltaVista].
Si desea prohibir el acceso de
cualquier robot a su sitio:
# Ejemplo
archivo robots.txt
User-agent: *
Disallow: /
Información
sustraída de www.contadorwap.com
|