¿Qué es robots.txt?
Robots.txt es un archivo de texto que los webmasters crean para instruir a los robots web (típicamente robots de motores de búsqueda) sobre cómo rastrear páginas en su sitio web. El archivo robots.txt es parte del protocolo de exclusión de robots (REP), un grupo de estándares web que regulan cómo los robots rastrean la web, acceden e indexan el contenido y lo transmiten a los usuarios.
El REP también incluye directivas como meta robots, así como instrucciones de página, subdirectorio o todo el sitio sobre cómo los motores de búsqueda deben tratar los enlaces (como “follow” o “nofollow”).
En la práctica, los archivos robots.txt indican si ciertos agentes de usuario (software de rastreo web) pueden o no rastrear partes de un sitio web. Estas instrucciones de rastreo se especifican al “rechazar” o “permitir” el comportamiento de ciertos (o todos) los agentes de usuario.
¿Cómo funciona robots.txt?
Los motores de búsqueda tienen dos trabajos principales:
Rastrear la web para descubrir contenido;
Indexar ese contenido para que se pueda servir a los buscadores que buscan información.
Para rastrear sitios, los motores de búsqueda siguen enlaces para llegar de un sitio a otro, en última instancia, rastreando miles de millones de enlaces y sitios web. Este comportamiento de rastreo a veces se conoce como “spidering”.
Después de llegar a un sitio web pero antes de robarlo, el rastreador de búsqueda buscará un archivo robots.txt. Si encuentra uno, el rastreador leerá ese archivo primero antes de continuar a través de la página. Debido a que el archivo robots.txt contiene información sobre cómo debe rastrear el motor de búsqueda, la información que se encuentra allí instruirá más acciones del rastreador en este sitio en particular.
Si el archivo robots.txt no contiene ninguna directiva que no permita la actividad de un agente de usuario (o si el sitio no tiene un archivo robots.txt), procederá a rastrear otra información en el sitio.
Desde nosunelanube te lo ponemos fácil para que no tengas que marearte con todo esto ya que nuestros técnicos se encargan de todo ello.
Si quieres leer mas puedes ver algunos ejemplos aquí.
0 comentarios