google bot robot search

El archivo robots.txt contiene directrices para los robots de exploración de su sitio Web. Los motores de búsqueda como Google y Bing utilizan robots Web de forma automática para el índice Web. Por defecto, los robots rastrean su sitio web completo. Sin embargo, la mayoría de sitios web incluyen archivos que no están destinados a ser rastreados porque no fueron diseñados como parte de la zona de presentación del sitio o por razones administrativas. El archivo robots.txt indica cuáles directorios no deben ser rastreados. Tenga en cuenta que los robots de malware y otros programas diseñados para analizar los sistemas vulnerables ignorarán el archivo, así que no lo utilice como una medida de seguridad.

Paso 1

Abra un editor de texto como el Bloc de notas. Escriba la línea siguiente en la parte superior del archivo:

User-agent: *

Esto aplica todas las reglas que siguen todos los robots.

Paso 2

Añada la siguiente línea por cada directorio que no desea rastrear:

Disallow: /administrator

Esta línea indica al robot que no se le permite entrar en el directorio que sigue, no incluya su dirección URL en esta línea. Por ejemplo, para no permitir mysite.com/dontcrawl, debería escribir Disallow: /dontcrawl en el archivo robots.txt.

Paso 3

Agregue una línea adicional por cada directorio que no quiere rastrear. No ponga más de un directorio por cada línea. También puede deshabilitar un archivo o página colocando el nombre exacto del archivo.

Paso 4

Guarde el archivo robots.txt en el ordenador. El nombre del archivo debe ser todo en minúscula. Cargue el archivo en el directorio raíz de su sitio web usando FTP o herramientas de su servidor Web.

search robot engine crawler bot

Recursos: El sitio robotstxt.org tiene documentación del formato para robots.txt.