Semalt: Cómo bloquear Darodar Robots.txt

El archivo Robots.txt es un archivo de texto típico que contiene instrucciones sobre cómo los rastreadores web o los robots deberían rastrear un sitio. Su aplicación es evidente en los robots de motores de búsqueda que son comunes en numerosos sitios web optimizados. Como parte del Protocolo de Exclusión de Robots (REP), el archivo robots.txt forma un aspecto esencial de la indexación del contenido del sitio web y permite que un servidor autentique las solicitudes de los usuarios en consecuencia.

Julia Vashneva, Gerente Senior de Éxito del Cliente de Semalt , explica que la vinculación es un aspecto de la optimización de motores de búsqueda (SEO), que implica obtener tráfico de otros dominios dentro de su nicho. Para los enlaces "seguir" para transferir el jugo de enlaces, es esencial incluir un archivo robots.txt en el espacio de alojamiento de su sitio web para que actúe como instructor de cómo el servidor interactúa con su sitio. Desde este archivo, las instrucciones están presentes al permitir o no permitir el comportamiento de algunos agentes de usuario específicos.

El formato básico de un archivo robots.txt

Un archivo robots.txt contiene dos líneas esenciales:

Agente de usuario: [nombre de agente de usuario]

No permitir: [la cadena de URL no se debe rastrear]

Un archivo robots.txt completo debe contener estas dos líneas. Sin embargo, algunos de ellos pueden contener múltiples líneas de agentes de usuario y directivas. Estos comandos pueden contener aspectos como permitir, rechazar o retrasar el rastreo. Generalmente hay un salto de línea que separa cada conjunto de instrucciones. Cada una de las instrucciones de permiso o rechazo está separada por este salto de línea, especialmente para el archivo robots.txt con varias líneas.

Ejemplos

Por ejemplo, un archivo robots.txt puede contener códigos como:

Agente de usuario: darodar

No permitir: / plugin

No permitir: / API

No permitir: / _comentarios

En este caso, se trata de un archivo robots.txt en bloque que impide que el rastreador web de Darodar acceda a su sitio web. En la sintaxis anterior, el código bloquea aspectos del sitio web como complementos, API y la sección de comentarios. A partir de este conocimiento, es posible lograr numerosos beneficios de la ejecución efectiva del archivo de texto de un robot. Los archivos Robots.txt pueden realizar numerosas funciones. Por ejemplo, pueden estar listos para:

1. Permita que todo el contenido de rastreadores web ingrese a una página web. Por ejemplo;

Agente de usuario: *

Rechazar:

En este caso, cualquier rastreador web al que se le solicite acceder a un sitio web puede acceder a todo el contenido del usuario.

2. Bloquee un contenido web específico de una carpeta específica. Por ejemplo;

Agente de usuario: Googlebot

No permitir: / ejemplo-subcarpeta /

Esta sintaxis que contiene el nombre de agente de usuario Googlebot pertenece a Google. Restringe al bot el acceso a cualquier página web en la cadena www.ourexample.com/example-subfolder/.

3. Bloquee un rastreador web específico de una página web específica. Por ejemplo;

Agente de usuario: Bingbot

No permitir: /example-subfolder/blocked-page.html

El agente de usuario Bing bot pertenece a los rastreadores web Bing. Este tipo de archivo robots.txt impide que el rastreador web de Bing acceda a una página específica con la cadena www.ourexample.com/example-subfolder/blocked-page.

Información importante

  • No todos los usuarios usan su archivo robts.txt. Algunos usuarios pueden decidir ignorarlo. La mayoría de estos rastreadores web incluyen troyanos y malware.
  • Para que un archivo Robots.txt esté visible, debe estar disponible en el directorio del sitio web de nivel superior.
  • Los caracteres "robots.txt" distinguen entre mayúsculas y minúsculas. Como resultado, no debe alterarlos de ninguna manera, incluida la capitalización de algunos aspectos.
  • El "/robots.txt" es de dominio público. Cualquiera puede encontrar esta información cuando la agrega al contenido de cualquier URL. No debe indexar detalles esenciales o páginas que desea que sigan siendo privadas.