Robots.txt para WordPress

Escrito por Jose M Ramirez en . Publicado en Desarrollo Web

Robotstxt WordPress

Tener un Robots.txt en tu servidor es vital para la óptima indexación de tu contenido, esta regla se aplica a cualquier sitio web, y WordPress no es la excepción. Las razones son muchas, pero las mas importantes son el evitar contenido duplicado y evitar se indexen en los buscadores carpetas que tienen que ver con la seguridad de tu sitio o aquellas que tienen contenido que no es de interés para los usuarios que visitan tu pagina como archivos de instalación, plugins, plantillas y demás que deben estar resguardados.

Como ya dije toda pagina web debe tener su archivo robots.txt, pero esta vez mostrare un archivo optimizado para wordpress actualizado a las versiones recientes, pero si lo necesitas es crear un robots.txt para otro cms o pagina estática puedes revisar esta Guía para crear Robots.txt donde veras que archivo se ajusta mejor a tus necesidades.

Si visitamos la pagina Codex WordPress veremos que allí nos sugieren un robots.txt aplicable para todas las instalaciones de nuestro cms, pero a este le faltan algunas líneas que son necesarias para que el rendimiento sea optimo en cuanto a SEO. El robots.txt sugerido es este:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# digg mirror
User-agent: duggmirror
Disallow: /

Sitemap: http://www.example.com/sitemap.xml

A este archivo le cambiaremos algunas líneas. Si quieres maximizar tu indexación debes obviar enviar alguna orden a ‘Googlebot-Image’ ya que al habilitar la carpeta “/wp-content/uploads” darás acceso al rastreador de imágenes que es el que te permite aparecer en la búsqueda de imágenes en Google.

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

Lo mismo se aplica al bot de Adsense, ya que emitir alguna ornen puede terminar por retrasar o confundir a este bot en cuanto a tu contenido relativo y esto se puede traducir en perdidas de dinero para aquellos que usan el sistema de publicidad de Google. Así que también excluimos esta línea.

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

¿Quieres evitar que Digg revise tu contenido y lo coloque en su página y recibir muchas visitas desde allá? ¡Pues yo no! La razón por la cual evitar que esto pase es cuidar tu servidor de demasiadas visitas, pero si crees que tu servidor esta en capacidad de soportar unas cuantas visitas puedes eliminar esta línea como lo hice yo.

# digg mirror
User-agent: duggmirror
Disallow: /

Ahora nuestro Robots.txt deberia quedar asi:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

Sitemap: http://www.example.com/sitemap.xml

Lo que haremos será asegurarnos que por ningún motivo google nos indexe las urls que vienen por defecto en WordPress, ya que estos enlaces cortos a menudo son usados por los plugins para compartir contenido en redes sociales o simplemente mostrados como resultado de alguna acción especifica en paginas personalizadas o logeo de usuarios. Así que para estar seguros excluimos todas las urls que contengan ‘.php’. Como también hojas de estilo y archivos javascript.

Disallow: /*.php$
Disallow: /*.css$
Disallow: /*.js$

Muchos webmaster usan estadísticas internas desde su instalación de wordpress, asumiendo que la carpeta de dicho plugin seria ‘/stats/’ procedemos a excluir ese directorio.

Disallow: /stats/

También vamos a incluir la carpeta de loggeo de usuarios que obviamente no queremos que sea revisada y menos indexada en algún buscador.

Disallow: /login/

Por ultimo si sirves videos o archivos comprimidos para descargar o reproducir es necesario que no se indexen esas urls ya que estarán disponibles desde los buscadores y las personas descargaran tu contenido y no entraran en tu pagina. Dependiendo del tipo de contenido y su extensión puedes excluirlos del rastreo. Si colocas videos en formato ‘.wmv’ la línea debe ser así:

Disallow: /*.wmv$

Para contenido comprimido como los empaquetados ‘.zip’ seria de esta forma.

Disallow: /*.zip$

Y así sucesivamente dependiendo de la extensión del archivo que deseas proteger. Algunos personas recomendaban usar la regla “Crawl-delay:” pero esta no es reconocida actualmente por la mayoría de bot, así que no sirve de nada colocarla. Tampoco debes olvidar colocar la ruta a tu sitemap para que los bot vayan directo al contenido importante de página.

En definitiva nuestro archivo Robots.txt debería quedar así:

User-agent: *

Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /stats/
Disallow: /login/
Disallow: /*.php$
Disallow: /*.css$
Disallow: /*.js$
Disallow: /*.wmv$
Disallow: /*.zip$
Allow: /wp-content/uploads

Sitemap: http://www.example.com/sitemap.xml

Etiquetas:, ,

Trackback desde tu sitio.

Comentarios (3)

  • -MicrO-

    |

    Gracias, jose me sirvio de mucho… Tenia uno viejooooo pero no para WordPress. Ya lo tengo Funcionando en 2 Sitios. 🙂

    Responder

    • Jose M Ramirez

      |

      Me alegra que te haya servido.

      Responder

Dejar un Comentario

Sigueme en Twitter

Twitter

Suscribete al Feed

RSS-Feed

Enlaces

TecnoBinario

Red de Blogs

Red de Blogs iBlogLabs