El contenido duplicado

 

Uno de los problemas más comunes de un sitio web es el contenido duplicado. Cuando nos referimos al contenido duplicado estamos hablando de dos o más URL diferentes que refieren el mismo contenido. Existen varias situaciones en las que esto puede suceder:

  • La página incluye un artículo y una versión para imprimir.
  • Los productos se encuentran listados en diferentes categorías y cada una tiene una URL distinta.
  • Los sitios web que no han elegido una versión canónica (dominio.com y dominio.com)

El problema que acarrea el contenido duplicado es que los buscadores no desean mostrar el mismo contenido más de una vez, por lo que optan por elegir una URL y descartan el resto. Esto significa que las páginas web que no se muestran pierden el valor del enlace y, además, puede ocurrir que el buscador no devuelva la URL del contenido original o la que por diferentes motivos interese mostrar.

Aun así, el problema del contenido duplicado usualmente se subestima. Cuando se construye un sitio web se debe intentar por todos los medios que este problema no se presente, la forma más sencilla de evitarlo es crear páginas web con URL únicas. Cuando esto no sea posible, por ejemplo, en el caso de las versiones para imprimir con otra URL, se puede aplicar un atributo nofollow a la URL e incluir la URL en el fichero robots.txt (en la sección siguiente se explica qué son los ficheros robots.txt).

La forma más correcta desde el punto de vista semántico, es mediante el uso del atributo rel=“print” dentro del enlace, que indicará a los buscadores que se está enlazando a la versión imprimible.

Otra situación en la que puede aparecer contenido duplicado es a través de los buscadores internos. Pongamos por caso que los buscadores internos permiten buscar todos los elementos dentro de una categoría y que las páginas resultantes serán (al menos en gran parte), una copia de la página de categorías. Hay que intentar evitar esta situación personalizando el contenido para las páginas de resultados, así como revisando la paginación de los resultados. En este ejemplo, deberemos asegurarnos de que las páginas de resultados no sean indexadas ya que, además, estas páginas difícilmente atraerán enlaces y no acumularán ningún valor. Para excluir estas páginas de la indexación basta añadir una meta etiqueta robots con el siguiente contenido: noindex, follow.

Este error de paginación lo podemos encontrar en las páginas de contenidos o categorías, y habrá que estar antento a personalizar losmetas title y description de la cabecera.

Los robots.txt

Los robots.txt son un fichero de texto que le indica a los buscadores qué páginas web hay que indexar y cuáles no. Este fichero se sitúa en la raíz del sitio web de forma que los buscadores llegan al mismo a través de www.sitio.es/robots.txt, y lo pueden leer antes de comenzar a rastrear el sitio web.

Localización del CMS en robots.txt

Como el fichero debe situarse en la raíz del dominio: www.sitio.es/robots.txt, puede ser accesible para todos. Por lo tanto, si este fichero se coloca en el gestor de contenidos (CMS por sus siglas en inglés) todo el mundo podrá localizarlo, incluidos los hackers.

A continuación ofrecemos un ejemplo de un fichero robots.txt:

Sitemap: http://www.sitio.es/sitemap.xml User-agent: *

Disallow: /cgi-bin/

Disallow: */tmp*

Disallow: /junk/

Este fichero indica que ningún buscador está autorizado a rastrear estos directorios, incluido cualquier otro tipo de fichero interno dentro de los mismos. Por ejemplo, www.site.es/tmp/tmp2/tmp3.html no se podrá rastrear.

Además estamos reafirmando al buscador en qué URL dónde está alojado el sitemap principal de la web.

El código que aparece debajo se utiliza para determinar qué directorios no deben ser rastreados, con este objetivo se usa el comando ‘disallow’ mientras el comando ‘allow’ le indica a los buscadores qué directorios están abiertos para ser indexados, pese a que últimamente el comando ‘allow’ no tiene ningún efecto ya que si no se incluye ningún comando, los buscadores lo rastrearán todo por defecto. No obstante, el comando ‘allow’ también es útil para especificar que un archivo no debe ser indexado pero sí un fichero en su interior. Esto se puede hacer con el siguiente fragmento de código:

User-agent: *

Disallow: /hidden-folder/

Allow: /hidden-folder/access-file.html

Obviamente, no es práctico incluir en un fichero robots.txt todo lo que debe ser indexado y lo que no, sobre todo si se trata de un sitio web grande. Afortunadamente, los buscadores comprenden los caracteres comodín (en inglés, wildcards). Los caracteres comodín son signos que representan otros signos. Por ejemplo, * indica una serie de al menos un carácter. Si por alguna razón particular, no queremos que nuestras imágenes aparezcan en los resultados de búsqueda, el carácter comodín puede ser útil para asegurarnos de que estas no aparecerán listadas en el Buscador de Imágenes. El siguiente código permite hacerlo:

User-agent: *

Disallow: /*.jpg$

Disallow: /*.gif$

El signo $ indica el final de la URL. Con este fragmento de código robots.txt, todos los ficheros con la extensión .jpg o .gif no serán indexados. Otro ejemplo podría ser cuando no se desea indexar una URL que no sea apta para buscadores. Estas URL incluyen un ? por lo que puede utilizarse el código que se muestra a continuación con el que se excluyen todas las URL que contienen el signo ?, es decir, que incluyen variables:

User-agent: *

Disallow: /*?

Más adelante en este mismo capítulo analizaremos las Herramientas de Google para webmasters, que también pueden ser útiles en temas relacionados con los robots.txt. Google utiliza las Herramientas para webmasters para indicar qué páginas web no han sido encontradas ya que han sido excluidas del fichero robots.txt. Estas herramientas también pueden usarse para conocer si los robots.txt están cumpliendo adecuadamente con su trabajo.

Se recomienda limitar el número de páginas que no se quieren indexar, por temas de seguridad.

Los robots.txt por sí solos no son suficiente

Cuando a través del fichero robots.txt se excluye una página web de los buscadores, es importante que todos los enlaces hacia esta página que posean el atributo rel=”nofollow” pasen a ser reescritos mediante JavaScript. En caso de que no se haga, el valor del enlace pasará inútilmente a esta página weby es posible que Google continúe indexando la página durante un tiempo. En este caso, estaríamos malgastando el valor del enlace hacia una página web que no será indexada y que, además, continuará apareciendo la página en los resultados de búsqueda a pesar de que no es lo que se pretende.

Sitemaps XML

Existen dos tipos de sitemaps web; el primero de ellos, el mapa web, ya se mencionó con anterioridad y sirve para ofrecer al usuario una visión de conjunto del sitio web, mientras que el segundo se denomina sitemap XML. Este sitemap no está dirigido a los usuarios sino exclusivamente a los buscadores y se utiliza como repositorio de todas las URL del sitio web. De esta forma los buscadores podrán indexar con mayor facilidad las páginas del sitio web. Además, también se les puede dar información adicional del tipo: cuándo se realizó la última modificación de la página, con qué frecuencia se cambia el contenido de la página web, etc.

Google indica que un sitemap XML es útil para indexar el contenido que no ha sido rastreado a través de la estructura normal. Y, así es, no solo indicamos al buscador cuál es la estructura de la web sino que incluimos todas las URL, de forma que tendrá acceso a aquellas que no tengan enlaces.

No obstante, también es importante señalar que el sitemap XML no es una solución propiamente dicha para mejorar el posicionamiento de las páginas web, sino que es solo una ayuda para su indexación. Es decir, gracias al sitemap XML Google logrará acceder a estas páginas web y rastrearlas, pero si no existe ningún enlace que dirija hacia ellas, será muy difícil que logren un buen posicionamiento.

La estructura de los sitemaps ha evolucionado desde el primer archivo de texto plano a sitemaps construidos en XML que permiten indexar URL o llegar más lejos añadiendo imágenes y vídeos.

En sitios webs grandes hay que tener en cuenta los límites del fichero que no pueden exceder las 30.000 URL’s y 10Mb por sitemap. En el caso de exceder estos límites se recomienda crear un sitemap índice y los sitemaps de URL necesarios según el tamaño de la página.

Se recomienda tener una estrategia de sitemaps adecuada para la estrategia de cada página web, de forma que según la estructura de sitemaps elegida, se puede potenciar la indexación de la página ajustando la frecuencia de indexación y el tipo de sitemap en función de su contenido, importancia y estructura dentro de la web.

En la estrategia de sitemaps, en el caso en que la web tenga alojados videos, tener un sitemap específico de video, y añadri en los sitemaps de productos la imágenes adoptando para este sitemap el protocolo adecuado.

Encontrarás más información sobre el sitemap XML en: http://www.sitemaps.org/.

Las Herramientas para Webmasters de Google

Cuando los buscadores indexan un sitio websuelen aparecer todo tipo de errores: algunas páginas simplemente no existen, otras dan error 404, hay URL que no pueden rastrearse porque así lo indica el archivo robots.txt por error, etc. Afortunadamente, Google tiene un programa denominado Herramientas para Webmasters (Google Webmaster Tools) que muestra qué encontró el buscador al indexar el sitio web.

Puedes acceder a las Herramientas para Webmasters a través del enlace: www.google.com/webmasters/tools. Deberás crear la cuenta y demostrar que eres el propietario del sitio web. Para hacerlo existen varias posibilidades: incluir un meta-tag en la cabecera de la web, subir un archivo a la raíz del servidor, ser administrador de la página mediante Google Analytics o mediante la configuración de las DNS del dominio.

Una vez que se ha validado la propiedad de la web, se le pide a Google que verifique la cuenta. Después de esto, se puede iniciar la sesión.

Algunos de los informes destacados de las herramientas de Google para Webmasters son:

  • Configuración geográfica de la página web.
  • Sitemaps de la web.
  • Consultas de búsqueda por las que la web aparece en resultados de Google.
  • Enlaces entrantes.
  • Impacto en Google +.
  • Monitorización de errores de la web.
  • Rendimiento de la página respecto al resto de webs.

*** 08-02 Herramienta para Webmasters de Google

Esta herramienta es extremadamente útil, especialmente para los sitios web nuevos o cuando se hace un cambio de web, ya que permite controlar si Google ya ha encontrado el sitio y si ha comenzado a indexarlo. Además, puede ser interesante ver si el número de páginas rastreadas aumenta tan pronto como se comience a añadir contenido con regularidad al sitio web.

Algunos de los informes que muestra Google Webmaster Tools no son

tan valiosos, como el informe de enlaces entrantes, ya que únicamente muestra una representación del total de enlaces que apuntan a la web y los mostrados suelen ser poco representativos o de dudosa calidad como para poder tomar decisiones al respecto.

Para poder ver la evolución de los enlaces conseguidos por una web, se puede recurir a herramientas como SpyGlass o MagesticSEO, ambas ofrecen una muestra del total de enlaces que obtiene la página web, en este caso más representativa que la que nos ofrece Google, además permite hacer un seguimiento cualitativo.

En definitiva, las Herramientas para Webmasters de Google ofrecen una gran cantidad de posibilidades a la hora de hacer el seguimiento de la evolución del sitio web y son un buen recurso que es recomendable utilizar.

Las Herramientas para Webmasters de otros buscadores

Bing tiene una aplicación similar, pero los datos mostrados son más reducidos que en la herramienta de Google y algunos de ellos también son poco representativos para poder tomar decisiones.

Conclusión

Como habrás podido apreciar al leer este capítulo, es importante no descuidar los aspectos técnicos del sitio web. Un sitio web con contenido duplicado no logrará un buen rendimiento hasta que este problema no se resuelva y lo mismo sucede con la reescritura de URL, que contribuye a mejorar tanto la experiencia del usuario como el posicionamiento en los buscadores.

Todos estos aspectos técnicos no deberían ser un ‘debería’sino que son la base técnica y de correcta indexación de una página web, no son temas complicados o imposibles y para cualquier web con intención de posicionar en un mercado mínimamente competitivo, es una obligación tenerlos bien resueltos. Una auditoría anual o semestral de estos parámetros puede ser una buena forma de no perderlos de vista.Muchas veces nos preguntamos ¿por qué nuestra competencia posiciona tan rápido o en peores condiciones SEO y en total consigue mejores resultados que tu web? Tener la base de SEO técnico resuelto puede ser la respuesta.

Lista de verificación

Analizar los aspectos técnicos siguientes:

  • ¿Usas la redirección 301 para redireccionar una página web?
  • ¿La página 404 realmente devuelve un código de respuesta 404?
  • ¿Las URL son aptas para buscadores y usuarios?
  • ¿Has escogido la versión canónica?

¿Tienes contenido duplicado?

  • ¿En las páginas para imprimir?
  • ¿En las páginas de los productos que están listados en diferentes categorías?
  • ¿La página de inicio es accesible a través de diferentes URL?

¿Es correcto el archivo robot.txt?

  • ¿No habrás excluido demasiado contenido?

¿Has añadido el sitemap XML (en el caso de que tengas uno) a los buscadores? ¿Tienes una estrategia de sitemaps?

¿Has creado una cuenta en las Herramientas para Webmasters de Google?

18http://www.w3.org/Protocols/rfc2616/rfc2616-sec 10.html 19ISBN-10: 1590595610; ISBN-13: 978-1590595619

Deja una respuesta