Contenido duplicado debido a scrapers

Teniendo en cuenta que el contenido duplicado es un tema candente entre los webmasters, pensamos que es un buen momento para tratar preguntas que nos hacen con regularidad en las conferencias y en el Foro de ayuda para webmasters de Google.

Antes de entrar de lleno en ellas me gustaría referirme rápidamente a un tema que preocupa a los webmasters: en la mayoría de casos un webmaster no tiene ninguna influencia sobre el contenido que terceras partes copian y redistribuyen sin permiso del webmaster. Nos damos cuenta de que no es culpa del webmaster en cuestión, lo que significa que un contenido idéntico se mostrará a la vez en varios sitios web aunque no se considerará en sí una violación de nuestras directrices para webmasters. Esto simplemente lleva a otro proceso con el que se intenta determinar la fuente original del contenido, algo en lo que Google es bastante bueno ya que en la mayoría de casos el contenido original puede ser correctamente identificado y sin tener efectos negativos para el sitio web que ha originado el contenido.

Generalmente, podemos diferenciar entre dos situaciones relacionadas con contenido duplicado:
  • Contenido duplicado en tu propio dominio, por ejemplo contenido idéntico que aparece involuntariamente en más de un lugar en tu sitio web.
  • Contenido duplicado en varios dominios, por ejemplo contenido idéntico el cual aparece, de nuevo involuntariamente, en diferentes sitios web.
En el primer caso, puedes tomar partido y evitar que Google indexe el contenido duplicado de tus sitios web. Échale un vistazo a este artículo de Adam Lasnik, "Deftly dealing with duplicate content" [inglés] y este otro de Vanessa Fox, "Duplicate content summit at SMX Advanced" [inglés]. Ambos ofrecen buenos trucos sobre cómo resolver problemas con el contenido duplicado en tu sitio web. Otro truco más que te puede ayudar a evitar que el contenido de tu página web sea rastreada como contenido duplicado es incluir la URL de la versión que prefiramos en el archivo de sitemap. Esto nos puede ayudar a aumentar las probabilidades de ofrecer la versión que el usuario prefiere cuando encontramos diferentes páginas con el mismo contenido. En el Centro de asistencia se puede encontrar este artículo con información adicional sobre el contenido duplicado.

En el segundo caso, quizás se de la situación en la que alguien está copiando tu contenido y poniéndolo en un sitio web diferente y a menudo sacándole partido económicamente. Es además normal que muchos proxys en Internet indexen partes de los sitios web a los que se han accedido desde el mismo proxy. Si nos encontramos este contenido duplicado en diferentes sitios web, miramos las diferentes señales para determinar cuál es el sitio original, que por regla general suele funcionar muy bien. Así que no deberías estar preocupado por los efectos negativos de la presencia de contenido copiado de tu sitio web en Google.

Si se da el caso que estas distribuyendo tu contenido pero además quieres estar seguro de que tu sitio se identifica como fuente original, es muy útil pedirle a tus "distribuidores" de contenido que incluyan un enlace de vuelta al contenido original. Puedes encontrar más información sobre cómo tratar este tipo de contenido en un artículo de Vanessa Fox, "Ranking as the original source for content you syndicate" [inglés].

Algunos webmasters han preguntado qué puede originar que un contenido copiado tenga una mejor posicionamiento que la fuente original. Este no debería pasar a menudo, pero si te sucediese:
  • Comprueba si tu contenido es accesible a nuestros robots. Puede que sin querer hayas bloqueado el acceso a parte de tu contenido a través de tu archivo robots.txt.
  • Puedes mirar en el archivo Sitemap por si hubieses hecho cambios en ese contenido que ha sido copiado.
  • Comprueba que tu sitio web siga las Directrices para webmasters de Google.
Por último me gustaría señalar que en la mayoría de casos, tener contenido duplicado no tiene efectos negativos en la presencia de tu sitio web en el índice de Google, ya que este se filtra. Si te fijas en algunos de los consejos mencionados más arriba, lo que estás aprendiendo es a controlar mejor lo que rastreamos e indexamos, así como las versiones que tienen más probabilidades de aparecer en el índice. Solo cuando hay señales que apuntan a un uso deliberado y malintencionado, puede ocurrir que consideremos que el contenido duplicado está violando las directrices para webmasters.

Si deseas comentar algo sobre este tema no dudes en visitar nuestro Foro de ayuda para webmasters.

martes 10 de febrero de 2009

11 comments:

Adfer dijo...

A mí lo que realmente me preocupa es que me copien, y que además salgan mejor posicionados que mi página. El sistema de Google no es infalible. Un ejemplo, la búsqueda "miradores de hormigon" posiciona arriba al que copia, mientras que el artículo original aparece después. Cuando lo lógico sería que el que es copia saliera en una posición detrás y más alejada.

Ejemplos como estos hay muchos, y espero que otros webmasters aprovechen esta ocasión para dar constancia de ello.

¿Tiene Google alguna dirección de correo donde poder denunciar estos casos? Gracias.

elQuique dijo...

Claro, este artículo no sirve de mucho, lo que preocupa es que nos copien y salgan primeros en Google, coincido con Adfer.

A ver si realmente algún día hacen algo con esto.

Ed dijo...

Como un corolario a lo que dice Adfer, los que copian llegan a recibir muchas más visitas por el contenido que nos copian.

elQuique dijo...

Claro, eso sucede porque no es lo mismo tener una web de 200 paginas originales, que otra con miles de pagina que solo copian.

Lo malo esta en que realmente salen mejor posicionadas, por mas SEO que apliques a la original, este último año no hubo chances, los blogs y otros sitios, de copia y pega ganan.

Anfitrión dijo...

No soy experto y por ello consulto: ¿no existe algun medio tecnico para proteger los textos a fin de que nopuedan ser copiados?.
A veces nos encontramos con textos -publicitarios o no- que no pueden copiarse, ¿como lo hacen?,creo que le llaman "encriptacion". ¿Esta no seria la solucion al problema?

Anfitrión dijo...

Estoy mal. Acabo de ver que la encriptación es otra cosa, es un cifrado para transformar un texto y volverlo ilegible.
Bueno, pero muchas veces encontramos textos e imágenes que no se pueden seleccionar con el mouse ni con el teclado y por tanto no se pueden copiar. Ese sistema sería interesante conocer para poder utilizarlo y así evitar los plagios descarados.
¿Hay alguien que pueda informarnos?

Adfer dijo...

Si se pone el texto como imagen, entonces... acabamos. Eso protege de que te copien, ya que se tendría que escribir a mano todo nuestro texto, pero sería fatal para los motores de búsqueda, pues no pueden leer el texto en la imagen.

A lo sumo, encontré un script que hace que tu página no responda al "clic-botón-derecho", pero no es infalible, ya que ese texto aparece en el "código fuente de la página", algo que cualquier navegador ofrece al usuario.

Espero que Google perfeccione sus algoritmos, porque escribir para que otros se aprovechen, es MALA COSA.

adm dijo...

A mi me pasó hace unos días un caso como el que comenta Adfer. Escribí un post sobre la actualización del pagerank de mayo, y el ladrón que me lo copió sale muy bien posicionado mientras que mi post no existe para google.

Esto es penoso por parte del ladrón y por parte de google que no sabe distinguir entre el original y la copia.

jesmatrans dijo...

tengo una duda sobre el contenido duplicado,, es la siguente; una imagen enlazada a otra pagina del mismo sitio y que al pasar el puntero sobre dicha imagen aparece un marco con el contenido identico a la pagina enlazada, puede ser motivo de penalizacion ?

AGRADESCO AYUDAS.

Equipo de Calidad de Búsqueda dijo...

@jesmatrans

Te sugiero que te pases por el Foro de ayuda para webmasters y hagas allí tu pregunta. Así otros usuarios podrán beneficiarse de la respuesta.

http://www.google.com/support/forum/p/webmasters?hl=es

Suerte.

Oscar Araos Guzmán dijo...

Complicado solucionar en un 100% el contenido duplicado para quienes utilizan blogger como plataforma de contenidos. Por defecto, pareciera que a blogger le gusta duplicar el contenido y sus archivos...