Lo más destacado de la calidad de búsqueda

(Publicado originariamente en Inside Search Blog, traducido en el blog Tecnología y producto de Google y compartido aquí para todos nuestros webmasters)

Es momento de publicar otra lista con las mejoras a las búsquedas, y comenzar una nueva serie mensual en la que les compartiremos mayor detalle acerca de nuestro algoritmo y las principales mejoras que realizamos de manera casi diaria. Probamos con un post en noviembre y estamos complacidos de saber que les gustó.

Sabemos que a la gente le importa saber acerca de cómo funcionan las búsquedas, por eso siempre queremos llevar al límite el asunto de la transparencia. Hemos hecho cuentas, y son casi 1,000 posts los que hemos publicado acerca de las búsquedas web, más de 400 videos para webmasters y miles de publicaciones en foros. Desde hace años hemos estado escribiendo acerca de las actualizaciones significativas a nuestros algoritmos, desde Panda, hasta nuestra reciente actualización para obtener resultados más frescos y actuales. Entonces, ¿por qué necesitamos una serie más?

Hemos estado pensando en la forma de hacer que las búsquedas sean todavía más transparentes. La buena noticia es que realizamos alrededor de 500 mejoras en un año cualquiera, así que siempre tendremos algo más que compartirles. Con esta nueva serie de posts, estaremos destacando muchos de los cambios algorítmicos imperceptibles y los principales cambios visibles que realizamos. Estos son cambios que no necesariamente son tan importantes como para ocupar un post por si solos, por ello hemos decidido compartirles varios en cada publicación mensual.

A continuación una lista de los cambios que realizamos desde la publicación anterior:

  • Refinamiento a los resultados de consultas relacionadas: A veces procesamos resultados a consultas que son similares a las que en realidad escribieron. Este cambio hace menos probable que estos resultados tengan un posicionamiento alto si la consulta original incluía una palabra poco común que se omitió en la consulta alterna. Por ejemplo, si están buscando [bicicletas raras], quizá no estén interesados en una página que solamente mencione “bicicletas.”
  • Una organización exhaustiva de la información: Este cambio hace que estén disponibles documentos más largos en nuestro índice, por lo que es más probable que sean mejor posicionados para consultas relevantes.
  • Nuevo clasificador de dominios aparcados: Este es un nuevo algoritmo que detecta automáticamente los dominios aparcados. Los dominios aparcados son sitios reservados que rara vez son útiles y que comúnmente están llenos de anuncios. Regularmente no tienen contenido importante para los usuarios, por lo que en la mayoría de los casos preferimos no mostrarlos.
  • Más predicciones para auto-completar: Con auto-completar, tratamos de lograr el balance entre sugerir predicciones flexibles y mantenernos fieles a sus intenciones de búsqueda. Este cambio hace que nuestro algoritmo de predicciones sea un poco más flexible para ciertas consultas, sin perder su intención original.
  • Resultados más frescos y completos para las búsquedas de blogs: Hemos realizado un cambio a nuestro índice de búsqueda de blogs para obtener resultados más frescos y exhaustivos. 
  • Contenido original: Hemos añadido nuevas señales para poder predecir mejor de entre dos sitios similares, cuál es el original.
  • Resultados en vivo para la Major League Soccer y para la Liga de Fútbol Canadiense: Este cambio muestra los marcadores más recientes y los calendarios de estas ligas en conjunto con un acceso rápido a resúmenes de juego y tablas de posicionamiento.
  • Resultados de búsqueda de imágenes más actuales: Hemos realizado un cambio a la manera en la que determinamos la frescura de las imágenes que se muestran como resultado a consultas de este tipo. Esto nos ayudará a encontrar imágenes más actuales con mayor regularidad.
  • Mejoras al diseño en tablets: Hemos hecho algunos cambios menores al diseño de las búsquedas para mejorar la usabilidad en tablets.
  • Reescritura del código de selección de primeros resultados: Este código maneja un procesamiento extra para refinar los primeros resultados de búsqueda. Por ejemplo, se asegura de que no mostremos demasiados resultados de un mismo sitio (fenómeno conocido como “host crowding”). Reescribimos el código para que sea más fácil entenderlo, mantenerlo y sea más flexible a futuras extensiones.
Desde la última vez, hemos publicado algunas otras mejoras a la búsqueda, como la actualización a la app de búsqueda para iPad, la nueva herramienta Verbatim [inglés] y el rediseño de la barra de Google.

Estaremos de vuelta en enero con nuestro siguiente paquete de cambios y mejoras como parte de este plan de hacer una serie mensual.

viernes, 30 de diciembre de 2011

Presentación de Googlebot-Mobile de smartphones

El número de usuarios de smartphones crece rápidamente y cada vez son más los sitios web que ofrecen contenido diseñado específicamente para este tipo de dispositivos. Hoy estamos encantados de anunciar que ahora Googlebot-Mobile utiliza un user-agent de smartphones además de los user-agents anteriores de teléfonos tradicionales para rastrear contenido. De esta forma, podemos aumentar nuestra cobertura de contenido de smartphones y ofrecer una mejor experiencia de búsqueda a los usuarios de este tipo de dispositivos. A continuación, se indican las principales cadenas de user-agent que utiliza ahora Googlebot-Mobile.

  • Googlebot-Mobile de teléfonos tradicionales:
  • SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html) 
  • DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

  • Googlebot-Mobile de smartphones:
  • Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_1 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8B117 Safari/6531.22.7 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
El contenido que rastrea Googlebot-Mobile de smartphones se utilizará principalmente para mejorar la experiencia de usuario al realizar búsquedas móviles. Por ejemplo, el nuevo rastreador puede encontrar contenido optimizado específicamente para smartphones, así como redireccionamientos específicos para este tipo de dispositivos.

Asimismo, presentamos una nueva función que permite ignorar los redireccionamientos de las páginas optimizadas para smartphones y que utiliza estas indicaciones. Cuando encontramos una URL en los resultados de búsqueda que redirige a los usuarios de smartphones a otra URL con contenido optimizado para este tipo de dispositivos, modificamos el enlace que aparece en los resultados de búsqueda para que el usuario acceda directamente a la URL de destino final. De esta forma, se elimina la latencia adicional del redireccionamiento y permite ahorrar una media de entre 0,5 y 1 segundos al visitar la página de destino de esos resultados de búsqueda.

Los user-agents de Googlebot-Mobile se identifican a sí mismos como un tipo específico de dispositivo móvil. Por tanto, las solicitudes de Googlebot-Mobile deben recibir el mismo tratamiento que cualquier usuario con el mismo user-agent de teléfono. Tanto esta como otras directrices se describen en la entrada de blog anterior y aún se aplican, excepto las que se refieren a smartphones que se actualizan con esta información. Si tu sitio ha tratado a Googlebot-Mobile basándose en el hecho de que solo rastrea contenido con user-agents de teléfonos tradicionales, te recomendamos que revises esta política y que ofrezcas el contenido adecuado basado en el user-agent de Googlebot-Mobile, para que tanto el contenido destinado a teléfonos tradicionales como el que va destinado a los smartphones se indexe correctamente.

Si tienes más preguntas, no dudes en consultar en el  Foro de ayuda para webmasters.

lunes, 26 de diciembre de 2011

Nuevo marcado para contenido multilingüe

Muchos sitios web se dirigen a usuarios de todo el mundo. Existen varias formas de ofrecer un contenido adaptado al idioma o a la región de los usuarios. El año pasado ofrecimos la posibilidad de añadir anotaciones explícitas a páginas web que mostraran el mismo contenido con varias plantillas de idioma.

Hoy damos un paso más y mejoramos la gestión del contenido multilingüe en estos dos casos:
  • En sitios web que se orienten a varias regiones y que usen prácticamente el mismo contenido (por ejemplo, páginas web en inglés que se orienten a Australia, a Canadá y a EE.UU. y que solo se diferencien en los precios)
  • En sitios web orientados a varias regiones que incluyan contenido completamente traducido o que muestren un contenido monolingüe con diferencias notables enfocado a varias regiones (por ejemplo, la página web de un producto en alemán, en francés y en inglés).

Cómo especificar el idioma y la ubicación

Hemos ampliado la compatibilidad del elemento de enlace rel="alternate" hreflang para gestionar el contenido que esté traducido o adaptado a varias regiones geográficas. El atributo hreflang permite especificar el idioma u, optativamente, el país, así como URL de contenido equivalente. Las URL alternativas nos permiten consolidar los indicadores de estas páginas y ofrecer la URL adecuada a los usuarios que hagan una búsqueda. Estas URL pueden pertenecer al mismo sitio o a otro dominio.

Cómo anotar páginas con un contenido prácticamente idéntico

En lo que respecta a las páginas que tengan un contenido prácticamente idéntico en el mismo idioma y que se orienten a varios países, también puedes usar el elemento de enlace rel="canonical" para indicar la versión preferida. Este indicador nos permitirá dar prioridad a esa versión en la Búsqueda y mostrar las URL locales a los usuarios cuando sea conveniente. Por ejemplo, podrías usar este elemento de enlace si tienes una página de producto en alemán y quieres orientarla a usuarios que hagan búsquedas en los sitios de Google de Alemania, de Austria y de Suiza de forma específica.

Ejemplo de uso

Para explicar el funcionamiento del elemento, usaremos las siguientes URL de ejemplo:
  • http://www.example.com/ (URL de la página principal general de un sitio web que está en español),
  • http://es-es.example.com/ (URL de la versión en español para los usuarios de España),
  • http://es-mx.example.com/ (URL de la versión en español para los usuarios de México),
  • http://en.example.com/ (URL de la versión en inglés genérico).
En todas estas páginas, podríamos usar los siguientes marcados para especificar el idioma y, en su caso, la región:

<link rel="alternate" hreflang="es" href="http://www.example.com/" />
<link rel="alternate" hreflang="es-ES" href="http://es-es.example.com/" />
<link rel="alternate" hreflang="es-MX" href="http://es-mx.example.com/" />
<link rel="alternate" hreflang="en" href="http://en.example.com/" />

Si incluyes una subetiqueta regional, lo interpretaremos como que quieres orientar la página a la región especificada.

Ten en cuenta que todas estas anotaciones se deben usar en cada URL. Procura usar URL específicas para ambos elementos de enlace en lugar de la correspondiente a la página principal.

Asistencia adicional

Como siempre, si necesitas ayuda adicional para implementar sitios web multilingües u orientados a varias regiones, consulta el artículo del Centro de asistencia sobre este tema o publica tu consulta en el Foro de ayuda para webmasters.

jueves, 22 de diciembre de 2011

Paginación con rel="next" y rel="prev"

De forma similar a como rel=”canonical” indica claramente el contenido duplicado, ahora puedes utilizar los elementos de vinculación HTML rel="next" y rel="prev" [inglés] para indicar la relación entre las direcciones URL de los componentes de una serie paginada. En un sitio web, una serie paginada de contenido puede tener muchas formas, desde un artículo dividido en varias páginas de componentes, hasta una categoría de productos con elementos repartidos a lo largo de varias páginas o un hilo de un foro dividido en una secuencia de direcciones URL. Ahora, si incluyes los elementos de marcado rel="next" y rel="prev" en las páginas de los componentes de una serie, estarás indicando a Google claramente que quieres que:
  • Consolidemos las propiedades de indexación, como los enlaces, desde las direcciones URL o las páginas de los componentes hasta la serie como conjunto (es decir, que los enlaces no deben estar dispersos entre página-1.html, página-2.html, etc., sino que deben estar agrupados con la secuencia).
  • Enviemos a los usuarios a la página o a la URL más relevante, normalmente la primera página de la serie.
Ahora es posible indicar a Google la relación entre las URL de los componentes de una serie mediante rel="next" y rel="prev".

Existe una excepción en la implementación de rel="prev" y rel="next": si a lo largo de la serie de contenido también ofreces a los usuarios una página que muestre todo el contenido o si estás considerando incluir una, consulta esta entrada del blog para obtener más información. Los usuarios suelen preferir las páginas en las que puedan ver todo el contenido, por lo que tratamos de incluir estas páginas en los resultados de las búsquedas en lugar de las páginas de componentes (las páginas de componentes tienen más opciones de aparecer en los resultados si incluyen rel="next" y rel="prev").

Si no dispones de una página que incluya todo el contenido o quieres evitar que Google la muestre, puedes utilizar rel="next" y rel="prev" como se describe en esta entrada.


Para obtener información sobre configuraciones paginadas que incluyan una página que muestre todo el contenido, consulta esta entrada del blog.

Opciones disponibles

Si tienes una serie, dispones de tres opciones:
  1. Deja lo que tienes exactamente como está. Existe contenido paginado por toda La Web y seguiremos intentando ofrecer a los usuarios el mejor resultado, independientemente de si se han incluido o no los elementos de marcado HTML rel="next" y rel="prev".
  2. Si dispones de una página donde se muestra todo el contenido, o si estás considerando incluir una, consulta esta entrada del blog.
  3. Indica a Google la relación entre las URL de los componentes de tu serie con rel="next" y rel="prev". Esto nos ayudará a indexar tu contenido de una forma más precisa y a mostrar a los usuarios la página más relevante (normalmente la primera). A continuación te indicamos de forma detallada cómo implementar estos elementos.
Implementación de rel="next" y rel="prev"

Si optas por la opción 3 para tu sitio, a continuación te explicamos cómo hacerlo. Supongamos que tienes contenido paginado en estas direcciones URL:

http://www.example.com/article?story=abc&page=1
http://www.example.com/article?story=abc&page=2
http://www.example.com/article?story=abc&page=3
http://www.example.com/article?story=abc&page=4

En la primera página, http://www.example.com/article?story=abc&page=1, se incluye la sección <head>:
<link rel="next" href="http://www.example.com/article?story=abc&page=2" />

En la segunda página, http://www.example.com/article?story=abc&page=2:
<link rel="prev" href="http://www.example.com/article?story=abc&page=1" />
<link rel="next" href="http://www.example.com/article?story=abc&page=3" />

En la tercera página, http://www.example.com/article?story=abc&page=3:
<link rel="prev" href="http://www.example.com/article?story=abc&page=2" />
<link rel="next" href="http://www.example.com/article?story=abc&page=4" />

Y en la última página, http://www.example.com/article?story=abc&page=4:
<link rel="prev" href="http://www.example.com/article?story=abc&page=3" />

Varios puntos que hay que mencionar:
  • La primera página solo contiene el elemento de marcado rel="next", no rel="prev".
  • Las páginas comprendidas entre la segunda y la penúltima deben disponer de vinculación doble con rel="next" y rel="prev".
  • La última página solo contiene el elemento de marcado rel="prev", no rel="next".
  • Los valores de rel="next" y rel="prev" pueden ser URL relativas o absolutas (según permita la etiqueta <link>). Y si se incluye un enlace <base> en el documento, las rutas relativas se resolverán según la URL base.
  • Solo es necesario declarar rel="next" y rel="prev" en la sección <head>, no en el documento <body>. Se permite el uso de rel="previous" como variante sintáctica de los enlaces rel="prev".
  • rel="next" y rel="previous" por un lado y rel="canonical" por otro constituyen conceptos independientes.
  • Se pueden incluir ambas declaraciones en la misma página. Por ejemplo, http://www.example.com/article?story=abc&page=2&sessionid=123 puede contener:
<link rel="canonical" href="http://www.example.com/article?story=abc&page=2”/><link rel="prev" href="http://www.example.com/article?story=abc&page=1&sessionid=123" /><link rel="next" href="http://www.example.com/article?story=abc&page=3&sessionid=123" />
  • rel=”prev” y rel=”next” actúan como sugerencias para Google, no como directivas absolutas.
  • Si se implementan de forma incorrecta, por ejemplo, si se omite una designación rel="prev" o rel="next" en la serie, seguiremos indexando las páginas y nos basaremos en nuestra heurística para comprender el contenido.
¿Alguna pregunta?

Si necesitas más información, consulta el Centro de asistencia o únete a la conversación en el Foro de ayuda para webmasters.

Benjia Li y Joachim Kupke, Ingenieros de software del equipo de indexación

miércoles, 21 de diciembre de 2011

Visualización de todo el contenido en los resultados de búsqueda

Gracias a las pruebas que hacemos con los usuarios, hemos detectado que los usuarios que realizan búsquedas prefieren ver todo el contenido en una sola página en lugar de que se muestren páginas de componentes que incluyen únicamente una parte de la información con saltos de página arbitrarios (y que les obligan a hacer clic en "Siguiente" y a cargar otra URL).

Con frecuencia, los usuarios que realizan búsquedas prefieren ver todo el contenido en lugar de que este aparezca paginado con saltos arbitrarios y un mayor tiempo de espera.

Por tanto, para mejorar la experiencia de usuario, nos estamos esforzando por mostrar versiones de una sola página en los resultados de búsqueda cuando detectamos que una serie de contenido (por ejemplo, página-1.html, página-2.html, etc.) también incluye una versión de una sola página (por ejemplo, página-todas.html). Si tu sitio ofrece la posibilidad de ver todo el contenido, no es necesario que hagas nada; nosotros haremos el trabajo por ti. Además, consolidaremos las propiedades de indexación de las páginas de componentes de la serie como, por ejemplo, los enlaces, en la página de visualización de todo el contenido.

No obstante, la visualización de todo el contenido puede ser poco recomendable si el tiempo de espera es elevado

No deja de ser interesante que los usuarios no mostraran preferencia por la página de visualización de todo el contenido si esta conllevaba un mayor tiempo de espera (por ejemplo, páginas de visualización de todo el contenido que tardaran más en cargarse por contener muchas imágenes). Esta situación tiene una razón de ser, ya que los usuarios suelen sentirse menos satisfechos cuando los resultados son lentos [inglés]. Así pues, a pesar de que normalmente se prefieren las páginas de visualización de todo el contenido, es importante que los webmasters hallen el equilibrio entre esta preferencia y el tiempo de carga de la página y la experiencia de usuario en general.

Prácticas recomendadas relacionadas con las series de contenido
1. Si tu sitio incluye páginas de visualización de todo el contenido:
Intentaremos detectar la versión de visualización de todo tu contenido y las páginas de componentes asociadas, si hay alguna disponible. No es necesario que hagas nada más. Sin embargo, puedes incluir etiquetas rel="canonical" que dirijan a la página de visualización de todo el contenido en las páginas de componentes para que resulte más explícito y para que haya más probabilidades de que detectemos la serie de páginas correctamente.


La etiqueta rel="canonical" permite especificar el superconjunto de contenido (es decir, la página de visualización de todo el contenido, en este caso página-todas.html) de la misma información en una serie de URL.

¿En qué se basa su funcionamiento?
Como se ve en el diagrama, se puede especificar que la URL canónica de la page-2.html es page-all.html, ya que esta URL es un superconjunto del contenido de page-2.html. Si un usuario busca un término de consulta y selecciona page-all.html en los resultados de búsqueda, aunque su consulta esté principalmente relacionada con la información de page-2.html, sabemos que el usuario podrá consultar la información relevante de page-2.html en page-all.html.
No obstante, page-1.html no debería ser la URL canónica designada de page-2.html, ya que el contenido de la segunda no está incluido en la primera. La consulta de búsqueda de un usuario puede hacer referencia al contenido incluido en page-2.html, por lo que al seleccionar page-1.html en los resultados de búsqueda, si esta se ha configurado como página canónica de page-2.html, el usuario puede verse obligado a continuar navegando para acceder a la página en la que se encuentra la información deseada. Esta experiencia será negativa para el usuario, ya que el resultado de Google distará de ser óptimo, y es posible que el tráfico de orientación de tu sitio sea mediocre.
Sin embargo, si estás seguro de que no quieres que la página de visualización de todo tu contenido aparezca en los resultados de búsqueda, debes realizar lo siguiente: 1) asegurarte de que las páginas de componentes de la serie no incluyan una etiqueta rel="canonical" que dirija a la página de visualización de todo el contenido y 2) utilizar uno de los métodos habituales para marcar la página de visualización de todo el contenido como "noindex".
2. Si quieres que se muestren páginas de componentes individuales (o si no hay ninguna versión que muestre todo el contenido disponible):
Puede darse el caso de que tu sitio se encuentre en una de las situaciones que se indican a continuación, si no en ambas.
  • No es recomendable que la página de visualización de todo el contenido aparezca en los resultados de búsqueda, debido a que el tiempo de carga es demasiado elevado o a que dificulta la navegación para los usuarios. 
  • Los usuarios de tu sitio prefieren navegar por varias páginas y acceder a una página de componentes a través de los resultados de búsqueda en lugar de ver una página de visualización de todo el contenido.
En tales situaciones, puedes utilizar los elementos HTML rel="next" y rel="prev" estándares para especificar la relación entre las páginas de componentes de la serie de contenido. Si se utilizan correctamente, Google tratará de realizar lo siguiente en la mayoría de los casos:
  • Consolidar las propiedades de indexación (por ejemplo, los enlaces) de las URL o de las páginas de componentes.
  • Dirigir a los usuarios a la página o a la URL de las páginas de componentes que sea más relevante. Por lo general, la primera página del contenido suele ser la más relevante, pero nuestros algoritmos pueden dirigir a los usuarios a una de las páginas de componentes de la serie.
Con frecuencia, los webmasters utilizan la etiqueta rel="canonical" incorrectamente para dirigir a los usuarios que accedan a las páginas de componentes a la primera página de su serie (por ejemplo, incluyen una etiqueta rel="canonical" que dirige a página-1.html en página-2.html). Esta implementación no es recomendable, ya que las páginas de componentes no incluyen contenido duplicado. Lo más adecuado es utilizar las etiquetas rel="next" y rel="prev".

Resumen

Debido a que los usuarios suelen preferir que la opción disponible en los resultados de búsqueda sea la visualización de todo el contenido, nos estamos esforzando por detectar esta versión correctamente para mostrársela a los usuarios que realicen búsquedas. Si tienes una serie de contenido, no es necesario que hagas nada más. Sin embargo, puedes ayudar a que Google muestre mejor tu información a los usuarios realizando lo siguiente:

  1. Para optimizar la página de visualización de todo el contenido, puedes incluir etiquetas rel="canonical" que dirijan a la versión de una sola página en las páginas de componentes.
  2. Si la página de visualización de todo el contenido de tu sitio empeora la experiencia de usuario, puedes utilizar los atributos rel="next" y rel="prev" para ayudar a que Google identifique la serie de páginas y muestre una página de componentes en los resultados.
¿Alguna pregunta?

Como siempre, puedes publicar tu pregunta en el Foro de ayuda para webmasters.

martes, 20 de diciembre de 2011

Vídeos de Matt Cutts: ¿Cómo asegurarte de que Google encuentra tu contenido original?

Aunque este vídeo lleva ya un tiempo en nuestro canal para webmasters de Youtube, siempre es interesante conocer qué podemos hacer para que Google sepa de nuestro contenido original (y además con subtítulos en español).

Kunal Pradhan, el usuario que pregunta a Matt Cutts en este vídeo, plantea la situación de una página que no solo roba contenido, sino que además cambia la marca de tiempo. Sobre esto y algunos detalles más sobre el contenido nos habla Matt en este vídeo.



Transcripción de: "¿Cómo asegurarnos de que Google encuentra mi contenido original?"

La pregunta de hoy es de Kunal Pradhan. Por cierto que soy del oeste de Kentucky, así que disculpadme porque a veces soy terrible para los nombres. La pregunta es: "Google rastrea el sitio A cada hora y el sitio B una vez al día. El sitio B escribe un artículo y el sitio A lo copia, y cambia la marca de tiempo. Googlebot rastrea primero el sitio A. A los ojos de Google, ¿cuál es el contenido original y por tanto merecerá la mejor clasificación? Y si es A, entonces, ¿es eso justo para el sitio B?"


Podría hablarte de un montón de detalles interesantes sobre cómo se rastrea la Web. Si realmente quieres ver cómo es una señal, la frecuencia de Nyquist te indica que debes muestrearla por lo menos al doble de esa frecuencia. Pero la realidad es que siempre puedes cambiar una página web. Así que la idea completa, el concepto de poder rastrear toda la Web y disponer de una copia perfecta en cada instante, tiene sus inconvenientes, porque en un momento dado solo podemos ir y recoger un número finito y determinado de páginas. Si intentásemos recuperarlas todas, y nuestra arquitectura casi sería capaz de ello, entonces acabaríamos por bloquearlo todo debido a todas esas peticiones. Así que intentamos rastrear de una forma bastante respetuosa.


También intentamos priorizar, basándonos en cosas como la clasificación de una página en particular, o si un sitio tiene un PageRank muy alto. Así que la pregunta es, esencialmente, si A se rastrea a menudo pero el artículo original viene de B, ¿qué pasa si A está robando el contenido de B?


Bien: siempre hay formas de ayudarte a protegerte contra esto. Por ejemplo, si envías un Tweet, la gente puede verlo, enlazar a él, y nosotros podemos seguir esos enlaces más de prisa, antes de descubrir el contenido en el otro sitio. Otra cosa que puedes hacer es usar cosas como Pub SubHubbub, que a su vez hace ping en distintos lugares.


En muy pocos casos usamos Pub SubHubbub para ayudarnos a mejorar el rastreo, y esto puede cambiar con el tiempo. Es una forma excelente de, en algún modo, decir, de forma asíncrona: hola, aquí hay un nuevo artículo, o una nueva entrada en un post. Pero sigamos y veamos qué pasaría en este escenario hipotético. Si A ha copiado tu artículo y ha cambiado la marca de tiempo, esto es un poco fraudulento, como si dijesen que lo han escrito ellos.


En este caso, puedes hacer un par de cosas. En primer lugar, si eres el autor del artículo, siempre puedes hacer lo que se conoce como aviso de Digital Millennium Copyright Act, en que envías esta solicitud de DMCA, y puedes encontrar la información correspondiente en http://www.google.es/dmca.html. Con esto, básicamente dices que este sitio ha copiado tu contenido, pero tú eres el autor original. Este sitio puede enviar una contranotificación, lo cual significa que rechazan tal afirmación. Dicen que ellos escribieron esa página, lo cual acarrearía penalizaciones en caso de que mintiesen. O bien, pueden no discutir esa afirmación y quitar ese contenido de su sitio. Así que, si alguien te está robando el contenido, siempre puedes realizar un aviso DMCA.


También puedes, si se trata de un sitio generado automáticamente, y están robando el contenido de varias personas, hacer un informe de spam, puesto que eso no sería un sitio de alta calidad. No es el tipo de cosas que queremos en nuestro índice. Pero aclaremos el caso que nos ocupa. En teoría, es posible que encontremos un artículo en un sitio antes de encontrarlo en el otro. Así que realmente se da el caso de tener problemas para determinar quién es el creador original de una parte de contenido en particular, pero no podemos decir que somos perfectos. Hacemos todo lo que se nos ocurre para tratar de averiguar de qué modo puede indicarnos la gente que es autora de cierto contenido. De hecho, en Google News hemos introducido un par de etiquetas nuevas, casi como un experimento para ver qué tal funcionan, para indicarnos: aquí está el autor original de este contenido.


Éstas son las aproximaciones que exploramos intentando encontrar otras fórmulas para conseguirlo. Por lo menos hasta el momento, en teoría, es posible tener un artículo. En la práctica, no pasa a menudo, y existen formas de soslayarlo o de realizar alguna acción, desde una petición DMCA hasta un informe de spam. Esperamos que esto te sirva de ayuda.


viernes, 9 de diciembre de 2011