Cálculo del ranking de página de Google, el PageRank | el holgazán

viernes 20 de julio de 2007

Cálculo del ranking de página de Google, el PageRank

Como se expone en el artículo Cómo aparecer entre los primeros en Google, uno de los motivos para aparecer bien posicionado en las búsquedas es el ranking que tengan asignado las páginas de la web.

En realidad nadie sabe con exactitud cómo realiza Google el cálculo, pero sí que se tienen bastantes ideas acerca de ello. Aunque hay que hacer notar que son más conjeturas que verdadero conocimiento.

Ecuación del PageRank

La ecuación que decían originalmente los creadores de Google para el cálculo de PageRank es (ver The Anatomy of a Large-Scale Hypertextual Web Search Engine):

PR(A) = (1-d) + d(PR(t1)/C(t1) + ... + PR(tn)/C(tn))

donde:

PR(A) es el PageRank de una página cualquiera A
PR(t1) ... PR(tn) es el PageRank de las páginas t1...tn, que tienen algún enlace hacia A
C(t1) ... C(tn) es el número de páginas con las que enlazan las páginas t1...tn que tienen el enlace hacia A
d es un factor de amortiguación, que dicen que vale 0,85

La forma de interpretar esto es:

Cada página tiene un PageRank que le viene dado por el número de páginas que enlazan con ella, por el PageRank de estas páginas y por el número de páginas con las que enlaza cada una de ellas.

Es "como si" cada página de la web pudiera votar por el resto de páginas, donde el peso de la votación es el propio PageRank distribuido en las páginas a las que vota, todo ello amortiguado por un factor que vale 0,85. Y estos votos son los enlaces.

Ya sabemos que, evidentemente, no se tienen en cuenta los sitios web que estén penalizados. Y que todo esto vale sólo para las páginas conocidas por Google.

PageRank mostrado en la barra de Google

Hay que hacer notar que el PageRank que muestra la barra de Google es simplemente una etiqueta, de 1 a 10, que nos da una idea del verdadero ranking de la página. Pero esta transformación no es lineal, se dice que es logarítmica, con una base que está actualmente sobre 5 ó 6.

Así pues, cuanto más aumenta el PageRank mostrado por la barra de Google, más difícil será poder aumentarlo otra vez, pues requerirá que se aumente mucho más su PageRank verdadero.

Este es también el motivo por el que es mejor que nos enlacen desde una página con PageRank alto (según la barra de Google), aunque esta página tenga muchos enlaces, que desde una con uno más bajo, aunque tenga menos enlaces de salida.

Si tuviéramos un logaritmo de base siete, la relación entre el PageRank mostrado por la barra de Google y el real sería:

Barra   PageRank Real
0 0 - 3
1 3 - 19
2 19 - 130
3 130 - 907
4 907 - 6351
5 6351 - 44458
6 44458 - 311209
7 311209 - 2178466
8 2178466 - 15249262
9 15249262 - 106765607
10 > 106765607

Hay que tener en cuenta que la barra de Google muestra a veces un PageRank irreal para páginas que aún no ha indexado, por similitud con el sitio. Esto puede resultar engañoso.

Método de cálculo

La forma en que Google calcula este número es realizando cierto número de iteraciones.

El proceso total viene durando unos 4 días y se realiza una vez al mes aproximadamente. Es lo que se llama la "Google dance".

Conclusiones útiles

  • Sin tener en cuenta los enlaces que pueden apuntar a las páginas de nuestro sitio web, se puede demostrar que la máxima cantidad de PageRank que podemos alcanzar es N, el número de páginas del sitio. Así pues, es importante tener cuanto más páginas mejor (sin llegar a realizar ninguna práctica que pueda penalizarnos).
  • Al añadir una página nueva, aunque aumentará el PageRank total de nuestro sitio, puede ser que alguna página se vea desfavorecida. Esto puede notarse sobre todo en sitios pequeños.
  • Debemos distribuir bien los enlaces entre nuestras páginas para alcanzar dicho PageRank máximo que se tiene sin tener en cuenta enlaces desde el exterior.
  • Por otro lado, nos interesa que dicha distribución sea tal que se vean favorecidas las páginas que sean más ricas en palabras clave: portada, índices, artículos de especial interés, etc.
  • El efecto de los enlaces de salida que tengamos es difícil de predecir en principio y, aunque no nos haga perder PageRank propiamente dicho, sí que puede hacer que no lo aprovechemos bien.
  • Lo que sí está claro es que, desde este punto de vista, no conviene enlazar con páginas externas que después no nos devuelvan un enlace de alguna manera. De todas formas, siempre se podría realizar algún truco para que estos enlaces, con JavaScript por ejemplo, no sean considerados en el cálculo. Incluso un enlace recíproco puede hacer que no aprovechemos bien el PageRank en nuestro sitio web.
  • Lo que nos importa de los enlaces entrantes es: el número de páginas que tienen un enlace hacia nosotros, el PageRank de dichas páginas y los enlaces de salida que tiene cada una de ellas.
  • Cuando se recibe un enlace desde fuera, la página que lo recibe es la que se ve más beneficiada, pero nunca nos hará perder.
  • Ya se ha dicho que es mejor que nos enlacen desde una página con PageRank alto (según la barra de Google), aunque esta página tenga muchos enlaces, que desde una con uno más bajo, aunque tenga menos enlaces de salida.
  • El hecho de que en Internet esté continuamente creciendo el número de páginas, nos afecta en el sentido de que si nuestro sitio no crece el PageRank que tenemos se verá desfavorecido comparativamente. De hecho se notará en el número que nos muestra la barra de Google.


2 comentarios

Charly dijo...

Hace tiempo que nos bajaron el PR de 4 a 3, seguimos ampliando la pagina y seguimos con PR 3.

¿Alguna idea?

Saludos

el holgazán dijo...

Sólo veo varias opciones:

- O ha disminuido el número de enlaces que os apuntan (cosa poco probable).

- O es el propio efecto de que Internet cada vez tiene más páginas (poco probable también, ya que seguís creciendo).

- O habeis perdido algún enlace "potente".

- O bien teneis menos enlaces útiles, por ejemplo porque los hayan transformado en "rel=nofollow". Ya sabes que puede ocurrir si teneis enlaces en muchos foros, comentarios de blogs, wikipedia... , es decir, enlaces "tipo SPAM" que hayan introducido esta medida "disuasoria" (como blogger!)...