Los 8 buscadores de Internet que tienen autorización para rastrear Facebook

22 de mayo de 2014 Diana Cañon

Da la impresión de que aquellas palabras que el CEO de Facebook pronunciara hace unos años afirmando que “la privacidad ha muerto” sólo es válido si la privacidad muere en Facebook; si alguno de nosotros quisiéramos rastrear de forma automatizada todo o parte de Facebook (como lo haría un buscador de Internet) nos encontramos con una prohibición expresa: solo podremos rastrear la red social si conseguimos su consentimiento expreso y por escrito.

Me ha parecido curiosa la advertencia de Facebook en su fichero robots.txt: “Rastrear Facebook está prohibido a menos que tengas nuestro consentimiento expreso por escrito“; a continuación, nos enlaza a una web con las condiciones que deberemos respetar para poder rastrear, utilizar robots, arañas o en definitiva automatizar la obtención de información de las páginas de Facebook, siempre previo consentimiento por escrito de la propia Facebook.

Si aceptamos estas condiciones podremos acceder al formulario para solicitar la mencionada autorización de Facebook; en este formulario, no solo tendremos que indicar qué direcciones IPs utilizaremos para el rastreo, la finalidad, así como nuestros datos personales identificativos, sino también cuántas páginas tenemos previsto rastrear al día, entre otros detalles técnicos.

Que me conste, es la única página del mundo que exige un consentimiento previo y por escrito para ser rastreada; no hablamos de evitar que cualquier robot pueda rastrear su contenido, de estas hay muchas, sino de que si quieres rastrearme, pídeme permiso primero y ya veremos si te lo concedo.

Bajo mi punto de vista esto refleja realmente la personalidad de Facebook: no es que quieran que compartas información en Internet, sino que quieren que la compartas en su plataforma, y si alguien quiere rastrearla para, por ejemplo, indexar su contenido como lo haría Google, Yahoo o Bing, te van a exigir que pidas permiso primero.

Hasta ahora, solo 9 robots han conseguido la autorización de Facebook para rastrear su contenido, son:

BaiduSpider = El robot del buscador Chino Baidu.
Googlebot = El robot de Google
MsnBot = El predecesor del bot del buscador de Microsoft Bing; en la actualidad msnbot está en desuso.
Naverbot y Yeti = El robot del buscador de Corea del Sur de nombre Naver.
Seznambot = El robot del buscador de la República Checa de nombre Seznam
Slurp = El robot del buscador Yahoo
Teoma = Evolucionado, es el actual robot del buscador Ask
Yandex = El robot del buscador ruso Yandex.
ia_archiver = Es el bot de Alexa, pero solo tiene autorización para indexar páginas relativas a las políticas de Facebook.

El resto de buscadores/robots/spiders tienen denegado el rastreo de Facebook según indica las dos últimas líneas del fichero robots.txt de Facebook.

Ahora bien, ¿qué pasa si quiero rastrear Facebook y no tengo su consentimiento?

Pues que puedes hacerlo; Facebook no está estableciendo ninguna medida técnica para evitar el rastreo y mucho menos la indexación de su portal, ya que las instrucciones que puedan figurar en un fichero robots.txt no dejan de ser unas meras recomendaciones para los robots/spiders de la web, no existiendo normativa que imponga una obligación de respetar estas instrucciones; sería una cuestión más bien moral o ética la de respetar este estándar de exclusión. Otra cosa es el uso que se pudiera hacer de la información obtenida de forma masiva y automatizada de la red social, pero eso es otra cuestión.

De hecho, existen otros buscadores que, no habiendo obtenido el consentimiento de Facebook, rastrean e indexan su contenido; por ejemplo Lycos/Hotbot o Looksmart (hasta donde han llegado mis investigaciones, estos buscadores utilizan spiders propios que no habrían obtenido la autorización de Facebook para el rastreo de su web, pero que sin embargo sí lo hacen).