viernes, 27 de septiembre de 2013

El Mito de Tántalo en la Sociedad de la Información (II)

En el último artículo comentamos que había una serie de intentos (no excluyentes) de solución al problema de la sobrecarga informativa, y analizamos el primero de ellos:
  • Relacionados con el modo en el que se presenta la información.
  • Dando a los usuarios del sistema herramientas para canalizar la información de interés hacia otros usuarios.
  • Construyendo métodos automáticos de filtrado de la información.
Hoy vamos a continuar con el segundo.
Dando a los usuarios del sistema herramientas para canalizar la información
Antes de la web 2.0, existían algunas herramientas que conectaban a los usuarios con aficiones o gustos similares: lo grupos de discusión (usenet, yahoo groups, google groups…). Lo fascinante de la idea de grupo es que permitían conectar a personas que no se conocían en el mundo real pero que tenían mucho en común a nivel intelectual.
Con el nacimiento de la web 2.0 esta vertiente social se plasma en un conjunto de ideas, y generan un fenómeno conocido como crowdsourcing, algo así como el “poder de la multitud”. Estas ideas son el desarrollo colaborativo de contenidos (cuyo mejor ejemplo es la wikipedia), la valoración de ítems asignando un número, un “me gusta” o un número de estrellas, y los comentarios. Surgen multitud de iniciativas a partir del año 2000 que vinculan comunidades de usuarios en torno a ciertos temas: cine, cultura, turismo, literatura…
Al final alguien cae en la cuenta de que también existen las comunidades de gente “que se conoce”, y aparecen las redes sociales. Sin embargo, desde el punto de vista del descubrimiento y filtrado de la información las redes sociales son mucho menos importantes. ¿Veríais cualquier película que os recomendara un amigo? Depende del amigo, ¿verdad?
El camino de la web social como herramienta de difusión cultural e intelectual no está ni mucho menos agotado. La aparición reciente de Google+ demuestra además que es posible mantener redes “intelectuales” junto con redes “de amistad”, uno de los grandes handicaps de Facebook, por un lado, y del uso que se le estaba dando a Twitter, por otro. Ya veremos a dónde llega.
Construyendo métodos automáticos para canalizar la información
Vamos a hablar de otro viejo conocido por todos los usuarios, los motores de búsqueda, y dejaremos algunos otros sistemas para un próximo artículo que cerrará esta “miniserie tantálica”.
Los motores de búsqueda nacen en los albores de la Web cuando sus primeros usuarios se dan cuenta de la dificultad de localizar contenidos (¡y hablamos sólo de unos pocos miles de páginas en un centenar de servidores universitarios!). Seguir enlaces no es escalable. Uno puede moverse dentro de un entorno local pero se vio que hacían falta herramientas más potentes para buscar información.
En 1993 se crean los primeros motores de búsqueda, cuyo modo de funcionamiento era similar al de los buscadores actuales:
  • Los webmasters registran sus dominios en el buscador.
  • Un robot parte de esos dominios y los añade a un índice, obteniendo además los enlaces que aparecen en esos documentos y continuando el proceso con las páginas a las que apuntan esos enlaces, y así sucesivamente, hasta un cierto nivel de profundidad.
  • Para cada página, se crea una entrada en un fichero invertido (índice), en el que para cada término posible (podemos entender aquí para cada palabra, aunque no tiene por qué ser estrictamente así) se asocian todos los (miles o millones de) enlaces a páginas web que contienen ese término.
  • Cuando el usuario busca un término, el sistema lo localiza en el índice y devuelve la lista de enlaces a páginas que contienen ese término. También existen métodos algorítmicos para el caso de que se busquen varios términos o frases entrecomilladas (no entraremos en detalles).
A lo largo de la historia, se ha demostrado que un asunto clave a la hora de devolver esta lista de enlaces es el orden que demos a los mismos. Es fundamental disponer de algún criterio para colocar en primer lugar aquellos enlaces que son de más calidad.
El criterio usado para determinar esta calidad ha variado en la breve historia de los buscadores, y podemos asegurar que esa fue exactamente la clave del éxito de Google frente a los buscadores anteriores (Altavista dominaba el mercado en esa época).
El éxito de Google parte de una idea de un proyecto anterior, que fue el proyecto Clever de IBM (empresa que decidió no explotar los resultados de esta investigación ¡! ), y que a su vez no es más que la aplicación de un viejo concepto utilizado en la comunidad científica desde hace muchísimos años: un artículo es más importante cuanto más veces haya sido referenciado en otros artículos posteriores. Pero ¿qué es una referencia en la web? De cajón, ¿no? Los chicos del proyecto Clever pensaron: una referencia es un link, un enlace a otro documento.
A partir de ahí el proceso, aunque algo matemático (no voy a describirlo aquí) es más o menos sencillo: se trata de computar la influencia que cada página tiene en las demás en un proceso iterativo que converge a un valor concreto para cada sitio web. Eso es el famoso PageRank.
En el próximo artículo continuaremos analizando otros métodos.
Publicado originariamente en Computación creativa y otros sueños (Libro de Notas) el 25/7/2011.