viernes, 27 de septiembre de 2013

El mito de Tántalo en la sociedad de la información (III)


Para terminar con esta seríe, comentaremos algunos métodos de filtrado de la información al margen de los motores de búsqueda: los webbots, el filtrado bayesiano y el filtrado colaborativo.
Webbots
El verdadero potencial de la Web está subexplotado si accedemos a ella desde un navegador. Este es un uso “manual” de la red. Sería el equivalente a ir de una ciudad a otra a pie: es un trabajo lento y costoso. Los webbots, softbots, spiders, crawlers o como queramos llamarlos, nacen para automatizar ciertas tareas, y por tanto multiplican la capacidad para obtener información y potencialmente alivian al usuario de hacer el trabajo por sí mismo.
Por dar un ejemplo, imaginemos que una persona lee todos los días el Boletín Oficial del Estado para ver si se publica una convocatoria de oposiciones. Podemos programar un webbot para que recupere el BOE y lo analice por sí mismo, buscando cierta cadena de texto o cierto patrón.
Esto puede hacerse porque, en su momento, Tim Bernenrs Lee y colegas pensaron en una arquitectura de la Web abierta, en la que el suministro de información es independiente del programa (agente) con el que se accede, de tal modo que no es obligatorio hacerlo con un navegador.
La verdadera potencia de los Webbots surge del hecho de que podemos combinarlos. Por ejemplo, podemos recuperar todas las películas que emiten hoy en la televisión y, extrayendo el nombre y el año, buscar en una web de cine, como imdb o filmaffinity, para obtener la nota media de esa película. Finalmente, podemos filtrarlas para enviar al usuario sólo las que superen cierta nota, número de votos o porque en ellas aparezca determinado actor.
Filtrado bayesiano
El teorema de Bayes nos da herramientas para que, dados una serie de ejemplos positivos y una serie de ejemplos negativos, podamos en el futuro calcular qué propiedades tiene un fragmento de información (en en problema que nos ocupa) de ser positivo o negativo.
Pongamos un ejemplo con el spam, aunque puede utilizarse también para predecir ítems que nos puedan interesar, etc. Supongamos que tenemos ejemplos de correos que son spam (porque el usuario los ha marcado como tales) y de otros que no lo son.
Los correos contienen palabras, así que con nuestro “conjunto de entrenamiento” podemos determinar fácilmente la probabilidad que tiene una palabra de aparecer en un mensaje de spam, dividiendo el número de veces que la palabra apareció en un mensaje considerado spam entre el número total mensajes en que apareció palabra.
Bayes nos proporciona la herramienta básica para “darle la vuelta a la tortilla”, y calcular la probabilidad que tiene un mensaje de ser spam combinando las probabilidades de aparición de cada una de sus palabras en mensajes spam (calculada según el párrafo anterior).
De este modo tenemos una interesante herramienta, que además se adapta a cada usuario (porque depende de los que cada usuario etiquete como spam), para filtrar información que le pueda interesar.
Filtrado colaborativo
Pero, ¿qué pasa cuando no hay información de texto en los ítems? Podemos recomendar (filtrar) cosas que no pueden describirse con palabras, o en los que las palabras que los describen no son suficientes para captar la esencia del motivo por el que nos gusta?
Tenemos otra herramienta para estos casos: el filtrado colaborativo.
En este caso, se trata de encontrar personas registradas en el sistema que tienen gustos similares a los nuestros. ¿Cómo? En este tipo de sistemas, cada usuario valora una serie de ítems asignándoles una puntuación, por ejemplo las famosas “estrellas” que pululan por la Web.
Con estas valoraciones, el sistema puede calcular qué usuarios son los más parecidos a uno dado, simplemente realizando alguna operación con los votos, por ejemplo que la diferencia entre ellos sea lo más baja posible.
La web filmaffinity.com, que aplica filtrado colaborativo al caso del cine, denomina a estos usuarios parecidos con el apodo, muy bien elegido, de “almas gemelas”.
Una vez tenemos las almas gemelas de un usuario, si queremos recomendar películas basta buscar películas que no haya visto y que sus almas gemelas hayan valorado bien.
Epílogo
Hasta aquí llegó esta seríe de tres artículos dedicados al problema de la sobrecarga informativa y modos de aliviarla, que, sin la pretensión de haber agotado el tema, han querido hacer ver que, al menos, hay vías de escape al problema. Y es que en muchos casos, los males generados por la tecnología pueden ser aliviados por la tecnología misma.
Ya saben, la tecnología no es un bien ni un mal en sí misma, tan sólo es una potente herramienta; el buen o mal uso depende del humano que la utiliza.
Publicado originariamente en Computación creativa y otros sueños (Libro de Notas) el 25/9/2011.