Clustering en la minería Web de uso

En el ámbito de la Web podemos decir que se han hecho diversos estudios orientados principalmente a realizar agrupamientos por contenido. Por ejemplo, cuando hacemos búsquedas sobre algún tema lo hacemos con algún buscador de internet. Estos sistemas de búsqueda por temas son denominados motores de búsqueda, los cuales indexan (registran ordenadamente) archivos almacenados en los servidores Web, de los cuales podemos citar al sistema Grooker.

Grooker es un sistema de búsqueda que permite realizar búsquedas en la base de datos de Yahoo!, en la tienda de libros Amazon y en Librería Digital ACM. Los resultados se agrupan por similitud de contenidos y también se pueden presentar de forma gráfica, en forma de esferas (clusters) agrupando temáticas.
En el caso de la Minería Web de Uso, los elementos a agrupar pueden ser las páginas Web y las sesiones de usuarios, con el objetivo de poder realizar un estudio o análisis demográfico.

Introducción al clustering
Las técnicas de clustering son técnicas de clasificación no supervisadas de patrones (observaciones, datos) en grupos o clusters. Estas técnicas han sido utilizadas en diversas disciplinas y aplicadas en diferentes contextos, lo cual refleja una gran utilidad en el análisis experimental de datos.
De forma general, se puede definir al clustering como el proceso de clasificación no supervisada de objetos.

Clustering vs clasificación
Primero, es importante distinguir entre agrupamientos o clasificaciones no supervisadas y discriminante o clasificación supervisada. En el primer caso no se tiene ninguna información relacionada con la organización de los ítems en los grupos o clases y el objetivo es encontrar dicha organización en base a la proximidad entre ítems. Casi no existe información previa acerca de la estructura, y la interpretación de las clases o grupos obtenidos es realizada posteriormente por el analista. En el segundo se posee información de que clase pertenece cada ítem y lo que se desea es determinar cuáles son los factores que intervienen en la definición de las clases y que valores de los mismos determinan estas.
Un ejemplo claro de agrupamiento sería la búsqueda de grupos de clientes de una entidad bancaria utilizando para ellos los datos de la cuenta corriente: edad, dirección, nivel de renta, etc. Y un ejemplo de clasificación seria encontrar los elementos que determinan la aparición de cáncer de pulmón analizando datos de edad, calidad de vida, nivel económico, etc., tanto de personas enfermas como sanas.
Segundo, podemos decir que la tarea de clasificar o clasificar objetos en categorías es una de las actividades más comunes y primitivas del Hombre y viene siendo identificada en función de grandes volúmenes de información en diversas áreas.
Intuitivamente, dos ítems o variables pertenecientes a un grupo valido deben ser más parecidos entre si que aquellos que estén en grupos distintos, y partiendo de esta idea se desarrollan las técnicas de agrupamiento. Estas técnicas dependen claramente del tipo de dato que se esté analizando, de que medidas de semejanzas se estén utilizando y de qué clase de problema se esté resolviendo.
En un sentido más concreto, el objetivo es reunir un conjunto de objetos en clases tales que el grado de asociación natural para cada individuo es alto con los miembros de su misma clase y bajo con los miembros de otras clases.

Modelo general del clustering
El problema del clustering puede ser tratado de dos diferentes enfoques, entre ellas, está el convencional crisp, donde cada objeto clave es clasificado única y totalmente en una determinada categoría o grupo, y el enfoque difuso que es más flexible, donde cada objeto puede pertenecer a varias categorías o grupos con diferentes grados de asociación.

Aplicaciones del clustering en la minería web de uso
Dentro del área de la Minería Web de Uso podemos encontrar diversos estudios relacionados principalmente en agrupamientos por contenido, siendo este una de las principales áreas donde se utiliza el clustering en la Web. Por ejemplo podemos nombrar algunos buscadores que utilizan esta técnica para realizar agrupamiento clustering por contenido como Vivisimo, Grokker, Clusty, iBoogie.
Con esto podemos decir que existen diferentes sistemas que se preocupan de saber cuáles son las características del usuario relacionado principalmente en el contenido que el usuario visita o los temas que se relacionan con su navegación.
Por esta razón surge una necesidad, la necesidad de agrupar  las páginas de los usuarios para saber cuáles son las páginas más representativas, también un segundo enfoque relacionado con las sesiones de usuario, ya que a partir de esta agrupación  podemos identificar grupos de usuarios con ciertas características, preferencias y/o intereses en su navegación, lo cual nos permitirá realizar un estudio demográfico y también obtener diferentes perfiles que representen a los conjuntos de las características de los usuarios. Realizando estas agrupaciones podemos de alguna manera entregar una mejor información al usuario durante su navegación.

No hay comentarios.:

Publicar un comentario