Clustering en la minería Web de uso
En el ámbito de la
Web podemos decir que se han hecho diversos estudios orientados principalmente
a realizar agrupamientos por contenido. Por ejemplo, cuando hacemos búsquedas
sobre algún tema lo hacemos con algún buscador de internet. Estos sistemas de
búsqueda por temas son denominados motores de búsqueda, los cuales indexan
(registran ordenadamente) archivos almacenados en los servidores Web, de los
cuales podemos citar al sistema Grooker.
Grooker es un sistema de búsqueda que permite realizar búsquedas en la base de datos de Yahoo!, en la tienda de libros Amazon y en Librería Digital ACM. Los resultados se agrupan por similitud de contenidos y también se pueden presentar de forma gráfica, en forma de esferas (clusters) agrupando temáticas.
En el caso de la Minería
Web de Uso, los elementos a agrupar pueden ser las páginas Web y las sesiones
de usuarios, con el objetivo de poder realizar un estudio o análisis
demográfico.
Introducción al clustering
Las técnicas de
clustering son técnicas de clasificación no supervisadas de patrones
(observaciones, datos) en grupos o clusters. Estas técnicas han sido utilizadas
en diversas disciplinas y aplicadas en diferentes contextos, lo cual refleja
una gran utilidad en el análisis experimental de datos.
De forma general, se
puede definir al clustering como el proceso de clasificación no supervisada de
objetos.
Clustering vs clasificación
Primero, es importante distinguir entre agrupamientos o clasificaciones no
supervisadas y discriminante o
clasificación supervisada. En el primer caso no se tiene ninguna
información relacionada con la organización de los ítems en los grupos o clases
y el objetivo es encontrar dicha organización en base a la proximidad entre
ítems. Casi no existe información previa acerca de la estructura, y la
interpretación de las clases o grupos obtenidos es realizada posteriormente por
el analista. En el segundo se posee información de que clase pertenece cada
ítem y lo que se desea es determinar cuáles son los factores que intervienen en
la definición de las clases y que valores de los mismos determinan estas.
Un ejemplo claro de agrupamiento sería la búsqueda de
grupos de clientes de una entidad bancaria utilizando para ellos los datos de
la cuenta corriente: edad, dirección, nivel de renta, etc. Y un ejemplo de
clasificación seria encontrar los elementos que determinan la aparición de
cáncer de pulmón analizando datos de edad, calidad de vida, nivel económico,
etc., tanto de personas enfermas como sanas.
Segundo, podemos decir que la tarea de clasificar o
clasificar objetos en categorías es una de las actividades más comunes y
primitivas del Hombre y viene siendo identificada en función de grandes
volúmenes de información en diversas áreas.
Intuitivamente, dos ítems o variables pertenecientes a
un grupo valido deben ser más parecidos entre si que aquellos que estén en
grupos distintos, y partiendo de esta idea se desarrollan las técnicas de
agrupamiento. Estas técnicas dependen claramente del tipo de dato que se esté
analizando, de que medidas de semejanzas se estén utilizando y de qué clase de
problema se esté resolviendo.
En un sentido más concreto, el objetivo es reunir un
conjunto de objetos en clases tales que el grado de asociación natural para
cada individuo es alto con los miembros de su misma clase y bajo con los
miembros de otras clases.
Modelo general del
clustering
El problema del clustering puede ser tratado de dos
diferentes enfoques, entre ellas, está el convencional crisp, donde cada objeto clave es clasificado única y totalmente en
una determinada categoría o grupo, y el enfoque difuso que es más flexible, donde cada objeto puede pertenecer a
varias categorías o grupos con diferentes grados de asociación.
Aplicaciones del
clustering en la minería web de uso
Dentro del área de la Minería Web de Uso podemos
encontrar diversos estudios relacionados principalmente en agrupamientos por
contenido, siendo este una de las principales áreas donde se utiliza el
clustering en la Web. Por ejemplo podemos nombrar algunos buscadores que
utilizan esta técnica para realizar agrupamiento clustering por contenido como
Vivisimo, Grokker, Clusty, iBoogie.
Con esto podemos decir que existen diferentes sistemas
que se preocupan de saber cuáles son las características del usuario
relacionado principalmente en el contenido que el usuario visita o los temas
que se relacionan con su navegación.
Por esta razón surge una necesidad, la necesidad de
agrupar las páginas de los usuarios para
saber cuáles son las páginas más representativas, también un segundo enfoque
relacionado con las sesiones de usuario, ya que a partir de esta
agrupación podemos identificar grupos de
usuarios con ciertas características, preferencias y/o intereses en su
navegación, lo cual nos permitirá realizar un estudio demográfico y también
obtener diferentes perfiles que representen a los conjuntos de las
características de los usuarios. Realizando estas agrupaciones podemos de
alguna manera entregar una mejor información al usuario durante su navegación.
No hay comentarios.:
Publicar un comentario