Una de las técnicas mas utilizadas en la minería web es el clustering (la técnica fue aplicada sobre las sesiones de usuarios obtenidas en el pre procedimiento .
Otro estudio de
clustering es el que propone una metodología dimensionable de clustering inspirada
en el sistema inmunológico natural con el poder de aprender continuamente y
adaptarse a patrones entrantes nuevos . los mecanismos inteligentes de búsqueda
son cruciales en la minería web por la naturaleza combinatoria grande de optimización
de muchos problemas .un sistema inmunológico artificial es como un ser humano
donde : el servidor web juega el papel de “cuerpo humano” y las demandas múltiples entrantes desempeñan
el papel de virus/antígeno/bacteria que necesitan ser detectados por la técnica
de clustering
Ejemplos de minería web : webminer y websift
El sistema webminer ,
divide el proceso de minería web de uso en: entrada de datos , pre procedimiento , descubrimiento
de conocimiento y análisis de patrones .
la entrada de los datos proviene de servidores log (acceso , referencias y
agentes) , de los archivos HTML que forman el sitio y algunos datos opcionales
como puede ser registros o log de agentes remotos.
Partes del proceso :
Pre procedimiento:
incluye la limpieza de datos , identificación
de usuarios y sesiones y terminación de caminos
todo esto se realiza con el objetivo de crear un archivo de sección de
usuario
La identificación
de transacciones :
Es la tarea de
identificar semánticamente los grupos
significativos de referencias de las paginas .por ejemplo: en el caso de la
canasta de supermercado , la transacción es definida por todo los ítems
adquiridos por un consumidor o cliente en el tiempo
La etapa descubrimiento
del conocimiento usa técnicas existentes en la minería de datos las cuales
generan patrones y reglas .
El sistema websift es
diseñado para ejecutarse en el área de minería web de uso para archivos log con
formato NSCA(que incluye campos de referencia y agentes) .como el sistema esta
basado en el sistema webminer , poseen una estructura muy similar o sea el
primer receso es el pre procedimiento orientado principalmente al contenido y
estructura , donde se limpian los datos se identifican secciones y usuarios ,
por ultimo , por ultimo se completan los caminos .permiten convertir las
secciones en episodios , los episodios son cualquier subconjunto de todas las
paginas web contenidas en las secciones del servidor o todas las paginas de
navegación .
Modelo de datos
Para el análisis de la
información es necesario un modelo de datos. para conocer las acciones que
realiza un usuario en la web es necesario analizar los archivos en la web o
archivos log , los cuales están almacenados en archivos web .
Reprocesamiento:
Esta etapa consiste en
eliminar en una primera parte los elementos ruidosos que podemos encontrar en
los log , dentro de los electos ruidosos podemos mencionar las
imágenes,javascript.
También se puede
realizar una identificación de entrada y así saber cuales son las entradas
reales que el usuario va registrando durante su navegación y así dar una
estructura al archivo para poder analizarlo.
Identificación de
secciones de usuario
Hay varias formas de
identificar las visitas individuales a un sitio web . la solución mas sencilla
es dar por supuesto que cada dirección IP representa a una persona , no obstante esto no es muy preciso por ejemplo : una visita puede ganar acceso
de distintas computadoras , o muchos usuarios pueden tener la misma dirección
IP(si es usado Proxy).otra suposición que se podría hacer es que cada acceso
realizado del mismo host durante un cierto intervalo de tiempo podría provenir
de un mismo usuario , un enfoque mas preciso en la identificación de un usuario
, son las conocidas como cookies o
simplemente la inscripción que realiza el usuario en el sitio web .
Método de timeout:
Una vez que se tiene
el usuario identificado , el siguiente paso es realizar las identificaciones de
las secciones, dividiendo cada transacción o click de cada usuario en secciones
. la solución más usual en el caso es ajustar un intervalo de tiempo y dar por
hecho que los accesos consecutivos dentro de ella forman parte de la misma sección
, o ajustar un intervalo de tiempo máximo , donde las entradas o accesos
consecutivos que excedan forma parte de secciones diferentes .este modelo para
identificar secciones de usuarios es conocido `por el nombre timeout o
intervalo de espera .
Referente length:
El cual asume que la
cantidad de tiempo que un usuario gasta en una pagina esta correlacionada en el
sentido que si la pagina es “auxiliar” o “de contenido” para ese usuario .una vez que las paginas estén
clasificadas a través de un calculo de estimación entre paginas auxiliares y de
contenido basadas en el histograma , una sección es detectada cuando una pagina
de contenido es encontrada .el problema de este método es que solo una pagina
de contenido es incluida en cada sección esto no es lo mas optimo , ya que el
usuario puede mirar mas de una pagina de contenido.
Estos métodos son los
mas utilizados pero existen muchos mas.
Minería web de usos
y reglas de asociación difusa: análisis de patrones de navegación
El objetivo principal
de esto es poder determinar patrones de navegación del usuario y así conocer su
comportamiento por la web .
Minería web y
lógica difusa
Toda la información
que se genera se almacena en bases de datos ,en documentos en simplemente en la
web puede tener características difícil de procesar desde el punto de vista de
la extracción de conocimiento, donde esta información puede ser incompleta ,
imprecisa , incierta o vaga.
Para representar y
manejar este tipo de datos se puede utilizar la lógica difusa , el principal
objetivo de es el estudio de los principios de lo que se ha llamado
razonamiento aproximado, es decir, aquel razonamiento que puede ser impreciso o
poco fiable .
En el área de minería
de datos , la lógica difusa esta principalmente preocupado de identificar
patrones interesantes y describirlos en una manera concisa y significativas .
Podemos decir que la
minería web y la lógica difusa se relaciona con aéreas de recuperación de
información .también las técnicas más utilizadas en el proceso son el
clustering y las reglas de asociación
reglas de asociación
siendo I el conjunto
de ítems TCI ,una transacción es un conjunto de ítems al que se le
asocia un identificador único TID . una transacción contiene un conjunto de
ítems X si TCI . a partir de aquí denominaremos ítem set a un conjunto
de ítems (para evitar confusiones cuando hablemos de conjuntos de ítems )
.luego una regla de asociación es una implicación de la forma X-Y , donde X e
Y son conjuntos de ítems de intervención
vacía.
Medidas de regla de
asociación
Las medidas de soporte
y confianza evalúan el interés y el grado de cumplimiento de las reglas de
asociación con enfoque meramente estadístico si bien es cierto, el uso del
soporte es bastante generalizado y se acepta como la mejor opción para medir la
importancia .
Medidas de interés
Los procesos de
minería se concentran en el descubrimiento de patrones precisos comprensibles
;mientras que las medidas de interés proporcionan al usuario un grado de
confianza de los patrones descubiertos teniendo en cuenta además de la
precisión y la comprensión , la novedad
No hay comentarios.:
Publicar un comentario