Minería web y el clustering

Una de las técnicas mas utilizadas en la minería web  es el clustering (la técnica  fue aplicada sobre las sesiones de usuarios obtenidas en el pre procedimiento .

Otro estudio de clustering es el que propone una metodología dimensionable de clustering inspirada en el sistema inmunológico natural con el poder de aprender continuamente y adaptarse a patrones entrantes nuevos . los mecanismos inteligentes de búsqueda son cruciales en la minería web por la naturaleza combinatoria grande de optimización de muchos problemas .un sistema inmunológico artificial es como un ser humano donde : el servidor web juega el papel de “cuerpo humano”  y las demandas múltiples entrantes desempeñan el papel de virus/antígeno/bacteria que necesitan ser detectados por la técnica de clustering


Ejemplos de minería web : webminer y websift


El sistema webminer , divide el proceso de minería web de uso en: entrada  de datos , pre procedimiento , descubrimiento de conocimiento y  análisis de patrones . la entrada de los datos proviene de servidores log (acceso , referencias y agentes) , de los archivos HTML que forman el sitio y algunos datos opcionales como puede ser registros o log de agentes remotos.

Partes del proceso :
 

    Pre procedimiento:

 incluye la limpieza de datos , identificación de usuarios y sesiones y terminación de caminos  todo esto se realiza con el objetivo de crear un archivo de sección de usuario

La identificación de transacciones : 

Es la tarea de identificar  semánticamente los grupos significativos de referencias de las paginas .por ejemplo: en el caso de la canasta de supermercado , la transacción es definida por todo los ítems adquiridos por un consumidor o cliente en el tiempo

                                              
La etapa descubrimiento del conocimiento usa técnicas existentes en la minería de datos las cuales generan patrones y reglas .


El sistema websift es diseñado para ejecutarse en el área de minería web de uso para archivos log con formato NSCA(que incluye campos de referencia y agentes) .como el sistema esta basado en el sistema webminer , poseen una estructura muy similar o sea el primer receso es el pre procedimiento orientado principalmente al contenido y estructura , donde se limpian los datos se identifican secciones y usuarios , por ultimo , por ultimo se completan los caminos .permiten convertir las secciones en episodios , los episodios son cualquier subconjunto de todas las paginas web contenidas en las secciones del servidor o todas las paginas de navegación .


Modelo de datos

Para el análisis de la información es necesario un modelo de datos. para conocer las acciones que realiza un usuario en la web es necesario analizar los archivos en la web o archivos log , los cuales están almacenados en archivos web .


Reprocesamiento:


Esta etapa consiste en eliminar en una primera parte los elementos ruidosos que podemos encontrar en los log , dentro de los electos ruidosos podemos mencionar las imágenes,javascript.

También se puede realizar una identificación de entrada y así saber cuales son las entradas reales que el usuario va registrando durante su navegación y así dar una estructura al archivo para poder analizarlo.


Identificación de secciones de usuario

Hay varias formas de identificar las visitas individuales a un sitio web . la solución mas sencilla es dar por supuesto que cada dirección IP representa a una persona  , no obstante esto no es muy preciso  por ejemplo : una visita puede ganar acceso de distintas computadoras , o muchos usuarios pueden tener la misma dirección IP(si es usado Proxy).otra suposición que se podría hacer es que cada acceso realizado del mismo host durante un cierto intervalo de tiempo podría provenir de un mismo usuario , un enfoque mas preciso en la identificación de un usuario , son las conocidas como cookies  o simplemente la inscripción que realiza el usuario en el sitio web .


Método de timeout:

Una vez que se tiene el usuario identificado , el siguiente paso es realizar las identificaciones de las secciones, dividiendo cada transacción o click de cada usuario en secciones . la solución más usual en el caso es ajustar un intervalo de tiempo y dar por hecho que los accesos consecutivos dentro de ella forman parte de la misma sección , o ajustar un intervalo de tiempo máximo , donde las entradas o accesos consecutivos que excedan forma parte de secciones diferentes .este modelo para identificar secciones de usuarios es conocido `por el nombre timeout o intervalo de espera .


Referente length:

El cual asume que la cantidad de tiempo que un usuario gasta en una pagina esta correlacionada en el sentido que si la pagina es “auxiliar” o “de contenido” para  ese usuario .una vez que las paginas estén clasificadas a través de un calculo de estimación entre paginas auxiliares y de contenido basadas en el histograma , una sección es detectada cuando una pagina de contenido es encontrada .el problema de este método es que solo una pagina de contenido es incluida en cada sección esto no es lo mas optimo , ya que el usuario puede mirar mas de una pagina de contenido.


Estos métodos son los mas utilizados pero existen muchos mas.

Minería web de usos y reglas de asociación difusa: análisis de patrones de navegación


El objetivo principal de esto es poder determinar patrones de navegación del usuario y así conocer su comportamiento por la web .

Minería web y lógica difusa

Toda la información que se genera se almacena en bases de datos ,en documentos en simplemente en la web puede tener características difícil de procesar desde el punto de vista de la extracción de conocimiento, donde esta información puede ser incompleta , imprecisa , incierta o vaga.

Para representar y manejar este tipo de datos se puede utilizar la lógica difusa , el principal objetivo de es el estudio de los principios de lo que se ha llamado razonamiento aproximado, es decir, aquel razonamiento que puede ser impreciso o poco fiable .
En el área de minería de datos , la lógica difusa esta principalmente preocupado de identificar patrones interesantes y describirlos en una manera concisa y significativas .

Podemos decir que la minería web y la lógica difusa se relaciona con aéreas de recuperación de información .también las técnicas más utilizadas en el proceso son el clustering y las reglas de asociación

 reglas de asociación

siendo I el conjunto de ítems TCI ,una transacción es un conjunto de ítems al que se le asocia un identificador único TID . una transacción contiene un conjunto de ítems X si TCI . a partir de aquí denominaremos ítem set a un conjunto de ítems (para evitar confusiones cuando hablemos de conjuntos de ítems ) .luego una regla de asociación es una implicación de la forma X-Y , donde X e Y  son conjuntos de ítems de intervención vacía.



Medidas de regla de asociación

Las medidas de soporte y confianza evalúan el interés y el grado de cumplimiento de las reglas de asociación con enfoque meramente estadístico si bien es cierto, el uso del soporte es bastante generalizado y se acepta como la mejor opción para medir la importancia .

Medidas de interés

Los procesos de minería se concentran en el descubrimiento de patrones precisos comprensibles ;mientras que las medidas de interés proporcionan al usuario un grado de confianza de los patrones descubiertos teniendo en cuenta además de la precisión  y la comprensión , la novedad



No hay comentarios.:

Publicar un comentario