Etapas de la mineria web
·
Selección y recopilación de datos. Lo primero es determinar qué es lo que se quiere obtener y cuáles son los datos que nos facilitarán esa información para lograr la meta. Posteriormente se localizan los documentos o archivos a adquirir, se capturan y se almacenan los datos pertinentes. El objetivo de esta etapa es recuperar automáticamente los documentos más importantes, indexándolos para optimizar la búsqueda.
Selección y recopilación de datos. Lo primero es determinar qué es lo que se quiere obtener y cuáles son los datos que nos facilitarán esa información para lograr la meta. Posteriormente se localizan los documentos o archivos a adquirir, se capturan y se almacenan los datos pertinentes. El objetivo de esta etapa es recuperar automáticamente los documentos más importantes, indexándolos para optimizar la búsqueda.
· Extracción y preprocesamiento de
información. Se
trata de filtrar y limpiar los datos recogidos. Una vez extraída una
determinada información a partir de un documento, ya sea HTML, XML, TEXTO, PS,
PDF, LateX, FAQs,. . . se eliminarán los datos erróneos o incompletos,
presentando las restantes de manera ordenada y con los mismos criterios
formales hasta conseguir una homogeneidad. El objetivo es identificar y
etiquetar el contenido esencial del documento para mapear a algún modelo de
datos. La extracción de la información entrega nueva información a partir de la
estructura del documento y su representación.
Minería. En esta etapa, se descubren automáticamente los modelos o patrones generales sobre un sitio Web, así como por múltiples sitios, utilizando recursos estadísticos, técnicas de Minería de Datos, etc.
· Análisis. Una vez teniendo los patrones
identificados, es necesario interpretarlos; para esto existe diversas
herramientas que permiten entender, ya sea visualmente o algún otro método que
facilita la interpretación de dichos patrones.Minería. En esta etapa, se descubren automáticamente los modelos o patrones generales sobre un sitio Web, así como por múltiples sitios, utilizando recursos estadísticos, técnicas de Minería de Datos, etc.
No hay comentarios.:
Publicar un comentario