La Minería Web de Contenido es un proceso automático que va más allá de la extracción de palabras claves, ya que los datos se analizan para poder generar información de los documentos que se encuentran en la Web, ya sea, artículos, material audiovisual, documentos HTML, entre otros.
Las técnicas que se ocupan en esta rama de la
Minería Web, varía dependiendo del contenido a tratar: técnicas de recuperación
de información, fundamentalmente técnicas estadísticas y lingüísticas,
hipertexto, minería de marcado (la información de las marcas contiene
información como por ejemplo HTML: secciones, tablas, etc., minería multimedia
(para imágenes, audio, videos) y técnicas de Minería de texto algunas de las
cuales se aplican a todo tipo de minerías.
Podemos considerar 2 enfoques relacionados con la
Minería Web de Contenido:
1. basado en agentes
2. basado en las bases de datos
1. En el enfoque basado en agentes existen
diferentes categorías, agentes para la búsqueda, agentes para el
filtrado y categorización, y agentes para la personalización de
los documentos Web.
a. Los agentes inteligentes de búsqueda,
han sido desarrollados para la búsqueda de información relevante usando características
del dominio y los perfiles del usuario para organizar e interpretar la información
descubierta.
b. El filtrado y categorización de información,
donde un número de agentes Web usa varias técnicas de recuperación de
información y características de documentos Web de hipertexto para recuperar
información filtrando y clasificando por categorías.
c. Agentes Web personalizados, aprenden de
las preferencias de los usuarios y descubren información en la Web basados en
las preferencias de estos y de otros usuarios con intereses similares (usando
filtración colaborativa).
2. enfoque que está basado en el ámbito de las
bases de datos, donde las bases de datos en la Web están relacionadas con
los problemas de administrar y consultar la información en la Web. Hay tres
tareas relacionadas con estos problemas: modelado y consultas de la Web; extracción
e integración de información; y la construcción y reestructuración de sitios.
Este enfoque se centra en las técnicas para
organizar los datos semi estructurados en la Web, en colecciones de información estructuradas
y usando mecanismos estándar de consultas de base de datos y técnicas de
Minería de Datos para analizarlos. La idea principal detrás de este
acercamiento es que el nivel mínimo de la base de datos contiene información
semiestructurada almacenada en lugares de depósito Web diversos, como documentos
de hipertexto, y los meta datos de nivel superiores o las generalizaciones son
extraídas y organizadas en colecciones estructuradas, o sea bases de datos de
relaciones u orientadas a objetos; a esta estructura se le conoce con el nombre
de bases de datos multi nivel.
No hay comentarios.:
Publicar un comentario