Minería web de Contenido.

La Minería Web de Contenido es un proceso automático que va más allá de la extracción de palabras claves, ya que los datos se analizan para poder generar información de los documentos que se encuentran en la Web, ya sea, artículos, material audiovisual, documentos HTML, entre otros.

Las técnicas que se ocupan en esta rama de la Minería Web, varía dependiendo del contenido a tratar: técnicas de recuperación de información, fundamentalmente técnicas estadísticas y lingüísticas, hipertexto, minería de marcado (la información de las marcas contiene información como por ejemplo HTML: secciones, tablas, etc., minería multimedia (para imágenes, audio, videos) y técnicas de Minería de texto algunas de las cuales se aplican a todo tipo de minerías.

Podemos considerar 2 enfoques relacionados con la Minería Web de Contenido:
1. basado en agentes
2. basado en las bases de datos

1. En el enfoque basado en agentes existen diferentes categorías, agentes para la búsqueda, agentes para el filtrado y categorización, y agentes para la personalización de los documentos Web.
a. Los agentes inteligentes de búsqueda, han sido desarrollados para la búsqueda de información relevante usando características del dominio y los perfiles del usuario para organizar e interpretar la información descubierta.

b. El filtrado y categorización de información, donde un número de agentes Web usa varias técnicas de recuperación de información y características de documentos Web de hipertexto para recuperar información filtrando y clasificando por categorías.

c. Agentes Web personalizados, aprenden de las preferencias de los usuarios y descubren información en la Web basados en las preferencias de estos y de otros usuarios con intereses similares (usando filtración colaborativa).

2. enfoque que está basado en el ámbito de las bases de datos, donde las bases de datos en la Web están relacionadas con los problemas de administrar y consultar la información en la Web. Hay tres tareas relacionadas con estos problemas: modelado y consultas de la Web; extracción e integración de información; y la construcción y reestructuración de sitios.
Este enfoque se centra en las técnicas para organizar los datos semi estructurados en la Web, en colecciones de información estructuradas y usando mecanismos estándar de consultas de base de datos y técnicas de Minería de Datos para analizarlos. La idea principal detrás de este acercamiento es que el nivel mínimo de la base de datos contiene información semiestructurada almacenada en lugares de depósito Web diversos, como documentos de hipertexto, y los meta datos de nivel superiores o las generalizaciones son extraídas y organizadas en colecciones estructuradas, o sea bases de datos de relaciones u orientadas a objetos; a esta estructura se le conoce con el nombre de bases de datos multi nivel.

No hay comentarios.:

Publicar un comentario