Etapas de la minería de texto.

Para poder descubrir conocimiento en texto, se debe pasar por algunas etapas importantes en este proceso, como es la etapa del pre-procesamiento que le da al texto una Forma Intermedia (FI) que permita ser tratada computacionalmente, luego aplicar alguna técnica de Minería de Texto y finalmente la visualización de los resultados. (Como se ilustra en la siguiente figura).


                                         

Podemos considerar diferentes etapas en el proceso de minería de texto:

1.- Preprocesamiento: Se realizarán operaciones o transformaciones sobre el texto, en algún tipo de representación estructurada o semiestructurada que facilite su posterior análisis. Esta fase se realiza sobre un conjunto de documentos objetos de estudio, algunos autores como Tan en la llaman Text Refining. Este es un paso muy importante ya que, dependiendo del tipo de método usado en esta etapa de preprocesamiento, es el tipo de representación del contenido de los textos que ha sido construida y dependiendo de esta representación, es el tipo de patrones que se descubren. Las estructuras descubiertas con el procesamiento, unida a la información semántica obtenida de las bases de conocimiento, proporcionan la base para la aplicación de las técnicas de Minería, es decir, nos permiten obtener las diferentes representaciones o Formas Intermedias de documentos.
Forma Intermedia se puede clasificar, en general, como:
Estructurada. Donde los datos se representan de forma relacional
Semiestructurada. Representación de un grafo conceptual
  ◦Basada en conceptos. Donde cada entidad representa un objeto o concepto de interés de un                                                                                      dominio especifico. Deriva patrones y relaciones a través de objetos de conceptos. Se pueden aplicar operaciones de Minería de Datos como el modelado predictivo y el descubrimiento asociativo.
  ◦Basados en documentos. Cada entidad representa un documento. Deduce patrones y relaciones de interés en un dominio específico. La FI basada en documentos se puede transformar en una FI basada en conceptos, extrayendo información relevante de acuerdo a los objetos de interés de un dominio especifico.

Algunas de las técnicas utilizadas para la transformación de documentos en una forma intermedia pueden ser: análisis de texto, categorización, técnicas de procesamiento de lenguaje natural (etiquetado de parte del discurso, tokenización, lematización), técnicas de extracción de información (categorización, adquisición de patrones léxico sintáctico, extracción automática de términos, localización de trozos específicos de texto), técnicas de recuperación de información (indexación).

 2.- Minería de texto: Fase de descubrimiento donde las representaciones intermedias se analizan con el objetivo de descubrir en ellas algunos patrones interesantes o nuevo conocimiento. Aquí se emplean técnicas de Minería de Texto como la categorización y clasificación de textos,  descubrimiento de asociaciones, detección de desviaciones, análisis de tendencias, entre otras.

3.- Visualización de los resultados: En esta fase es de exploración de los datos guiado para el usuario que sea lo más amigable posible. Las últimas tendencias presentan los resultados mediante gráficas o páginas Web. Una vez obtenidos los conceptos, los términos o las tendencias, se pueden utilizar métodos automáticos de visualización o bien pueden interpretarse los resultados directamente.


Técnicas de la minería de texto.
Técnicas de Minería de Texto

Métodos Descriptivos
Métodos Predictivos
         a.Visualización de documentos
        b. Aprendizaje Supervisado
1.Clasificación
-Árbol de Decisión
-Inducción de reglas
-Redes Neuronales
-Clasificación Naive Bayes
-Modelado Predictivo
-Aprendizaje Relacional Recursivo
2.Categorización
         c. Aprendizaje No supervisado
1.Clustering
2.Clustering conceptual

        d. Reglas de asociación

        e. Asociación secuencial

        f. Análisis estadístico

        g. Aprendizaje de Patrones

        h. Soft Matching



Explicación de algunas de las más importantes técnicas de minería de Texto

Técnicas descriptivas.
  •          Clustering Descriptivas: Tarea de separar documentos en grupos, facilitando la revisión de resultados por parte del usuario final.
  •          Clustering conceptual: Consiste en encontrar todas las regularidades de un conjunto de grafos conceptuales en una jerarquía para facilitar la navegación a través del grafo.


Técnicas predictivas.
  •          Clasificación de términos: Técnicas que detectan clases en los datos de acuerdo con observaciones. Algoritmo de inducción de reglas, en donde aprender un concepto significa inferir su definición general a partir de un número de ejemplos específicos.


  •    Reglas de asociación: Se encuentran asociaciones entre conceptos que se expresan de la forma     A B [soporte, confianza], donde A y B pueden ser uno o varios conceptos.


No hay comentarios.:

Publicar un comentario