Para poder descubrir conocimiento en texto, se debe pasar por algunas etapas importantes en este proceso, como es la etapa del pre-procesamiento que le da al texto una Forma Intermedia (FI) que permita ser tratada computacionalmente, luego aplicar alguna técnica de Minería de Texto y finalmente la visualización de los resultados. (Como se ilustra en la siguiente figura).
1.- Preprocesamiento: Se realizarán operaciones o
transformaciones sobre el texto, en algún tipo de representación estructurada o
semiestructurada que facilite su posterior análisis. Esta fase se
realiza sobre un conjunto de documentos objetos de estudio, algunos autores
como Tan en la llaman Text Refining. Este es un paso muy importante ya
que, dependiendo del tipo de método usado en esta etapa de preprocesamiento, es
el tipo de representación del contenido de los textos que ha sido construida y
dependiendo de esta representación, es el tipo de patrones que se descubren.
Las estructuras descubiertas con el procesamiento, unida a la información
semántica obtenida de las bases de conocimiento, proporcionan la base para la
aplicación de las técnicas de Minería, es decir, nos permiten obtener las
diferentes representaciones o Formas Intermedias de documentos.
Forma Intermedia se puede clasificar,
en general, como:
• Estructurada. Donde los datos se
representan de forma relacional
• Semiestructurada. Representación de un
grafo conceptual
◦Basada en conceptos. Donde cada entidad
representa un objeto o concepto de interés de un
dominio especifico. Deriva patrones y relaciones a través de objetos de
conceptos. Se pueden aplicar operaciones de Minería de Datos como el modelado
predictivo y el descubrimiento asociativo.
◦Basados en
documentos. Cada entidad
representa un documento. Deduce patrones y relaciones de interés en un dominio
específico. La FI basada en documentos se puede transformar en una FI basada en
conceptos, extrayendo información relevante de acuerdo a los objetos de interés
de un dominio especifico.
Algunas de las técnicas utilizadas
para la transformación de documentos en una forma intermedia pueden ser:
análisis de texto, categorización, técnicas de procesamiento de lenguaje
natural (etiquetado de parte del discurso, tokenización, lematización),
técnicas de extracción de información (categorización, adquisición de patrones
léxico sintáctico, extracción automática de términos, localización de trozos
específicos de texto), técnicas de recuperación de información (indexación).
2.- Minería de texto: Fase de
descubrimiento donde las representaciones intermedias se analizan con el
objetivo de descubrir en ellas algunos patrones interesantes o nuevo
conocimiento. Aquí se emplean técnicas de Minería de Texto como la categorización
y clasificación de textos, descubrimiento
de asociaciones, detección de desviaciones, análisis de tendencias, entre
otras.
3.- Visualización de los
resultados: En esta fase es de exploración de los datos guiado para el
usuario que sea lo más amigable posible. Las últimas tendencias presentan los
resultados mediante gráficas o páginas Web. Una vez obtenidos los conceptos,
los términos o las tendencias, se pueden utilizar métodos automáticos de
visualización o bien pueden interpretarse los resultados directamente.
Técnicas de la minería de texto.
Técnicas de Minería de Texto
|
|
Métodos Descriptivos
|
Métodos Predictivos
|
a.Visualización
de documentos
|
b. Aprendizaje
Supervisado
1.Clasificación
-Árbol
de Decisión
-Inducción
de reglas
-Redes
Neuronales
-Clasificación
Naive Bayes
-Modelado
Predictivo
-Aprendizaje
Relacional Recursivo
2.Categorización
|
c. Aprendizaje No
supervisado
1.Clustering
2.Clustering
conceptual
|
|
d. Reglas de
asociación
|
|
e. Asociación
secuencial
|
|
f. Análisis
estadístico
|
|
g. Aprendizaje de
Patrones
|
|
h. Soft Matching
|
Explicación de algunas de las más
importantes técnicas de minería de Texto
Técnicas descriptivas.
- Clustering Descriptivas: Tarea de separar documentos en grupos, facilitando la revisión de resultados por parte del usuario final.
- Clustering conceptual: Consiste en encontrar todas las regularidades de un conjunto de grafos conceptuales en una jerarquía para facilitar la navegación a través del grafo.
Técnicas predictivas.
- Clasificación de términos: Técnicas que detectan clases en los datos de acuerdo con observaciones. Algoritmo de inducción de reglas, en donde aprender un concepto significa inferir su definición general a partir de un número de ejemplos específicos.
- Reglas de asociación: Se encuentran asociaciones entre conceptos que se expresan de la forma A → B [soporte, confianza], donde A y B pueden ser uno o varios conceptos.
No hay comentarios.:
Publicar un comentario