Descubrimiento del Conocimiento (KDD) : “El Proceso de minería”

Proceso de Extracción del Conocimiento (KnowledgeDiscovery in Databases (KDD))

El proceso KDD lo podemos definir como “el proceso no trivial de identificar patrones válidos, novedosos y potencialmente útiles y en última instancia, comprensible a partir de los datos”. Este proceso también es conocido por diferentes nombres que podrían ser sinónimos del mismo, entre los cuales se encuentran Data Archeology ,DependencyFunctionAnalysis, InformationRecollect, Pattern Data Analysis o KnowledgeFishing.

KDD también supone la convergencia de distintas disciplinas de investigación; podemos nombrar algunas tales como el aprendizaje automático, estadística, inteligencia artificial, sistemas de gestión de base de datos, técnicas de visualización de datos, los sistemas para el apoyo a la toma de decisión (DSS) o la recuperación de información, entre otras.

¿Cómo surge?

Con la necesidad de poder manejar grandes cantidades de datos, surge un área de estudio, que se denomina descubrimiento del conocimiento en grandes volúmenes de datos (KDD).


Etapas del KDD.

Cabe notar que Uno de los procesos más importantes dentro de KDD es el usuario, ya que es él quien determina el dominio de la aplicación o sea, decide cómo y qué datos se utilizarán en el proceso. Por lo tanto, los pasos en el proceso global del KDD no están claramente diferenciados Por ser un proceso iterativo e interactivo con el usuario experto. Las interacciones entre las Decisiones tomadas en diferentes pasos, así como los parámetros de los métodos utilizados Y la forma de representar el problema suelen ser extremadamente complejos.

Generalmente se consideran las siguientes etapas en el proceso:

1.Selección de datos. Consiste en buscar el objetivo y las herramientas del proceso
de minería, identificando los datos que han ser extraídos, buscando los atributos
apropiados de entrada y la información de salida para representar la tarea. Esto quiere decir, primero se debe tener en cuenta lo que se saber lo que se quiere obtener y cuáles son los datos que nos facilitarán esa información para poder llegar a nuestra meta, antes de comenzar el proceso en tal.
2. Limpieza de datos. En este paso se limpian los datos sucios, incluyendo los datos
incompletos (donde hay atributos o valores de atributos perdidos), el ruido (valores
incorrectos o inesperados) y datos inconsistentes (conteniendo valores y atributos
con nombres diferentes). Los datos sucios en algunos casos deben ser eliminados ya
que pueden contribuir a un análisis inexacto y resultados incorrectos.


3.Integración de datos: Combina datos de múltiples procedencias incluyendo múltiples bases de datos, que podrían tener diferentes contenidos y formatos.

4.Transformación de datos: consisten principalmente en modificaciones sintácticas llevadas a cabo sobre datos sin que supongan un cambio para la técnica de minería aplicada. Las transformaciones discretas de los datos[HLT99] tienen la ventaja de que mejoran la comprensión de las reglas descubiertasal transformar los datos de bajo nivel en datos de alto nivel y también reduceSignificativamente el tiempo de ejecución del algoritmo de búsqueda. Su principal
Desventaja es que se puede reducir la exactitud del conocimiento descubierto, debido
a que puede causar la perdida de alguna información. Existen diferentes métodos
de transformación de variables continuas a discretas que se pueden agrupar
según distintas aproximaciones: métodos locales (realizan la transformación discreta en una región del espacio de las instancias, por ejemplo, utilizando un
subconjunto de las instancias), métodos globales (utilizan el espacio de las instancias),
métodos supervisados (utilizan la información de la clave (valor del atributo
objetivo).

5. Reducción de datos. Reducir el tamaño de los datos, encontrando las características
Más significativas dependiendo del objetivo del proceso.
Se pueden utilizar métodos de transformación para reducir el número efectivo
de variables a ser consideradas, o para encontrar otras representaciones de los datos.
-reducción de dimensiones (la extracción irrelevante y débil de atributo), compresión de datos (reemplazando valores de datos con datos alternativos codificados),
-reducción de tamaño (reemplazando valores de datos con representación alternativa
más pequeña),
-una generalización de datos (reemplazando valores de datos de
niveles conceptuales bajos con niveles conceptuales más altos), etc.

6. Minería de Datos. Consiste en la búsqueda de los patrones de interés que pueden
Expresarse como un modelo o simplemente que expresen dependencia de los datos.
Se tiene que especificar un criterio de preferencia para seleccionar un modelo de un conjunto
de posibles modelos. También se tiene que especificar la estrategia de búsqueda a
utilizar (normalmente está determinado en el algoritmo de minería).

7.Evaluación de los patrones. Se identifican verdaderamente patrones interesantes
que representan conocimiento usando diferentes técnicas incluyendo análisis estadísticos y lenguajes de consultas.

8.Interpretación de resultados. Consiste en entender los resultados del análisis y
sus implicaciones y puede llevar a regresar a algunos de los pasos anteriores.


2 comentarios:

  1. Mmmmmm difícil la definición, muy rebuscada, fácilmente se podría explicar con sencillas palabras.

    ResponderBorrar
  2. Interesante, hay que procesar la información tal como la minería y sacar el beneficio.

    ResponderBorrar