Proceso de Extracción del
Conocimiento (KnowledgeDiscovery in Databases (KDD))
El proceso KDD lo podemos definir como “el proceso no trivial de identificar patrones válidos, novedosos y potencialmente útiles y en última instancia, comprensible a partir de los datos”. Este proceso también es conocido por diferentes nombres que podrían ser sinónimos del mismo, entre los cuales se encuentran Data Archeology ,DependencyFunctionAnalysis, InformationRecollect, Pattern Data Analysis o KnowledgeFishing.
KDD también supone la convergencia de distintas disciplinas de investigación; podemos nombrar algunas tales como el aprendizaje automático, estadística, inteligencia artificial, sistemas de gestión de base de datos, técnicas de visualización de datos, los sistemas para el apoyo a la toma de decisión (DSS) o la recuperación de información, entre otras.
¿Cómo surge?
Con la necesidad de poder manejar
grandes cantidades de datos, surge un área de estudio, que se denomina descubrimiento
del conocimiento en grandes volúmenes de datos (KDD).
Etapas del KDD.
Cabe notar que Uno de los
procesos más importantes dentro de KDD es el usuario, ya que es él quien
determina el dominio de la aplicación o sea, decide cómo y qué datos se
utilizarán en el proceso. Por lo tanto, los pasos en el proceso global del KDD
no están claramente diferenciados Por ser un proceso iterativo e
interactivo con el usuario experto. Las interacciones entre las Decisiones tomadas en diferentes
pasos, así como los parámetros de los métodos utilizados Y la forma de representar el
problema suelen ser extremadamente complejos.
Generalmente se consideran las
siguientes etapas en el proceso:
1.Selección de datos. Consiste
en buscar el objetivo y las herramientas del proceso
de minería, identificando los
datos que han ser extraídos, buscando los atributos
apropiados de entrada y la
información de salida para representar la tarea. Esto quiere decir, primero se
debe tener en cuenta lo que se saber lo que se quiere obtener y cuáles son los
datos que nos facilitarán esa información para poder llegar a nuestra meta,
antes de comenzar el proceso en tal.
2. Limpieza de datos. En
este paso se limpian los datos sucios, incluyendo los datos
incompletos (donde hay atributos
o valores de atributos perdidos), el ruido (valores
incorrectos o inesperados) y
datos inconsistentes (conteniendo valores y atributos
con nombres diferentes). Los
datos sucios en algunos casos deben ser eliminados ya
que pueden contribuir a un
análisis inexacto y resultados incorrectos.
3.Integración de datos: Combina
datos de múltiples procedencias incluyendo múltiples bases de datos, que
podrían tener diferentes contenidos y formatos.
4.Transformación de datos:
consisten principalmente en modificaciones sintácticas llevadas a cabo sobre
datos sin que supongan un cambio para la técnica de minería aplicada. Las
transformaciones discretas de los datos[HLT99] tienen la ventaja de que mejoran
la comprensión de las reglas descubiertasal transformar los datos de bajo nivel
en datos de alto nivel y también reduceSignificativamente el tiempo de
ejecución del algoritmo de búsqueda. Su principal
Desventaja es que se puede
reducir la exactitud del conocimiento descubierto, debido
a que puede causar la perdida de
alguna información. Existen diferentes métodos
de transformación de variables
continuas a discretas que se pueden agrupar
según distintas aproximaciones: métodos locales (realizan la transformación discreta en una región del
espacio de las instancias, por ejemplo, utilizando un
subconjunto de las instancias), métodos
globales (utilizan el espacio de las instancias),
métodos supervisados (utilizan la
información de la clave (valor del atributo
objetivo).
5. Reducción de datos. Reducir
el tamaño de los datos, encontrando las características
Más significativas dependiendo
del objetivo del proceso.
Se pueden utilizar métodos de
transformación para reducir el número efectivo
de variables a ser consideradas,
o para encontrar otras representaciones de los datos.
-reducción de dimensiones (la extracción
irrelevante y débil de atributo), compresión de datos (reemplazando valores de
datos con datos alternativos codificados),
-reducción de tamaño
(reemplazando valores de datos con representación alternativa
más pequeña),
-una generalización de datos
(reemplazando valores de datos de
niveles conceptuales bajos con
niveles conceptuales más altos), etc.
6. Minería de Datos. Consiste
en la búsqueda de los patrones de interés que pueden
Expresarse como un modelo o
simplemente que expresen dependencia de los datos.
Se tiene que especificar un criterio
de preferencia para seleccionar un modelo de un conjunto
de posibles modelos. También se
tiene que especificar la estrategia de búsqueda a
utilizar (normalmente está
determinado en el algoritmo de minería).
7.Evaluación de los patrones. Se
identifican verdaderamente patrones interesantes
que representan conocimiento
usando diferentes técnicas incluyendo análisis estadísticos y lenguajes de
consultas.
8.Interpretación de
resultados. Consiste en entender los resultados del análisis y
sus implicaciones y puede llevar
a regresar a algunos de los pasos anteriores.
Mmmmmm difícil la definición, muy rebuscada, fácilmente se podría explicar con sencillas palabras.
ResponderBorrarInteresante, hay que procesar la información tal como la minería y sacar el beneficio.
ResponderBorrar