MINERÍA DE DATOS : Descubrimiento del Conocimiento (KDD) : “El Proceso de minería”

Proceso de Extracción del Conocimiento (KnowledgeDiscovery in Databases (KDD))

El proceso KDD lo podemos definir como “el proceso no trivial de identificar patrones válidos, novedosos y potencialmente útiles y en última instancia, comprensible a partir de los datos”. Este proceso también es conocido por diferentes nombres que podrían ser sinónimos del mismo, entre los cuales se encuentran Data Archeology ,DependencyFunctionAnalysis, InformationRecollect, Pattern Data Analysis o KnowledgeFishing.

KDD también supone la convergencia de distintas disciplinas de investigación; podemos nombrar algunas tales como el aprendizaje automático, estadística, inteligencia artificial, sistemas de gestión de base de datos, técnicas de visualización de datos, los sistemas para el apoyo a la toma de decisión (DSS) o la recuperación de información, entre otras.

¿Cómo surge?

Con la necesidad de poder manejar grandes cantidades de datos, surge un área de estudio, que se denomina descubrimiento del conocimiento en grandes volúmenes de datos (KDD).

Etapas del KDD.

Cabe notar que Uno de los procesos más importantes dentro de KDD es el usuario, ya que es él quien determina el dominio de la aplicación o sea, decide cómo y qué datos se utilizarán en el proceso. Por lo tanto, los pasos en el proceso global del KDD no están claramente diferenciados Por ser un proceso iterativo e interactivo con el usuario experto. Las interacciones entre las Decisiones tomadas en diferentes pasos, así como los parámetros de los métodos utilizados Y la forma de representar el problema suelen ser extremadamente complejos.

Generalmente se consideran las siguientes etapas en el proceso:

1.Selección de datos. Consiste en buscar el objetivo y las herramientas del proceso

de minería, identificando los datos que han ser extraídos, buscando los atributos

apropiados de entrada y la información de salida para representar la tarea. Esto quiere decir, primero se debe tener en cuenta lo que se saber lo que se quiere obtener y cuáles son los datos que nos facilitarán esa información para poder llegar a nuestra meta, antes de comenzar el proceso en tal.

2. Limpieza de datos. En este paso se limpian los datos sucios, incluyendo los datos

incompletos (donde hay atributos o valores de atributos perdidos), el ruido (valores

incorrectos o inesperados) y datos inconsistentes (conteniendo valores y atributos

con nombres diferentes). Los datos sucios en algunos casos deben ser eliminados ya

que pueden contribuir a un análisis inexacto y resultados incorrectos.

3.Integración de datos: Combina datos de múltiples procedencias incluyendo múltiples bases de datos, que podrían tener diferentes contenidos y formatos.

4.Transformación de datos: consisten principalmente en modificaciones sintácticas llevadas a cabo sobre datos sin que supongan un cambio para la técnica de minería aplicada. Las transformaciones discretas de los datos[HLT99] tienen la ventaja de que mejoran la comprensión de las reglas descubiertasal transformar los datos de bajo nivel en datos de alto nivel y también reduceSignificativamente el tiempo de ejecución del algoritmo de búsqueda. Su principal

Desventaja es que se puede reducir la exactitud del conocimiento descubierto, debido

a que puede causar la perdida de alguna información. Existen diferentes métodos

de transformación de variables continuas a discretas que se pueden agrupar

según distintas aproximaciones: métodos locales (realizan la transformación discreta en una región del espacio de las instancias, por ejemplo, utilizando un

subconjunto de las instancias), métodos globales (utilizan el espacio de las instancias),

métodos supervisados (utilizan la información de la clave (valor del atributo

objetivo).

5. Reducción de datos. Reducir el tamaño de los datos, encontrando las características

Más significativas dependiendo del objetivo del proceso.

Se pueden utilizar métodos de transformación para reducir el número efectivo

de variables a ser consideradas, o para encontrar otras representaciones de los datos.

-reducción de dimensiones (la extracción irrelevante y débil de atributo), compresión de datos (reemplazando valores de datos con datos alternativos codificados),

-reducción de tamaño (reemplazando valores de datos con representación alternativa

más pequeña),

-una generalización de datos (reemplazando valores de datos de

niveles conceptuales bajos con niveles conceptuales más altos), etc.

6. Minería de Datos. Consiste en la búsqueda de los patrones de interés que pueden

Expresarse como un modelo o simplemente que expresen dependencia de los datos.

Se tiene que especificar un criterio de preferencia para seleccionar un modelo de un conjunto

de posibles modelos. También se tiene que especificar la estrategia de búsqueda a

utilizar (normalmente está determinado en el algoritmo de minería).

7.Evaluación de los patrones. Se identifican verdaderamente patrones interesantes

que representan conocimiento usando diferentes técnicas incluyendo análisis estadísticos y lenguajes de consultas.

8.Interpretación de resultados. Consiste en entender los resultados del análisis y

sus implicaciones y puede llevar a regresar a algunos de los pasos anteriores.

2 comentarios:

Antonio Tapia7 de septiembre de 2015, 12:04 p.m.
Mmmmmm difícil la definición, muy rebuscada, fácilmente se podría explicar con sencillas palabras.
ResponderBorrar
Respuestas
Holger Branda Torres17 de marzo de 2017, 10:23 a.m.
Interesante, hay que procesar la información tal como la minería y sacar el beneficio.
ResponderBorrar
Respuestas

Agregar un comentario

Páginas

Descubrimiento del Conocimiento (KDD) : “El Proceso de minería”

¿Cómo surge?

2 comentarios:

Administradores

Contador de visitas