
Historia de la minería de Datos.

Historia de la minería de Datos.
La minería de datos es algo que empieza por los alrededores de los años sesenta, ya los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data Archaeology con la idea de encontrar correlaciones sin una Definición previa de bases de datos.En los principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y Gregory Piatetsky-Shapiro y otros, empezaron a consolidar los términos de Minería de Datos y KDD.
Estas tecnologías han sido una buena herramienta para personas que se desenvuelven en el ámbito de los negocios y académico.
Descubrimiento del Conocimiento (KDD) : “El Proceso de minería”
Proceso de Extracción del
Conocimiento (KnowledgeDiscovery in Databases (KDD))
El proceso KDD lo podemos definir como “el proceso no trivial de identificar patrones válidos, novedosos y potencialmente útiles y en última instancia, comprensible a partir de los datos”. Este proceso también es conocido por diferentes nombres que podrían ser sinónimos del mismo, entre los cuales se encuentran Data Archeology ,DependencyFunctionAnalysis, InformationRecollect, Pattern Data Analysis o KnowledgeFishing.
KDD también supone la convergencia de distintas disciplinas de investigación; podemos nombrar algunas tales como el aprendizaje automático, estadística, inteligencia artificial, sistemas de gestión de base de datos, técnicas de visualización de datos, los sistemas para el apoyo a la toma de decisión (DSS) o la recuperación de información, entre otras.
¿Cómo surge?
Con la necesidad de poder manejar
grandes cantidades de datos, surge un área de estudio, que se denomina descubrimiento
del conocimiento en grandes volúmenes de datos (KDD).
Técnicas minería de datos.
¿Qué tipo de patrones puede
encontrar la Minería de Datos?.
Dependiendo del conjunto de datos a analizar y del tipo de patrones que se quiera encontrar en el proceso a utilizar.Las técnicas de Minería de Datos pueden ser descriptivas o predictivas. Las descriptivas caracterizan las propiedades generales de los datos en una base de datos y por el contrario, la predictiva realiza inferencias en los datos para poder realizar predicciones.
Dependiendo del conjunto de datos a analizar y del tipo de patrones que se quiera encontrar en el proceso a utilizar.Las técnicas de Minería de Datos pueden ser descriptivas o predictivas. Las descriptivas caracterizan las propiedades generales de los datos en una base de datos y por el contrario, la predictiva realiza inferencias en los datos para poder realizar predicciones.
Técnicas Descriptivas.
Descripción de
clases:Hay tres formas de ver este punto, la primera se
denomina
Caracterización de los datos
(Data Caracterizatión), el cuál realiza un resumen de las características
generales de una clase particular de datos; los resultados suelen representarse
en términos de reglas de caracterización. La segunda es la discriminación de
datos (Data Discrimination), que es una comparación entre las características
generales de los objetos de una clase respecto a las de otro
conjunto contrastante. Finalmente, también se puede aplicar una combinación de
ambas.
Análisis de asociación: Es el descubrimiento de
reglas de asociación que muestran condiciones del tipo atributo-valor que ocurre
con frecuencia dentro de un conjunto de datos.
La minería mediante reglas de
asociación es el proceso de búsqueda interesante de correlaciones entre un
conjunto grande de datos. El descubrimiento de reglas
de asociación en grandes volúmenes de transacciones de negocios, puede facilitar
el proceso de toma de decisiones.
KDD y minería.
Es importante discutir sobre la
diferencia entre KDD y Minería de Datos, ya que muchos estudios e investigaciones
dan por hecho que ambos son sinónimos. Hay muchos casos que no es posible
identificar o distinguir claramente la etapa de Minería de Datos dentro del
Proceso de Descubrimiento, porque a veces no es necesario realizar todas y cada
una de las etapas del mismo, como pre procesamiento, limpieza de datos, etc.
Entonces, la Minería de Datos la
podemos definir como una etapa particular en el proceso KDD, donde la
Minería de Datos aplica algoritmos específicos o técnicas específicas para la
extracción de patrones de los datos, diferenciándolo del proceso KDD que ya
antes a sido definido.
Modelo de datos y búsqueda de reglas
Modelo de datos
La preparación de los
datos puede generar un conjunto mas pequeños de estos para mejorar la
eficiencia del proceso de minería.
Dentro de esta etapa
del pre procesamiento de los datos se realizan procesos de limpieza, como
eliminar los datos irrelevantes , limpiar el ruido de los datos y datos
inconsistentes de los archivos. Todo este proceso se realiza si se tiene un
archivo en “bruto”(sacado directamente de un servidor web) o verificar si esta
listo para su análisis .
Para la extracción de
las reglas de asociación difusas en usuario puede determinar cuales son los
ítems de las transacciones que más le interesa y asi poder encontrar reglas
relacionadas solamente con esos ítems.
*( ítems :IP , host,
fecha/hora , páginas visitadas , páginas referenciadas entre otras )
*( transacciones:
posibles tablas transaccionales ejemplo :paginas visitadas/paginas
referenciadas , Fecha/hora con paginas visitadas ,etc.)
Suscribirse a:
Entradas (Atom)