¿Qué es una base de datos?




Una base de datos es un “almacén” que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar fácilmente.

El término de bases de datos fue escuchado por primera vez en 1963, en un simposio celebrado en California, USA. Una base de datos se puede definir como un conjunto de información relacionada que se encuentra agrupada ó estructurada.

Historia de la minería de Datos.





Historia de la minería de Datos.

La minería de datos es algo que empieza por los alrededores de los años sesenta, ya los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data Archaeology con la idea de encontrar correlaciones sin una Definición previa de bases de datos.
En los principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y Gregory Piatetsky-Shapiro y otros, empezaron a consolidar los términos de Minería de Datos y KDD.
Estas tecnologías han sido una buena herramienta para personas que se desenvuelven en el ámbito de los negocios y académico.

Descubrimiento del Conocimiento (KDD) : “El Proceso de minería”

Proceso de Extracción del Conocimiento (KnowledgeDiscovery in Databases (KDD))

El proceso KDD lo podemos definir como “el proceso no trivial de identificar patrones válidos, novedosos y potencialmente útiles y en última instancia, comprensible a partir de los datos”. Este proceso también es conocido por diferentes nombres que podrían ser sinónimos del mismo, entre los cuales se encuentran Data Archeology ,DependencyFunctionAnalysis, InformationRecollect, Pattern Data Analysis o KnowledgeFishing.

KDD también supone la convergencia de distintas disciplinas de investigación; podemos nombrar algunas tales como el aprendizaje automático, estadística, inteligencia artificial, sistemas de gestión de base de datos, técnicas de visualización de datos, los sistemas para el apoyo a la toma de decisión (DSS) o la recuperación de información, entre otras.

¿Cómo surge?

Con la necesidad de poder manejar grandes cantidades de datos, surge un área de estudio, que se denomina descubrimiento del conocimiento en grandes volúmenes de datos (KDD).

Técnicas minería de datos.

¿Qué tipo de patrones puede encontrar la Minería de Datos?
Dependiendo del conjunto de datos a analizar y del tipo de patrones que se quiera encontrar en el proceso a utilizar.Las técnicas de Minería de Datos pueden ser descriptivas o predictivas. Las descriptivas caracterizan las propiedades generales de los datos en una base de datos y por el contrario, la predictiva realiza inferencias en los datos para poder realizar predicciones.

Técnicas Descriptivas.

Descripción de clases:Hay tres formas de ver este punto, la primera se denomina
Caracterización de los datos (Data Caracterizatión), el cuál realiza un resumen de las características generales de una clase particular de datos; los resultados suelen representarse en términos de reglas de caracterización. La segunda es la discriminación de datos (Data Discrimination), que es una comparación entre las características generales de los objetos de una clase respecto a las de otro conjunto contrastante. Finalmente, también se puede aplicar una combinación de ambas.

Análisis de asociación: Es el descubrimiento de reglas de asociación que muestran condiciones del tipo atributo-valor que ocurre con frecuencia dentro de un conjunto de datos.
La minería mediante reglas de asociación es el proceso de búsqueda interesante de correlaciones entre un conjunto grande de datos. El descubrimiento de reglas de asociación en grandes volúmenes de transacciones de negocios, puede facilitar el proceso de toma de decisiones.

KDD y minería.


Es importante discutir sobre la diferencia entre KDD y Minería de Datos, ya que muchos estudios e investigaciones dan por hecho que ambos son sinónimos. Hay muchos casos que no es posible identificar o distinguir claramente la etapa de Minería de Datos dentro del Proceso de Descubrimiento, porque a veces no es necesario realizar todas y cada una de las etapas del mismo, como pre procesamiento, limpieza de datos, etc.

Entonces, la Minería de Datos la podemos definir como una etapa particular en el proceso KDD, donde la Minería de Datos aplica algoritmos específicos o técnicas específicas para la extracción de patrones de los datos, diferenciándolo del proceso KDD que ya antes a sido definido.

Modelo de datos y búsqueda de reglas

Modelo de datos

La preparación de los datos puede generar un conjunto mas pequeños de estos para mejorar la eficiencia del proceso de minería.

Dentro de esta etapa del pre procesamiento de los datos se realizan procesos de limpieza, como eliminar los datos irrelevantes , limpiar el ruido de los datos y datos inconsistentes de los archivos. Todo este proceso se realiza si se tiene un archivo en “bruto”(sacado directamente de un servidor web) o verificar si esta listo para su análisis .
Para la extracción de las reglas de asociación difusas en usuario puede determinar cuales son los ítems de las transacciones que más le interesa y asi poder encontrar reglas relacionadas solamente con esos ítems.
*( ítems :IP , host, fecha/hora , páginas visitadas , páginas referenciadas entre otras )
*( transacciones: posibles tablas transaccionales ejemplo :paginas visitadas/paginas referenciadas , Fecha/hora con paginas visitadas ,etc.)