¿Qué es una base de datos?




Una base de datos es un “almacén” que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar fácilmente.

El término de bases de datos fue escuchado por primera vez en 1963, en un simposio celebrado en California, USA. Una base de datos se puede definir como un conjunto de información relacionada que se encuentra agrupada ó estructurada.

Historia de la minería de Datos.





Historia de la minería de Datos.

La minería de datos es algo que empieza por los alrededores de los años sesenta, ya los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data Archaeology con la idea de encontrar correlaciones sin una Definición previa de bases de datos.
En los principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y Gregory Piatetsky-Shapiro y otros, empezaron a consolidar los términos de Minería de Datos y KDD.
Estas tecnologías han sido una buena herramienta para personas que se desenvuelven en el ámbito de los negocios y académico.

Descubrimiento del Conocimiento (KDD) : “El Proceso de minería”

Proceso de Extracción del Conocimiento (KnowledgeDiscovery in Databases (KDD))

El proceso KDD lo podemos definir como “el proceso no trivial de identificar patrones válidos, novedosos y potencialmente útiles y en última instancia, comprensible a partir de los datos”. Este proceso también es conocido por diferentes nombres que podrían ser sinónimos del mismo, entre los cuales se encuentran Data Archeology ,DependencyFunctionAnalysis, InformationRecollect, Pattern Data Analysis o KnowledgeFishing.

KDD también supone la convergencia de distintas disciplinas de investigación; podemos nombrar algunas tales como el aprendizaje automático, estadística, inteligencia artificial, sistemas de gestión de base de datos, técnicas de visualización de datos, los sistemas para el apoyo a la toma de decisión (DSS) o la recuperación de información, entre otras.

¿Cómo surge?

Con la necesidad de poder manejar grandes cantidades de datos, surge un área de estudio, que se denomina descubrimiento del conocimiento en grandes volúmenes de datos (KDD).

Técnicas minería de datos.

¿Qué tipo de patrones puede encontrar la Minería de Datos?
Dependiendo del conjunto de datos a analizar y del tipo de patrones que se quiera encontrar en el proceso a utilizar.Las técnicas de Minería de Datos pueden ser descriptivas o predictivas. Las descriptivas caracterizan las propiedades generales de los datos en una base de datos y por el contrario, la predictiva realiza inferencias en los datos para poder realizar predicciones.

Técnicas Descriptivas.

Descripción de clases:Hay tres formas de ver este punto, la primera se denomina
Caracterización de los datos (Data Caracterizatión), el cuál realiza un resumen de las características generales de una clase particular de datos; los resultados suelen representarse en términos de reglas de caracterización. La segunda es la discriminación de datos (Data Discrimination), que es una comparación entre las características generales de los objetos de una clase respecto a las de otro conjunto contrastante. Finalmente, también se puede aplicar una combinación de ambas.

Análisis de asociación: Es el descubrimiento de reglas de asociación que muestran condiciones del tipo atributo-valor que ocurre con frecuencia dentro de un conjunto de datos.
La minería mediante reglas de asociación es el proceso de búsqueda interesante de correlaciones entre un conjunto grande de datos. El descubrimiento de reglas de asociación en grandes volúmenes de transacciones de negocios, puede facilitar el proceso de toma de decisiones.

KDD y minería.


Es importante discutir sobre la diferencia entre KDD y Minería de Datos, ya que muchos estudios e investigaciones dan por hecho que ambos son sinónimos. Hay muchos casos que no es posible identificar o distinguir claramente la etapa de Minería de Datos dentro del Proceso de Descubrimiento, porque a veces no es necesario realizar todas y cada una de las etapas del mismo, como pre procesamiento, limpieza de datos, etc.

Entonces, la Minería de Datos la podemos definir como una etapa particular en el proceso KDD, donde la Minería de Datos aplica algoritmos específicos o técnicas específicas para la extracción de patrones de los datos, diferenciándolo del proceso KDD que ya antes a sido definido.

Modelo de datos y búsqueda de reglas

Modelo de datos

La preparación de los datos puede generar un conjunto mas pequeños de estos para mejorar la eficiencia del proceso de minería.

Dentro de esta etapa del pre procesamiento de los datos se realizan procesos de limpieza, como eliminar los datos irrelevantes , limpiar el ruido de los datos y datos inconsistentes de los archivos. Todo este proceso se realiza si se tiene un archivo en “bruto”(sacado directamente de un servidor web) o verificar si esta listo para su análisis .
Para la extracción de las reglas de asociación difusas en usuario puede determinar cuales son los ítems de las transacciones que más le interesa y asi poder encontrar reglas relacionadas solamente con esos ítems.
*( ítems :IP , host, fecha/hora , páginas visitadas , páginas referenciadas entre otras )
*( transacciones: posibles tablas transaccionales ejemplo :paginas visitadas/paginas referenciadas , Fecha/hora con paginas visitadas ,etc.)

Programas especializados en Mineria




Orange es una suite de software para minería de base de datos y aprendizaje automático basado en componentes que cuenta con un fácil y potente, rápido y versátil front-end (inicio de un proceso) de programación visual para el análisis exploratorio de datos y visualización, y librerías para Python (lenguaje de programación interpretado) y secuencias de comando. Contiene un completo juego de componentes para pre-procesamiento de datos, característica de puntuación y filtrado, modelado, evaluación del modelo, y técnicas de exploración. Está escrito en C++ y Python, y su interfaz gráfica de usuario se basa en la plataforma cruzada del framework Qt.







RapidMiner, antes llamado YALE, es un ambiente de experimentos en aprendizaje automático y minería de datos que se utiliza para tareas de minería de datos tanto en investigación como en el mundo real.

Minería de Datos.


La Minería de Datos es la etapa más importante del KDD; es la que integra los procesos
de aprendizaje y métodos estadísticos para la obtención de hipótesis de patrones y modelos.

Podríamos decir que Minería de datos es  el proceso de extracción de información o conocimiento de un conjunto grande de datos. Formalizando un poco más, lo podemos definir como una etapa particular en el proceso KDD, donde la Minería de Datos aplica algoritmos específicos o técnicas específicas para la extracción de patrones de los datos.

Crean la mayor base de datos en internet sobre autoras del Holocausto



Investigadores de la Universidad de Alicante y de la Universidad de Granada trabajan en el mayor Lexicón sobre autoras del Holocausto creado hasta ahora, una base de datos con información detallada sobre más de 500 autoras que estará lista en 2012. La iniciativa forma parte del Proyecto DIGEC (Discriminación, genocidio y exterminio cultural: un estudio sobre la literatura del Holocausto y la recuperación de la memoria).



Los investigadores de la Universidad de Alicante (UA), José Luis Arráez Llobregat y Amelia Peral Crespo, están elaborando el mayor Lexicón sobre autoras del Holocausto que se haya creado. El Lexicón es una base de datos que, por medio de fichas, recoge toda la información sobre más de 500 autoras. Cada una de las fichas cuenta con una galería fotográfica de la autora, así como los principales datos biográficos y bibliográficos, situándola en el contexto de la Segunda Guerra Mundial y el Holocausto, antes, durante o después.

Minería de Texto.

La Minería de Texto difiere de Minería de Datos en el trato de la información, donde la información textual difiere de la estructurada principalmente en la ausencia de estructura o en la compleja estructura implícita del texto. De este modo, se hace necesario buscar alguna representación intermedia del texto que pueda ayudar a la aplicación de técnicas de descubrimiento, que nos permitan extraer patrones útiles.
La Minería de Texto implica a diversas áreas tales como la recuperación de información, extracción de información, tecnologías de bases de datos, aprendizaje de bases de datos, por nombrar algunas.

Etapas de la minería de texto.

Para poder descubrir conocimiento en texto, se debe pasar por algunas etapas importantes en este proceso, como es la etapa del pre-procesamiento que le da al texto una Forma Intermedia (FI) que permita ser tratada computacionalmente, luego aplicar alguna técnica de Minería de Texto y finalmente la visualización de los resultados. (Como se ilustra en la siguiente figura).


                                         

¿Qué ES SAP (Systeme, Anwendungen und Produkte)?

Lo que se traduce al español como Sistemas, Aplicaciones y Productos.
SAP es una empresa con sede en Walldorf - Alemania, que se dedica a la producción de software.
Particularmente se ha especializado a rama del software empresarial, creando así su principal y mundialmente conocido Sistema SAP
SAP AG es considerada como el mayor fabricante europeo de software.
La alemana SAP comprará el fabricante software Sybase

 


Minería web.



La Minería Web

 lo podemos definir formalmente como” el proceso global de descubrir información o conocimiento potencialmente útil y previamente desconocido a partir de datos de la Web”.La explotación de la información que se encuentra en la Web se puede realizar de diferentes puntos de vista. Se puede analizar a través del contenido que podemos extraer o encontrar en la Web.


      Minería Web de Contenido: este punto de vista es enfocado principalmente en la extracción de conocimiento sobre el contenido de documentos.

   Minería Web de Estructura: Otra manera de inferir conocimiento es a través de la organización de la Web o de las relaciones entre los enlaces; esta forma de descubrir conocimiento de la estructura de la Web.

  Minería Web de Uso: el proceso de extracción de patrones interesantes de la información de navegación o del tráfico del usuario en la Web.

Minería web de Estructura.

La Minería Web de Estructura
                                   Es el proceso que analiza la estructura de la información usada,
                                          que describe el contenido de la Web.

La estructura de la información de la Web puede ser clasificado como: intra-página e inter-página.

·       inter-página, puede analizarse a través de los hiperenlaces y a menudo se llama Web asociado o enlazado a estructuras. En este tipo de minería, el enlace de  estructura puede representarse como un gráfico, en el cuál los documentos son los nodos y los hiperenlaces son las aristas del gráfico.
·       intra-página refiere a las estructuras internas de los actuales tipos de documentos de la Web como HTML o XML, los cuales están usualmente representados por árboles.

Minería web de Contenido.

La Minería Web de Contenido es un proceso automático que va más allá de la extracción de palabras claves, ya que los datos se analizan para poder generar información de los documentos que se encuentran en la Web, ya sea, artículos, material audiovisual, documentos HTML, entre otros.

Las técnicas que se ocupan en esta rama de la Minería Web, varía dependiendo del contenido a tratar: técnicas de recuperación de información, fundamentalmente técnicas estadísticas y lingüísticas, hipertexto, minería de marcado (la información de las marcas contiene información como por ejemplo HTML: secciones, tablas, etc., minería multimedia (para imágenes, audio, videos) y técnicas de Minería de texto algunas de las cuales se aplican a todo tipo de minerías.

Tipos de Minería Web.

El término de Minería Web es generalmente usado en tres caminos, Minería Web de Contenido, Minería Web de Estructura y Minería Web de Uso.

Técnicas de minería web.

Algunas de las Técnicas más utilizadas son :

Reglas de asociación: Esta técnica es utilizada para descubrir la correlación entre los accesos de los clientes a varios archivos disponibles en el servidor. Cada transacción está compuesta por un conjunto de URL accedidas por el cliente en una visita al servidor.
Path analysis: Este análisis es una extensión de un modelo de regresión, usada para probar las correlaciones entre dos o más modelos causales que están siendo comparados. Esta técnica principalmente se utiliza para el análisis de caminos de navegación.
Secuencias de patrones: Esta técnica se basa en descubrir patrones en los cuales la presencia de un conjunto de ítems es seguido por otro ítem en orden temporal. Analizando estos datos, se puede determinar el comportamiento de los usuarios con respecto al tiempo.

Minería web y el clustering

Una de las técnicas mas utilizadas en la minería web  es el clustering (la técnica  fue aplicada sobre las sesiones de usuarios obtenidas en el pre procedimiento .

Otro estudio de clustering es el que propone una metodología dimensionable de clustering inspirada en el sistema inmunológico natural con el poder de aprender continuamente y adaptarse a patrones entrantes nuevos . los mecanismos inteligentes de búsqueda son cruciales en la minería web por la naturaleza combinatoria grande de optimización de muchos problemas .un sistema inmunológico artificial es como un ser humano donde : el servidor web juega el papel de “cuerpo humano”  y las demandas múltiples entrantes desempeñan el papel de virus/antígeno/bacteria que necesitan ser detectados por la técnica de clustering

Clustering en la minería Web de uso

En el ámbito de la Web podemos decir que se han hecho diversos estudios orientados principalmente a realizar agrupamientos por contenido. Por ejemplo, cuando hacemos búsquedas sobre algún tema lo hacemos con algún buscador de internet. Estos sistemas de búsqueda por temas son denominados motores de búsqueda, los cuales indexan (registran ordenadamente) archivos almacenados en los servidores Web, de los cuales podemos citar al sistema Grooker.

Grooker es un sistema de búsqueda que permite realizar búsquedas en la base de datos de Yahoo!, en la tienda de libros Amazon y en Librería Digital ACM. Los resultados se agrupan por similitud de contenidos y también se pueden presentar de forma gráfica, en forma de esferas (clusters) agrupando temáticas.
En el caso de la Minería Web de Uso, los elementos a agrupar pueden ser las páginas Web y las sesiones de usuarios, con el objetivo de poder realizar un estudio o análisis demográfico.

Procesamiento de datos en minería stream.

1
.        El requisito ilimitado de memoria debido al rasgo continuó de los elementos entrantes de datos.
2
.        Los algoritmos de minería toman varios pasos por encima de datos stream y esto no es aplicable por el rasgo alto de tasa de datos de los stream.
3
.        Datos stream generados de sensores y otras fuentes inalámbricas de datos crean un desafío real para transferir estas cantidades inmensas de elementos de datos para un servidor central para ser analizadas.

Fundadores del data warehouse







En el método de Diseño, fue Ralph Kimball quien, en 1997, fijó las bases de diseño del Modelo Dimensional que se debería usar al diseñar un Data Warehouse, en su artículo “A Dimensional Modeling Manifesto.
El Modelo Dimensional usa la misma técnica de representación que el Modelo Entidad Relación original de Peter Chen, es decir, entidades, relaciones y atributos, lo normal, vaya. Lo que cambia radicalmente es la forma de entender los datos que deben ser modelados, la forma de organizarlos en tablas relacionales para construir un Data Warehouse efectivo.

Minería stream. (Contemporáneo)

Minería Stream
      
   Se puede definir como “un proceso de extracción del conocimiento de estructuras de registros rápidos y continuos de datos. Los ejemplos de datos streams incluyen tráfico de la red de computadoras, conversaciones telefónicas, transacciones ATM, búsquedas web y datos de sensores.

La mayoría de los streams liberan datos en orden arbitrario, los cuales están intrínsecamente
relacionados con un aspecto temporal, esto quiere decir que los patrones que
son descubiertos en ellos siguen una tendencia dinámica, y por lo tanto son diferentes a
los conjuntos de datos estáticos tradicionales que son muy grandes.

Fuentes de bases de datos





Existen diversos tipos de bases de datos entre ellos se consideran :

-Bases de datos relacionales :es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya planificadas. Permiten establecer interconexiones (relaciones) entre los datos (que están guardados en tablas), y a través de dichas conexiones relacionar los datos de ambas tablas, de ahí proviene su nombre: "Modelo Relacional"
-Bases de datos multidimensionales (DW):Las bases de datos multidimensionales se utilizan principalmente para crear aplicaciones OLAP y pueden verse como bases de datos de una sola tabla, su peculiaridad es que por cada dimensión tienen un campo (o columna), y otro campo por cada métrica o hecho, es decir estas tablas almacenan registros cuyos campos son de la forma:
{(d_1, d_2, d_3, ..., f_1, f_2, f_3, ...)}