Procesamiento de datos en minería stream.

1
.        El requisito ilimitado de memoria debido al rasgo continuó de los elementos entrantes de datos.
2
.        Los algoritmos de minería toman varios pasos por encima de datos stream y esto no es aplicable por el rasgo alto de tasa de datos de los stream.
3
.        Datos stream generados de sensores y otras fuentes inalámbricas de datos crean un desafío real para transferir estas cantidades inmensas de elementos de datos para un servidor central para ser analizadas.

 Hay varias técnicas que dirigen hacía el procesamiento de datos, como son:

Los datos de entrada evalúan la adaptación: Este acercamiento toma muestras, filtran, realiza agregación, y derramamiento de carga en los elementos entrantes de datos. El muestreo es el proceso de estadísticamente seleccionando los elementos del stream entrante que sería analizado. El filtrado es el muestreo de semántica en el cuál al elemento se le comprueba su importancia pues para ser analizado o no. La agregación es la representación de número de elementos en alguna medida estadística que usa elementos agregados, como el promedio. En vez de extraer de la mina de datos stream, es el proceso de eliminar una cantidad de cosas de subsiguientes elementos de ser analizado comprobando cada elemento que es usado en la técnica de muestreo. En la Figura 2.3 ilustra la idea de adaptación de tasa de datos del lado de entrada usando muestreo.

Salida nivel de concepto: esto es para clasificar en categorías los elementos entrantes en un número limitado de categorías y reemplazando cada elemento entrante con la categoría que hace juego según una medida especificada o una tabla de búsqueda. Esto produciría menos resultados conservando la memoria limitada.

Algoritmos: Se utilizan algoritmos para aproximar los resultados minadores según algún margen de error satisfactorios.

Análisis: Para evitar transferir cantidades enormes de datos, la Minería de Datos estaría hecha en la posición de la fuente de datos. Por ejemplo, VEDAS [Kar03] y Diamond Eye Proyect [BFR+99]. Esto sin embargo asume la disponibilidad de recursos computacionales significativos en el lugar de generación de datos stream.

Algoritmo de salida granulados: Usa un parámetro de control como una parte del algoritmo lógico para controlar la tasa de producción del algoritmo según la memoria disponible, el tiempo restante para llenar la memoria disponible antes de la integración incremental de conocimiento tenga lugar y la tasa de datos del stream entrante. En la siguiente figura se muestra la idea general del proceso que hemos analizado hasta ahora.

Algoritmos, técnicas, enfoque y estado de implementación en la Minería Stream.

Algoritmo
Técnica
Enfoque
Estado
VFKM
K-means
Muestreo y reducción del número pasos en cada paso del algoritmo
Implementado y Testeado

VFDT
Árbol de Decisión
Muestreo y reducción del número pasos en cada paso del algoritmo
Implementado y Testeado

Conteo De  Frecuencia Aproximada
Itemsets Frecuentes
Actualización y poda incremental de conjuntos de ítems por por cada bloques de transacciones

Implementado y Testeado

Clasificación conceptos sin dirección
Clasificación
Clasificación de conjuntos
Implementado y Testeado

K-mediascaproximados
k-medias
Muestreo y reducción del número pasos en cada paso del algoritmo
Estudio Analítico
ClusStream
Clustering
Resumen online y clustering offline
Implementado y Testeado













No hay comentarios.:

Publicar un comentario