Clústeres de datos
- Los clústeres son colecciones de datos similares.
- El agrupamiento es un tipo de aprendizaje no supervisado.
- El coeficiente de correlación describe la fuerza de una relación.
Clústeres
Los clústeres son colecciones de datos basados en la similitud.
Los puntos de datos agrupados en un gráfico a menudo se pueden clasificar en grupos.
En el siguiente gráfico podemos distinguir 3 clusters diferentes:
Identificación de clústeres
Los clústeres pueden contener mucha información valiosa, pero los clústeres vienen en todo tipo de formas, entonces, ¿cómo podemos reconocerlos?
Los dos métodos principales son:
- Uso de la visualización
- Uso de un algoritmo de agrupamiento
Agrupación
La agrupación en clústeres es un tipo de aprendizaje no supervisado .
El agrupamiento está tratando de:
- Recolectar datos similares en grupos
- Recopilar datos diferentes en otros grupos
Métodos de agrupamiento
- Método de densidad
- Método jerárquico
- Método de partición
- Método basado en cuadrícula
El método de la densidad considera que los puntos de una región densa tienen más similitudes y diferencias que los puntos de una región menos densa. El método de densidad tiene una buena precisión. También tiene la capacidad de fusionar clústeres.
Dos algoritmos comunes son DBSCAN y OPTICS.
El método jerárquico forma los grupos en una estructura de tipo árbol. Los nuevos clústeres se forman utilizando clústeres previamente formados.
Dos algoritmos comunes son CURE y BIRCH.
El método basado en cuadrícula formula los datos en un número finito de celdas que forman una estructura similar a una cuadrícula.
Dos algoritmos comunes son CLIQUE y STING
El método de partición divide los objetos en k grupos y cada partición forma un grupo.
Un algoritmo común es CLARANS.
Coeficiente de correlación
El coeficiente de correlación (r) describe la fuerza y la dirección de una relación lineal y las variables x/y en un diagrama de dispersión.
El valor de r siempre está entre -1 y +1:
-1.00 | Descenso perfecto | Relación lineal negativa. |
-0.70 | fuerte cuesta abajo | Relación lineal negativa. |
-0.50 | Descenso moderado | Relación lineal negativa. |
-0.30 | débil cuesta abajo | Relación lineal negativa. |
0 | Sin relación lineal. | |
+0.30 | Débil cuesta arriba | Relación lineal positiva. |
+0.50 | Moderado cuesta arriba | Relación lineal positiva. |
+0.70 | fuerte cuesta arriba | Relación lineal positiva. |
+1.00 | perfecto cuesta arriba | Relación lineal positiva. |
Perfecta Cuesta arriba +1.00 :
Descenso perfecto -1.00 :
Fuerte cuesta arriba +0.61 :
Sin relación :