Clústeres de datos

  • Los clústeres son colecciones de datos similares.
  • El agrupamiento es un tipo de aprendizaje no supervisado.
  • El coeficiente de correlación describe la fuerza de una relación.

Clústeres

Los clústeres son colecciones de datos basados ​​en la similitud.

Los puntos de datos agrupados en un gráfico a menudo se pueden clasificar en grupos.

En el siguiente gráfico podemos distinguir 3 clusters diferentes:


Identificación de clústeres

Los clústeres pueden contener mucha información valiosa, pero los clústeres vienen en todo tipo de formas, entonces, ¿cómo podemos reconocerlos?

Los dos métodos principales son:

  • Uso de la visualización
  • Uso de un algoritmo de agrupamiento

Agrupación

La agrupación en clústeres es un tipo de aprendizaje no supervisado .

El agrupamiento está tratando de:

  • Recolectar datos similares en grupos
  • Recopilar datos diferentes en otros grupos

Métodos de agrupamiento

  • Método de densidad
  • Método jerárquico
  • Método de partición
  • Método basado en cuadrícula

El método de la densidad considera que los puntos de una región densa tienen más similitudes y diferencias que los puntos de una región menos densa. El método de densidad tiene una buena precisión. También tiene la capacidad de fusionar clústeres.
Dos algoritmos comunes son DBSCAN y OPTICS.

El método jerárquico forma los grupos en una estructura de tipo árbol. Los nuevos clústeres se forman utilizando clústeres previamente formados.
Dos algoritmos comunes son CURE y BIRCH.

El método basado en cuadrícula formula los datos en un número finito de celdas que forman una estructura similar a una cuadrícula.
Dos algoritmos comunes son CLIQUE y STING

El método de partición divide los objetos en k grupos y cada partición forma un grupo.
Un algoritmo común es CLARANS.


Coeficiente de correlación

El coeficiente de correlación (r) describe la fuerza y ​​la dirección de una relación lineal y las variables x/y en un diagrama de dispersión.

El valor de r siempre está entre -1 y +1:

-1.00Descenso perfectoRelación lineal negativa.
-0.70fuerte cuesta abajoRelación lineal negativa.
-0.50Descenso moderadoRelación lineal negativa.
-0.30débil cuesta abajoRelación lineal negativa.
0Sin relación lineal.
+0.30Débil cuesta arribaRelación lineal positiva.
+0.50Moderado cuesta arribaRelación lineal positiva.
+0.70fuerte cuesta arribaRelación lineal positiva.
+1.00perfecto cuesta arribaRelación lineal positiva.

Perfecta Cuesta arriba +1.00 :

Descenso perfecto -1.00 :

'

Fuerte cuesta arriba +0.61 :

Sin relación :