Introducción a K- ¿Algoritmo de agrupamiento de medios?

La agrupación de medios K pertenece al algoritmo de aprendizaje no supervisado. Se utiliza cuando los datos no están definidos en grupos o categorías, es decir, datos no etiquetados. El objetivo de este algoritmo de agrupamiento es buscar y encontrar los grupos en los datos, donde la variable K representa el número de grupos.

Comprender el algoritmo de agrupación de medios K

Este algoritmo es un algoritmo iterativo que divide el conjunto de datos de acuerdo con sus características en un número K de grupos o subgrupos distintos no superpuestos predefinidos. Hace que los puntos de datos de entre clústeres sean lo más similares posible y también trata de mantener los clústeres lo más lejos posible. Asigna los puntos de datos a un grupo si la suma de la distancia al cuadrado entre el centroide del grupo y los puntos de datos es mínima, donde el centroide del grupo es la media aritmética de los puntos de datos que están en el grupo. Una variación menor en el grupo da como resultado puntos de datos similares u homogéneos dentro del grupo.

¿Cómo funciona el algoritmo de agrupación de medios K?

El algoritmo de agrupación de medios K necesita las siguientes entradas:

  • K = número de subgrupos o grupos
  • Muestra o conjunto de entrenamiento = (x 1, x 2, x 3, ……… x n )

Ahora supongamos que tenemos un conjunto de datos sin etiqueta y que necesitamos dividirlo en grupos.

Ahora necesitamos encontrar el número de grupos. Esto se puede hacer por dos métodos:

  • Método del codo.
  • Propósito Método.

Discutamos brevemente sobre ellos:

Método del codo

En este método, se dibuja una curva entre "dentro de la suma de cuadrados" (WSS) y el número de grupos. La curva trazada se asemeja a un brazo humano. Se llama el método del codo porque el punto del codo en la curva nos da el número óptimo de grupos. En el gráfico o la curva, después del punto de codo, el valor de WSS cambia muy lentamente, por lo que debe considerarse que el punto de codo da el valor final del número de grupos.

Basado en el propósito

En este método, los datos se dividen en función de diferentes métricas y luego se juzga qué tan bien se desempeñó en ese caso. Por ejemplo, la disposición de las camisas en el departamento de ropa para hombres en un centro comercial se realiza según los criterios de las tallas. Se puede hacer sobre la base del precio y las marcas también. Se elegiría el más adecuado para dar el número óptimo de grupos, es decir, el valor de K.

Ahora volvamos a nuestro conjunto de datos dado arriba. Podemos calcular el número de grupos, es decir, el valor de K utilizando cualquiera de los métodos anteriores.

¿Cómo usar los métodos anteriores?

Ahora veamos el proceso de ejecución:

Paso 1: inicialización

En primer lugar, inicialice los puntos aleatorios llamados centroides del grupo. Durante la inicialización, debe tener cuidado de que los centroides del grupo deben ser menores que la cantidad de puntos de datos de entrenamiento. Este algoritmo es un algoritmo iterativo, por lo tanto, los siguientes dos pasos se realizan de forma iterativa.

Paso 2: asignación de clúster

Después de la inicialización, se atraviesan todos los puntos de datos y se calcula la distancia entre todos los centroides y los puntos de datos. Ahora los grupos se formarían dependiendo de la distancia mínima de los centroides. En este ejemplo, los datos se dividen en dos grupos.

Paso 3: mover el centroide

Como los grupos formados en el paso anterior no están optimizados, necesitamos formar grupos optimizados. Para esto, necesitamos mover los centroides iterativamente a una nueva ubicación. Tome los puntos de datos de un grupo, calcule su promedio y luego mueva el centroide de ese grupo a esta nueva ubicación. Repita el mismo paso para todos los otros grupos.

Paso 4: optimización

Los dos pasos anteriores se realizan de forma iterativa hasta que los centroides dejan de moverse, es decir, ya no cambian de posición y se vuelven estáticos. Una vez hecho esto, el algoritmo k-means se denomina convergente.

Paso 5: convergencia

Ahora este algoritmo ha convergido y se forman grupos distintos y claramente visibles. Este algoritmo puede dar resultados diferentes dependiendo de cómo se inicializaron los clústeres en el primer paso.

Aplicaciones del algoritmo de agrupación de medios K

  • Segmentación de mercado
  • Agrupación de documentos
  • Segmentación de imagen
  • Compresión de imagen
  • Cuantización vectorial
  • Análisis de conglomerados
  • Característica de aprendizaje o aprendizaje de diccionario
  • Identificar áreas propensas a la delincuencia
  • Detección de fraude de seguros
  • Análisis de datos de transporte público.
  • Agrupación de activos de TI
  • Segmentación de clientes
  • Identificación de datos cancerosos
  • Utilizado en buscadores
  • Predicción de actividad farmacológica

Ventajas del algoritmo de agrupación de medios K

  • Es rápido
  • Robusto
  • Fácil de comprender
  • Comparativamente eficiente
  • Si los conjuntos de datos son distintos, se obtienen los mejores resultados.
  • Produce grupos más estrechos
  • Cuando se vuelven a calcular los centroides, el clúster cambia.
  • Flexible
  • Fácil de interpretar
  • Mejor costo computacional
  • Mejora la precisión
  • Funciona mejor con grupos esféricos.

Desventajas del algoritmo de agrupación de medios K

  • Necesita especificación previa para la cantidad de centros de clúster
  • Si hay dos datos muy superpuestos, entonces no se puede distinguir y no se puede decir que hay dos grupos
  • Con la representación diferente de los datos, los resultados obtenidos también son diferentes.
  • La distancia euclidiana puede ponderar de manera desigual los factores
  • Da los óptimos locales de la función de error al cuadrado
  • A veces, elegir los centroides al azar no puede dar resultados fructíferos
  • Solo se puede usar si el significado está definido
  • No se pueden manejar datos atípicos y ruidosos.
  • No trabaje para el conjunto de datos no lineal
  • Carece de consistencia
  • Sensible a la escala
  • Si se encuentran conjuntos de datos muy grandes, la computadora puede fallar.
  • Problemas de predicción

Artículos recomendados

Esta ha sido una guía para el algoritmo de agrupación de K-medias. Aquí discutimos el funcionamiento, las aplicaciones, las ventajas y las desventajas del algoritmo de agrupación de K-medias. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. ¿Qué son las redes neuronales?
  2. ¿Qué es la minería de datos? El | Rol de la minería de datos
  3. Pregunta de entrevista de minería de datos
  4. Aprendizaje automático vs red neuronal
  5. Agrupación en Machine Learning

Categoría: