K- Algoritmo de agrupación de medios - Cómo funciona - Análisis e Implementación

Introducción a K- ¿Algoritmo de agrupamiento de medios?

La agrupación de medios K pertenece al algoritmo de aprendizaje no supervisado. Se utiliza cuando los datos no están definidos en grupos o categorías, es decir, datos no etiquetados. El objetivo de este algoritmo de agrupamiento es buscar y encontrar los grupos en los datos, donde la variable K representa el número de grupos.

Comprender el algoritmo de agrupación de medios K

Este algoritmo es un algoritmo iterativo que divide el conjunto de datos de acuerdo con sus características en un número K de grupos o subgrupos distintos no superpuestos predefinidos. Hace que los puntos de datos de entre clústeres sean lo más similares posible y también trata de mantener los clústeres lo más lejos posible. Asigna los puntos de datos a un grupo si la suma de la distancia al cuadrado entre el centroide del grupo y los puntos de datos es mínima, donde el centroide del grupo es la media aritmética de los puntos de datos que están en el grupo. Una variación menor en el grupo da como resultado puntos de datos similares u homogéneos dentro del grupo.

¿Cómo funciona el algoritmo de agrupación de medios K?

El algoritmo de agrupación de medios K necesita las siguientes entradas:

K = número de subgrupos o grupos
Muestra o conjunto de entrenamiento = (x ₁, x ₂, x ₃, ……… x _n )

Ahora supongamos que tenemos un conjunto de datos sin etiqueta y que necesitamos dividirlo en grupos.

Ahora necesitamos encontrar el número de grupos. Esto se puede hacer por dos métodos:

Método del codo.
Propósito Método.

Discutamos brevemente sobre ellos:

Método del codo

En este método, se dibuja una curva entre "dentro de la suma de cuadrados" (WSS) y el número de grupos. La curva trazada se asemeja a un brazo humano. Se llama el método del codo porque el punto del codo en la curva nos da el número óptimo de grupos. En el gráfico o la curva, después del punto de codo, el valor de WSS cambia muy lentamente, por lo que debe considerarse que el punto de codo da el valor final del número de grupos.

Basado en el propósito

En este método, los datos se dividen en función de diferentes métricas y luego se juzga qué tan bien se desempeñó en ese caso. Por ejemplo, la disposición de las camisas en el departamento de ropa para hombres en un centro comercial se realiza según los criterios de las tallas. Se puede hacer sobre la base del precio y las marcas también. Se elegiría el más adecuado para dar el número óptimo de grupos, es decir, el valor de K.

Ahora volvamos a nuestro conjunto de datos dado arriba. Podemos calcular el número de grupos, es decir, el valor de K utilizando cualquiera de los métodos anteriores.

¿Cómo usar los métodos anteriores?

Ahora veamos el proceso de ejecución:

Paso 1: inicialización

En primer lugar, inicialice los puntos aleatorios llamados centroides del grupo. Durante la inicialización, debe tener cuidado de que los centroides del grupo deben ser menores que la cantidad de puntos de datos de entrenamiento. Este algoritmo es un algoritmo iterativo, por lo tanto, los siguientes dos pasos se realizan de forma iterativa.

Paso 2: asignación de clúster

Después de la inicialización, se atraviesan todos los puntos de datos y se calcula la distancia entre todos los centroides y los puntos de datos. Ahora los grupos se formarían dependiendo de la distancia mínima de los centroides. En este ejemplo, los datos se dividen en dos grupos.

Paso 3: mover el centroide

Como los grupos formados en el paso anterior no están optimizados, necesitamos formar grupos optimizados. Para esto, necesitamos mover los centroides iterativamente a una nueva ubicación. Tome los puntos de datos de un grupo, calcule su promedio y luego mueva el centroide de ese grupo a esta nueva ubicación. Repita el mismo paso para todos los otros grupos.

Paso 4: optimización

Los dos pasos anteriores se realizan de forma iterativa hasta que los centroides dejan de moverse, es decir, ya no cambian de posición y se vuelven estáticos. Una vez hecho esto, el algoritmo k-means se denomina convergente.

Paso 5: convergencia

Ahora este algoritmo ha convergido y se forman grupos distintos y claramente visibles. Este algoritmo puede dar resultados diferentes dependiendo de cómo se inicializaron los clústeres en el primer paso.

Aplicaciones del algoritmo de agrupación de medios K

Segmentación de mercado
Agrupación de documentos
Segmentación de imagen
Compresión de imagen
Cuantización vectorial
Análisis de conglomerados
Característica de aprendizaje o aprendizaje de diccionario
Identificar áreas propensas a la delincuencia
Detección de fraude de seguros
Análisis de datos de transporte público.
Agrupación de activos de TI
Segmentación de clientes
Identificación de datos cancerosos
Utilizado en buscadores
Predicción de actividad farmacológica

Ventajas del algoritmo de agrupación de medios K

Es rápido
Robusto
Fácil de comprender
Comparativamente eficiente
Si los conjuntos de datos son distintos, se obtienen los mejores resultados.
Produce grupos más estrechos
Cuando se vuelven a calcular los centroides, el clúster cambia.
Flexible
Fácil de interpretar
Mejor costo computacional
Mejora la precisión
Funciona mejor con grupos esféricos.

Desventajas del algoritmo de agrupación de medios K

Necesita especificación previa para la cantidad de centros de clúster
Si hay dos datos muy superpuestos, entonces no se puede distinguir y no se puede decir que hay dos grupos
Con la representación diferente de los datos, los resultados obtenidos también son diferentes.
La distancia euclidiana puede ponderar de manera desigual los factores
Da los óptimos locales de la función de error al cuadrado
A veces, elegir los centroides al azar no puede dar resultados fructíferos
Solo se puede usar si el significado está definido
No se pueden manejar datos atípicos y ruidosos.
No trabaje para el conjunto de datos no lineal
Carece de consistencia
Sensible a la escala
Si se encuentran conjuntos de datos muy grandes, la computadora puede fallar.
Problemas de predicción

Artículos recomendados

Esta ha sido una guía para el algoritmo de agrupación de K-medias. Aquí discutimos el funcionamiento, las aplicaciones, las ventajas y las desventajas del algoritmo de agrupación de K-medias. También puede consultar nuestros otros artículos sugeridos para obtener más información:

¿Qué son las redes neuronales?
¿Qué es la minería de datos? El | Rol de la minería de datos
Pregunta de entrevista de minería de datos
Aprendizaje automático vs red neuronal
Agrupación en Machine Learning

K- Algoritmo de agrupación de medios - Cómo funciona - Análisis e Implementación

Tabla de contenido:

Introducción a K- ¿Algoritmo de agrupamiento de medios?

Comprender el algoritmo de agrupación de medios K

¿Cómo funciona el algoritmo de agrupación de medios K?

Método del codo

Basado en el propósito

¿Cómo usar los métodos anteriores?

Paso 1: inicialización

Paso 2: asignación de clúster

Paso 3: mover el centroide

Paso 4: optimización

Paso 5: convergencia

Aplicaciones del algoritmo de agrupación de medios K

Ventajas del algoritmo de agrupación de medios K

Desventajas del algoritmo de agrupación de medios K

Artículos recomendados

Cómo combinar modos de fusión de capas en Photoshop

Cómo usar un ajuste de imagen de contraste de brillo en Photoshop

Cómo usar Face-Aware Liquify en Photoshop CC

Rotar y enderezar imágenes con la herramienta Recortar en Camera Raw 8

Camera Raw vs Photoshop - ¿Cuál debería usar?

Cómo restablecer las preferencias de Photoshop

5 formas de mover una imagen o capa entre documentos de Photoshop

Cómo mover imágenes JPEG.webp de Lightroom a Photoshop

Cómo abrir imágenes en la cámara sin procesar

Aprenda Adobe Photoshop - Comenzando con Photoshop

Una manera fácil de encontrar gris neutro en una foto con Photoshop

Cómo reemplazar el cielo en una foto con Photoshop

Herramienta de borrador de fondo de Photoshop

Selección de cabello con Refine Edge en Photoshop CS5

Conversiones de Photoshop en blanco y negro - Tutorial de modo de color de laboratorio