Métodos de agrupamiento - Importancia y técnicas de los métodos de agrupamiento

Tabla de contenido:

Anonim

Introducción a los métodos de agrupamiento

Este artículo presenta una descripción general de los diferentes métodos de agrupación utilizados en las técnicas de minería de datos con diferentes principios. La agrupación es un conjunto de objetos de datos organizados en una agrupación lógica diferente. Agrupando elementos de datos similares y asignando elementos de datos similares en grupos individuales. La agrupación se realiza en grandes conjuntos de datos para el aprendizaje no supervisado. Durante esto, realizamos la partición del conjunto de datos en grupos. La estructura de la agrupación se representa de la siguiente manera con subconjuntos. C = c1, c2 … c n . Como los grupos de agrupación tienen objetos similares, se deben tomar algunas medidas en los métodos de agrupación para determinar la distancia y las medidas de similitud. Los métodos de agrupamiento se basan en modelos probabilísticos. La minería de datos requiere la agrupación para la escalabilidad para manejar bases de datos altas, manejar espacio multidimensional, para tratar datos y ruido erróneos.

¿Explicar los métodos de agrupamiento?

Este método de agrupamiento ayuda a agrupar datos valiosos en grupos y, a partir de ahí, selecciona los resultados apropiados en función de diferentes técnicas. Ejemplo, en la recuperación de información, los resultados de la consulta se agrupan en pequeños grupos, y cada grupo tiene resultados irrelevantes. Mediante las técnicas de agrupación, se agrupan en categorías similares y cada categoría se subdivide en subcategorías para ayudar en la exploración de la salida de consultas. Hay varios tipos de métodos de agrupamiento, son

  • Métodos jerárquicos
  • Métodos de particionamiento
  • Basado en la densidad
  • Agrupación basada en modelos
  • Modelo basado en cuadrícula

A continuación se presenta una descripción general de las técnicas utilizadas en la minería de datos y la inteligencia artificial.

1. Método jerárquico

Este método crea un clúster mediante la partición de arriba hacia abajo y de abajo hacia arriba. Ambos enfoques producen dendrograma, hacen conectividad entre ellos. El dendrograma es un formato similar a un árbol que mantiene la secuencia de clústeres combinados. Los métodos jerárquicos se producen múltiples particiones con respecto a los niveles de similitud. Se dividen en agrupación jerárquica aglomerativa y agrupación jerárquica divisiva. Aquí se crea un árbol de clúster utilizando técnicas de fusión. Para el proceso de división se usa divisivo, la fusión usa aglomeración. La agrupación aglomerativa implica:

  1. Inicialmente, tomar todos los puntos de datos y considerarlos como grupos individuales comienzan de arriba hacia abajo. Estos grupos se fusionan hasta obtener los resultados deseados.
  2. Los siguientes dos grupos similares se agrupan para formar un solo grupo enorme.
  3. Nuevamente calculando la proximidad en el enorme grupo y fusionando los grupos similares.
  4. El paso final consiste en fusionar todos los grupos cedidos en cada paso para formar un grupo único final.

2. Método de partición:

El objetivo principal de la partición es la reubicación. Reubican las particiones cambiando de un clúster a otro, lo que hace una partición inicial. Divide 'n' objetos de datos en 'k' número de clústeres. Este método de partición se prefiere más que un modelo jerárquico en el reconocimiento de patrones. Los siguientes criterios se establecen para satisfacer las técnicas:

  • Cada grupo debe tener un objeto.
  • Cada objeto de datos pertenece a un solo clúster.

Las técnicas de partición más utilizadas son el algoritmo K-mean. Se dividen en grupos 'K' representados por centroides. Cada centro de grupo se calcula como una media de ese grupo y la función R visualiza el resultado. Este algoritmo tiene los siguientes pasos:

  1. Seleccionar K objetos al azar del conjunto de datos y formar los centros iniciales (centroides)
  2. Luego, asigne la distancia euclidiana entre los objetos y el centro medio.
  3. Asignación de un valor medio para cada grupo individual.
  4. Pasos de actualización del centroide para cada clúster 'k'.

3. Modelo de densidad:

En este modelo, los grupos se definen al ubicar regiones de mayor densidad en un grupo. El principio principal detrás de ellos es concentrarse en dos parámetros: radio máximo de la vecindad y número mínimo de puntos. El modelo basado en la densidad identifica grupos de diferentes formas y ruidos. Funciona mediante la detección de patrones mediante la estimación de la ubicación espacial y la distancia al método del vecino utilizado aquí es DBSCAN (agrupación espacial basada en la densidad) que proporciona las manos para grandes bases de datos espaciales. Uso de tres puntos de datos para la agrupación, a saber, puntos principales, puntos de borde y valores atípicos. El objetivo principal es identificar los grupos y sus parámetros de distribución. El proceso de agrupación se detiene con la necesidad de parámetros de densidad. Para encontrar los grupos es importante tener un parámetro Características mínimas por grupo en el cálculo de la distancia del núcleo. Las tres herramientas diferentes proporcionadas por este modelo son DBSCAN, HDBSCAN, Multi-scale.

4. Agrupación basada en modelos

Este modelo combina dos o tres grupos juntos de la distribución de datos. La idea básica detrás de este modelo es que es necesario dividir los datos en dos grupos basados ​​en el modelo de probabilidad (distribuciones normales multivariadas). Aquí cada grupo se asigna como conceptos o clase. Cada componente está definido por una función de densidad. Para encontrar el parámetro en este modelo, se utiliza la estimación de máxima verosimilitud para el ajuste de la distribución de la mezcla. Cada grupo 'K' está modelizado por distribución gaussiana con un vector medio µ k de dos parámetros y un vector de covarianza £ k .

5. Modelo basado en cuadrícula

En este enfoque, los objetos se consideran impulsados ​​por el espacio al dividir el espacio en un número finito de celdas para formar una cuadrícula. Con la ayuda de la cuadrícula, la técnica de agrupamiento se aplica para un procesamiento más rápido que generalmente depende de las celdas y no de los objetos. Los pasos involucrados son:

  • Creación de estructura de cuadrícula.
  • La densidad celular se calcula para cada célula.
  • Aplicando un mecanismo de clasificación a sus densidades.
  • Buscar centros de clúster y atravesar celdas vecinas para repetir el proceso.

Importancia de los métodos de agrupamiento

  1. Tener métodos de agrupación ayuda a reiniciar el procedimiento de búsqueda local y eliminar la ineficiencia. La agrupación en clúster ayuda a determinar la estructura interna de los datos.
  2. Este análisis de agrupamiento se ha utilizado para el análisis de modelos, región de atracción vectorial.
  3. La agrupación en clúster ayuda a comprender la agrupación natural en un conjunto de datos. Su propósito es tener sentido dividir los datos en algún grupo de agrupaciones lógicas.
  4. La calidad de agrupamiento depende de los métodos y de identificar patrones ocultos.
  5. Desempeñan un papel amplio en aplicaciones como investigación económica de marketing, weblogs para identificar patrones en medidas de similitud, procesamiento de imágenes, investigación espacial.
  6. Se utilizan en detecciones atípicas para detectar fraudulencias de tarjetas de crédito.

Conclusión

El agrupamiento se considera una tarea general para resolver el problema que formula el problema de optimización. Tiene una importancia clave en el campo de la minería de datos y el análisis de datos. Hemos visto diferentes métodos de agrupación que dividen el conjunto de datos dependiendo de los requisitos. La mayor parte de la investigación se basa en técnicas tradicionales como K-means y modelos jerárquicos. Las áreas de clúster se aplican en estados de alta dimensión que forman un futuro alcance de los investigadores.

Artículo recomendado

Esta ha sido una guía para los métodos de agrupamiento. Aquí discutimos el concepto, la importancia y las técnicas de los métodos de agrupación. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. ¿Qué es el ETL?
  2. ¿Qué es la ciencia de datos?
  3. ¿Qué es teradata?
  4. Las 6 mejores alternativas de AWS
  5. Agrupación en Machine Learning
  6. Regresión multivariante
  7. Agrupación jerárquica | Agrupamiento Aglomerativo y Divisivo