Introducción a los métodos de minería de datos

Los datos aumentan a diario en una escala enorme. Pero todos los datos recopilados o recopilados no son útiles. Los datos significativos deben separarse de los ruidosos (datos sin sentido). Este proceso de separación se realiza mediante minería de datos.

¿Qué es la minería de datos?

La minería de datos es un proceso de extracción de información o conocimiento útil de una gran cantidad de datos (o big data). La brecha entre datos e información se ha reducido mediante el uso de diversas herramientas de minería de datos. La minería de datos también se puede denominar descubrimiento de conocimiento a partir de datos o KDD .

Fuentes: - www.ques10.com

La minería de datos se puede realizar en varios tipos de bases de datos y repositorios de información como bases de datos relacionales, almacenes de datos, bases de datos transaccionales, flujos de datos y muchos más.

Diferentes métodos de minería de datos:

Hay muchos métodos utilizados para la minería de datos, pero el paso crucial es seleccionar el método apropiado de acuerdo con el negocio o la declaración del problema. Estos métodos de minería de datos ayudan a predecir el futuro y luego a tomar decisiones en consecuencia. Estos también ayudan a analizar la tendencia del mercado y a aumentar los ingresos de la empresa.

Algunos métodos de minería de datos son:

  • Asociación
  • Clasificación
  • Análisis de agrupamiento
  • Predicción
  • Patrones secuenciales o seguimiento de patrones
  • Árboles de decisión
  • Análisis de valores atípicos o análisis de anomalías
  • Red neuronal

Comprendamos todos los métodos de minería de datos uno por uno.

1. Asociación:

Es un método utilizado para encontrar una correlación entre dos o más elementos mediante la identificación del patrón oculto en el conjunto de datos y, por lo tanto, también llamado análisis de relación . Este método se utiliza en el análisis de la cesta de la compra para predecir el comportamiento del cliente.

Supongamos que el gerente de marketing de un supermercado quiere determinar qué productos se compran juntos con frecuencia.

Como ejemplo,

Compra (x, "cerveza") -> compra (x, "chips") (soporte = 1%, confianza = 50%)

  • Aquí x representa a un cliente que compra cerveza y papas fritas juntos.
  • La confianza muestra certeza de que si un cliente compra una cerveza, hay un 50% de posibilidades de que él / ella también compre las papas fritas.
  • El soporte significa que el 1% de todas las transacciones bajo análisis mostraron que la cerveza y las papas fritas se compraron juntas.

Se pueden considerar muchos ejemplos similares como el pan y la mantequilla o la computadora y el software.

Hay dos tipos de reglas de asociación:

  • Regla de asociación tridimensional: estas reglas contienen un solo atributo que se repite.
  • Regla de asociación multidimensional: estas reglas contienen múltiples atributos que se repiten.

https://bit.ly/2N61gzR

2. Clasificación:

Este método de minería de datos se utiliza para distinguir los elementos en los conjuntos de datos en clases o grupos. Ayuda a predecir con precisión el comportamiento de los elementos dentro del grupo. Es un proceso de dos pasos:

  • Paso de aprendizaje (fase de entrenamiento): en esto, un algoritmo de clasificación construye el clasificador analizando un conjunto de entrenamiento.
  • Paso de clasificación: los datos de prueba se utilizan para estimar la exactitud o precisión de las reglas de clasificación.

Por ejemplo, una compañía bancaria utiliza para identificar a los solicitantes de préstamos con riesgos crediticios bajos, medios o altos. Del mismo modo, un investigador médico analiza los datos del cáncer para predecir qué medicamento recetar al paciente.

Fuentes: - www.tutorialspoint.com

3. Análisis de agrupamiento:

La agrupación es casi similar a la clasificación, pero en esta agrupación se hacen según las similitudes de los elementos de datos. Los diferentes grupos tienen objetos diferentes o no relacionados. También se denomina segmentación de datos, ya que divide grandes conjuntos de datos en grupos según las similitudes.

Hay varios métodos de agrupación que se utilizan:

  • Métodos jerárquicos de aglomeración
  • Métodos basados ​​en cuadrícula
  • Métodos de partición
  • Métodos basados ​​en modelos
  • Métodos basados ​​en densidad

Ejemplo similar de solicitantes de préstamos puede considerarse aquí también. Hay algunas diferencias que se representan en la figura a continuación.

https://bit.ly/2N6aZpP

4. Predicción:

Este método se utiliza para predecir el futuro en función de las tendencias o conjuntos de datos pasados ​​y presentes. La predicción se usa principalmente con la combinación de otros métodos de minería de datos, como la clasificación, la coincidencia de patrones, el análisis de tendencias y la relación.

Por ejemplo, si el gerente de ventas de un supermercado quisiera predecir la cantidad de ingresos que generaría cada artículo en función de los datos de ventas anteriores. Modela la función de valor continuo que predice valores de datos numéricos faltantes.

Fuentes: - data-mining.philippe-fournier

El análisis de regresión es la mejor opción para realizar predicciones. Se puede usar para establecer una relación entre variables independientes y variables dependientes.

5. Patrones secuenciales o seguimiento de patrones:

Este método de minería de datos se utiliza para identificar patrones que ocurren con frecuencia durante un cierto período de tiempo.

Por ejemplo, el gerente de ventas de la compañía de ropa ve que las ventas de chaquetas parecen aumentar justo antes de la temporada de invierno, o las ventas en panadería aumentan en Navidad o Año Nuevo.

Veamos un ejemplo con un gráfico.

Fuentes: - data-mining.philippe-fournier-viger

6. árboles de decisión:

Un árbol de decisión es una estructura de árbol (como su nombre lo indica), donde

  • Cada nodo interno representa una prueba en el atributo.
  • Rama denota el resultado de la prueba.
  • Los nodos terminales tienen la etiqueta de clase.
  • El nodo superior es el nodo raíz que tiene la pregunta simple que tiene dos o más respuestas. En consecuencia, el árbol crece y se genera un diagrama de flujo como estructura.

Fuentes: - www.tutorialride.com

En esta decisión, el gobierno de árbol clasifica a los ciudadanos menores de 18 años o mayores de 18 años. Esto los ayudaría a decidir si una licencia debe otorgarse a un ciudadano en particular o no.

7. Análisis de resultados o análisis de anomalías:

Este método de minería de datos se utiliza para identificar los elementos de datos que no cumplen con el patrón esperado o el comportamiento esperado. Estos elementos de datos inesperados se consideran valores atípicos o ruidos. Son útiles en muchos dominios, como la detección de fraudes con tarjetas de crédito, la detección de intrusos, la detección de fallas, etc. Esto también se llama Minería de valores atípicos .

Por ejemplo, supongamos que el gráfico a continuación se traza utilizando algunos conjuntos de datos en nuestra base de datos.

Entonces se dibuja la línea de mejor ajuste. Los puntos que se encuentran cerca de la línea muestran el comportamiento esperado, mientras que el punto alejado de la línea es un valor atípico.

Esto ayudaría a detectar las anomalías y tomar las posibles acciones en consecuencia.

https://bit.ly/2GrgjDP

8. Red neuronal:

Este método o modelo de minería de datos se basa en redes neuronales biológicas. Es una colección de neuronas como unidades de procesamiento con conexiones ponderadas entre ellas. Se utilizan para modelar la relación entre entradas y salidas. Se utiliza para la clasificación, el análisis de regresión, el procesamiento de datos, etc. Esta técnica funciona en tres pilares:

  • Modelo
  • Algoritmo de aprendizaje (supervisado o no supervisado)
  • Función de activación

Fuentes: - www.saedsayad.com

Artículos recomendados

Esta ha sido una guía para los métodos de minería de datos Aquí hemos discutido qué es la minería de datos y los diferentes tipos de métodos de minería de datos con el ejemplo. También puede consultar los siguientes artículos para obtener más información:

  1. Software de análisis de Big Data
  2. Preguntas de la entrevista de estructura de datos
  3. Técnicas importantes de minería de datos
  4. Arquitectura de minería de datos

Categoría: