Introducción a los algoritmos de clasificación

Este artículo sobre algoritmos de clasificación presenta una visión general de los diferentes métodos de clasificación comúnmente utilizados en las técnicas de minería de datos con diferentes principios. La clasificación es una técnica que clasifica los datos en un número distinto de clases y, a su vez, se asignan etiquetas a cada clase. El objetivo principal de la clasificación es identificar la clase para lanzar nuevos datos mediante el análisis del conjunto de entrenamiento al ver los límites adecuados. De manera general, la predicción de la clase objetivo y el proceso anterior se llama clasificación.

Por ejemplo, la administración del hospital registra el nombre del paciente, la dirección, la edad, el historial previo de la salud del paciente para diagnosticarlos, esto ayuda a clasificar a los pacientes. Se pueden caracterizar en dos fases: una fase de aprendizaje y una fase de evaluación. La fase de aprendizaje modela la base del enfoque con datos de capacitación, mientras que la fase de evaluación predice el resultado de los datos dados. Podríamos encontrar sus aplicaciones en correo electrónico no deseado, predicción de préstamos bancarios, reconocimiento de voz, análisis de opinión. La técnica incluye la función matemática f con entrada X y salida Y.

Explicar los algoritmos de clasificación en detalle

La clasificación se puede realizar tanto en datos estructurados como no estructurados. La clasificación se puede clasificar en

  1. Clasificador ingenuo de Bayes
  2. Árboles de decisión
  3. Máquinas de vectores soporte
  4. Bosque al azar
  5. K- Vecinos más cercanos

1) clasificador ingenuo de Bayes

Es un algoritmo basado en el teorema de Bayes, una de las clasificaciones estadísticas y requiere pocas cantidades de datos de entrenamiento para estimar los parámetros también conocidos como clasificadores probabilísticos. Se considera el clasificador más rápido, altamente escalable y maneja datos discretos y continuos. Este algoritmo solía hacer una predicción en tiempo real. Existen diferentes tipos de clasificadores ingenuos, Multinomial Naïve Bayes, Bernoulli Naïve Bayes, Gaussian ingenuo.

La clasificación bayesiana con probabilidades posteriores viene dada por

Donde A, B son eventos, P (A | B) - Probabilidades posteriores.

Si dos valores son independientes entre sí, entonces,

P (A, B) = P (A) P (B)

Naïve Bayes se puede construir usando la biblioteca python. Los predictores ingenuos son independientes, aunque se usan en sistemas de recomendación. Se usan en muchas aplicaciones en tiempo real y se usan bien a sabiendas en la clasificación de documentos.

Ventajas:

Las ventajas son que requieren una potencia de cálculo muy inferior, asumida en problemas de predicción de clase múltiple, que funcionan con precisión en grandes conjuntos de datos.

Desventaja:

La principal desventaja de este clasificador es que asignarán probabilidad cero. Y tienen características que son independientes entre sí.

2) Árbol de decisión

Es un modelo de enfoque de arriba hacia abajo con la estructura del diagrama de flujo que maneja datos de alta dimensión. Los resultados se predicen en función de la variable de entrada dada. Árbol de decisión compuesto por los siguientes elementos: una raíz, muchos nodos, ramas, hojas. El nodo raíz realiza la partición en función del valor de atributo de la clase, el nodo interno toma un atributo para una clasificación adicional, las ramas toman una regla de decisión para dividir los nodos en nodos hoja, por último, los nodos hoja nos dan el resultado final. La complejidad temporal del árbol de decisión depende del número de registros, atributos de los datos de entrenamiento. Si el árbol de decisión es demasiado largo, es difícil obtener los resultados deseados.

Ventaja: se aplican para el análisis predictivo para resolver los problemas y se utilizan en las actividades diarias para elegir el objetivo en función del análisis de decisiones. Crea automáticamente un modelo basado en los datos de origen. Lo mejor en el manejo de valores perdidos.

Desventaja: el tamaño del árbol es incontrolable hasta que tiene algunos criterios de detención. Debido a su estructura jerárquica, el árbol es inestable.

3) Máquina de vectores de soporte

Este algoritmo juega un papel vital en los problemas de clasificación y, más popularmente, en algoritmos supervisados ​​de aprendizaje automático. Es una herramienta importante utilizada por el investigador y el científico de datos. Este SVM es muy fácil y su proceso es encontrar un hiperplano en un punto de datos de espacio N-dimensional. Los hiperplanos son límites de decisión que clasifican los puntos de datos. Todo este vector se acerca al hiperplano, maximiza el margen del clasificador. Si el margen es máximo, el más bajo es el error de generalización. Su implementación se puede hacer con el kernel usando python con algunos conjuntos de datos de entrenamiento. El objetivo principal de la SVM es entrenar un objeto en una clasificación particular. SVM no está restringido para convertirse en un clasificador lineal. SVM se prefiere más que cualquier modelo de clasificación debido a su función de núcleo que mejora la eficiencia computacional.

Ventaja: son altamente preferibles por su menor poder computacional y precisión efectiva. Eficaz en espacio de altas dimensiones, buena eficiencia de memoria.

Desventaja: limitaciones en velocidad, kernel y tamaño

4) bosque aleatorio

Es un poderoso algoritmo de aprendizaje automático basado en el enfoque de aprendizaje Ensemble. El componente básico del bosque aleatorio es el árbol de decisión utilizado para construir modelos predictivos. La demostración de trabajo incluye la creación de un bosque de árboles de decisión aleatorios y el proceso de poda se realiza estableciendo divisiones de detención para obtener un mejor resultado. El bosque aleatorio se implementa utilizando una técnica llamada ensacado para la toma de decisiones. Este embolsado evita el sobreajuste de datos al reducir el sesgo de manera similar, este azar puede lograr una mayor precisión. Una predicción final es tomada por un promedio de muchos árboles de decisión, es decir, predicciones frecuentes. El bosque aleatorio incluye muchos casos de uso como predicciones del mercado de valores, detección de fraudulencias, predicciones de noticias.

Ventajas:

  • No requiere ningún gran procesamiento para procesar los conjuntos de datos y un modelo muy fácil de construir. Proporciona mayor precisión ayuda a resolver problemas predictivos.
  • Funciona bien en el manejo de valores perdidos y detecta automáticamente un valor atípico.

Desventaja:

  • Requiere alto costo computacional y alta memoria.
  • Requiere mucho más tiempo.

5) K- Vecinos más cercanos

Aquí discutiremos el algoritmo K-NN con aprendizaje supervisado para CART. Hacen uso de K entero pequeño positivo; se asigna un objeto a la clase en función de los vecinos o diremos asignar un grupo observando en qué grupo se encuentra el vecino. Esto se elige por la distancia, la distancia euclidiana y la fuerza bruta. El valor de K se puede encontrar utilizando el proceso de ajuste. KNN no prefiere aprender ningún modelo para entrenar un nuevo conjunto de datos y usar la normalización para reescalar datos.

Ventaja: produce resultados efectivos si los datos de capacitación son enormes.

Desventaja: El mayor problema es que si la variable es pequeña, funciona bien. En segundo lugar, elegir el factor K al clasificar.

Conclusión

En conclusión, hemos analizado las capacidades de diferentes algoritmos de clasificación que aún actúan como una herramienta poderosa en ingeniería de características, clasificación de imágenes que juega un gran recurso para el aprendizaje automático. Los algoritmos de clasificación son algoritmos poderosos que resuelven problemas difíciles.

Artículos recomendados

Esta es una guía de Algoritmos de Clasificación en aprendizaje automático. Aquí discutimos que la Clasificación se puede realizar tanto en datos estructurados como no estructurados. También puede consultar nuestros otros artículos sugeridos:

  1. Algoritmos de enrutamiento
  2. Algoritmo de agrupamiento
  3. Proceso de minería de datos
  4. Algoritmos de aprendizaje automático
  5. Técnicas más utilizadas de aprendizaje conjunto
  6. Algoritmo de C ++ | Ejemplos de algoritmo C ++

Categoría: