Introducción al algoritmo KNN en R

En el Algoritmo KNN en R, KNN significa K algoritmo vecino más cercano y R es un lenguaje de programación. Se dice que es el algoritmo de aprendizaje automático más simple. KNN es un algoritmo supervisado que clasifica los puntos de datos en una clase objetivo al comparar características con su vecino más cercano.

Ejemplo: supongamos que desea clasificar una pantalla táctil y un teléfono con teclado. Hay varios factores que implican diferenciar ambos teléfonos. Sin embargo, el factor que diferencia a ambos teléfonos es el teclado. Entonces, cuando recibimos un punto de datos (es decir, teléfono). Lo comparamos con las características similares de los puntos de datos vecinos para clasificarlo como un teclado o un teléfono táctil.

Características del algoritmo KNN

Aquí estudiaremos las características del algoritmo KNN:

  • El algoritmo KNN utiliza datos de entrada para predecir los puntos de datos del conjunto de salida.
  • El algoritmo se puede aplicar a varios conjuntos de problemas.
  • Se enfoca en la similitud de características para clasificar los datos.
  • El algoritmo KNN maneja datos realistas y no hace suposiciones sobre los puntos de datos.
  • KNN memoriza el conjunto de datos de entrenamiento en lugar de ser intuitivo. Además, se puede decir que tiene un enfoque perezoso.
  • Puede resolver problemas de clasificación y regresión.

Abordar problemas en el algoritmo KNN en R

Siguiente problema de direccionamiento:

1. Problema de clasificación

En el problema de Clasificación, los valores son discretos, como si le gusta comer pizza con ingredientes o sin ella. Hay un terreno común. El algoritmo de KNN ayuda a resolver este problema.

2. Problema de regresión

El problema de regresión entra en escena cuando tenemos una variable dependiente y una variable independiente. Ej: índice de IMC. Normalmente, cada fila contiene un punto de observación o datos y un ejemplo.

El algoritmo KNN en R

Veamos los pasos en el algoritmo que se debe seguir:

Paso 1: cargue los datos de entrada.

Paso 2: Inicialice K con el número de vecinos más cercanos.

Paso 3: Calcular los datos (es decir, la distancia entre el vecino actual y el más cercano)

Paso 4: Agregar la distancia al conjunto de datos ordenado actual.

Paso 5: Recoger K entradas y etiquetarlas.

Paso 6: Devuelve el valor medio para el problema de regresión.

Paso 7: Devuelve el valor del modo para problemas de clasificación.

Puntos a recordar al implementar el algoritmo KNN

  • Debemos asegurarnos de que el valor K sea mayor que uno, ya que dificulta la predicción para ser exactos.
  • Cuanto más valor de K, más precisa puede ser la predicción para la mayoría.
  • Es preferible tener K como número impar. De lo contrario, puede conducir a un desempate.

KNN Pseudocódigo

En la siguiente fórmula, representa variables y representa puntos de datos donde (i = 1, 2, 3….)

Set(, )

Casos de uso

Los siguientes son los casos de uso en Algoritmo KNN en R:

1. Comparación de productos y ayuda en las recomendaciones de compra

Cuando compramos una computadora portátil o una computadora en un sitio web de comercio electrónico en línea, también vemos recomendaciones de compra, como comprar software antivirus o altavoces. Todo esto se debe a que cuando un cliente anterior compra una computadora portátil, se compra principalmente junto con un antivirus o altavoces. El aprendizaje automático ayuda en las recomendaciones de comercio electrónico.

2. Recomendaciones alimentarias

El aprendizaje automático también ayuda en las recomendaciones basadas en alimentos previamente ordenados y también sugiere restaurantes en consecuencia.

Ejemplo del algoritmo KNN

Los siguientes son los ejemplos del algoritmo KNN:

1. Importar datos

Tomemos los datos ficticios sobre nosotros que predicen el tamaño de la camiseta de un hombre con ayuda de altura y peso.

Altura (cms) Peso (kilogramos) Talla
140 58 S
140 59 S
140 63 S
150 59 METRO
152 60 60 METRO
153 60 60 METRO
154 61 METRO
155 64 METRO
156 64 METRO
157 61 METRO
160 62 L
161 sesenta y cinco L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Encontrar las similitudes calculando la distancia

Podemos usar la distancia de Manhattan y Euclidiana ya que los datos son continuos. Calculamos la distancia entre la nueva muestra y el conjunto de datos de entrenamiento, luego encontramos K-más cercano.

Ejemplo: Digamos que 'Raj' tiene una altura de 165 cms y pesa 63 Kgs. Calculamos la distancia euclidiana utilizando la primera observación con la nueva muestra: SQRT ((165-140) 2 + (63-58) 2)

3. Encontrar vecinos más cercanos a K

Supongamos que K = 4, hay 4 clientes en los que 3 de ellos tenían un tamaño mediano y 1 era de gran tamaño. La mejor predicción es el tamaño mediano de Raj.

Diferencia entre KNN y K-mean

Los siguientes son la diferencia:

  • KNN es un algoritmo supervisado (variable dependiente) mientras que K-mean es un algoritmo no supervisado (sin variable dependiente).
  • K-mean utiliza una técnica de agrupamiento para dividir puntos de datos formando grupos K.KNN utiliza vecinos K más cercanos para clasificar puntos de datos y los combina.

Ventajas y desventajas de KNN

Las siguientes son las ventajas:

  • El algoritmo KNN es versátil, puede usarse para problemas de clasificación y regresión.
  • No es necesario un modelo anterior para construir el algoritmo KNN.
  • Simple y fácil de implementar.

Las siguientes son las desventajas:

  • El algoritmo a medida que aumenta el número de muestras (es decir, no de variables)

Artículos recomendados

Esta es una guía de Algoritmo KNN en R. Aquí discutimos características, ejemplos, pseudocódigo, pasos a seguir en Algoritmo KNN. También puede consultar nuestros otros artículos relacionados para obtener más información.

  1. Algoritmos de ciencia de datos
  2. ¿Qué es el algoritmo genético?
  3. Algoritmos de enrutamiento
  4. Algoritmos de red neuronal
  5. Algoritmo de C ++ | Ejemplos de algoritmo C ++

Categoría: