Introducción a las redes neuronales convolucionales

Las redes neuronales convolucionales, también conocidas como CNN o ConvNet, entran en la categoría de redes neuronales artificiales utilizadas para el procesamiento y visualización de imágenes. La inteligencia artificial utiliza el aprendizaje profundo para realizar la tarea. Las redes neuronales son hardware o software programado como neuronas en el cerebro humano. La red neuronal tradicional solo toma imágenes de resolución reducida como entradas. CNN resuelve ese problema al organizar sus neuronas como el lóbulo frontal de los cerebros humanos. El preprocesamiento en CNN es muy inferior en comparación con otros algoritmos. Convolución, una operación matemática lineal se emplea en CNN. Utiliza la convolución en lugar de la multiplicación matricial general en una de sus capas.

Capas en redes neuronales convolucionales

A continuación se muestran las capas de redes neuronales convolucionales:

1. Capa de entrada de imagen

La capa de entrada proporciona entradas (principalmente imágenes) y se lleva a cabo la normalización. El tamaño de entrada debe mencionarse aquí.

2. Capa convolucional

La convolución se realiza en esta capa y la imagen se divide en perceptrones (algoritmo), se crean campos locales que conducen a la compresión de perceptrones para presentar mapas como una matriz con tamaño mx n.

3. Capa de no linealidad

Aquí los mapas de características se toman como entrada y los mapas de activación se dan como salida con la ayuda de la función de activación. La función de activación generalmente se implementa como funciones tangentes sigmoideas o hiperbólicas.

4. Capa de rectificación

El componente crucial de CNN, esta capa hace el entrenamiento más rápido sin reducir la precisión. Realiza la operación de valor absoluto por elementos en los mapas de activación.

5. Unidades lineales rectificadas (ReLU)

ReLU combina capas no lineales y de rectificación en CNN. Esto hace la operación de umbral donde los valores negativos se convierten a cero. Sin embargo, ReLU no cambia el tamaño de la entrada.

6. Capa de agrupación

La capa de agrupación también se denomina capa de disminución de resolución, ya que es responsable de reducir el tamaño de los mapas de activación. Se aplica un filtro y una zancada de la misma longitud al volumen de entrada. Esta capa ignora los datos menos significativos, por lo tanto, el reconocimiento de imagen se realiza en una representación más pequeña. Esta capa reduce el sobreajuste. Dado que la cantidad de parámetros se reduce utilizando la capa de agrupación, el costo también se reduce. La entrada se divide en regiones de agrupación rectangulares y se calcula el máximo o el promedio, que en consecuencia devuelve el máximo o el promedio. Max Pooling es popular.

7. Capa de abandono

Esta capa establece aleatoriamente la capa de entrada en cero con una probabilidad dada. Se eliminan más resultados en diferentes elementos después de esta operación. Esta capa también ayuda a reducir el sobreajuste. Hace que la red sea redundante. No se produce aprendizaje en esta capa. Esta operación se lleva a cabo solo durante el entrenamiento.

8. Capa completamente conectada

Los mapas de activación, que son el resultado de las capas anteriores, se convierten en una distribución de probabilidad de clase en esta capa. La capa FC multiplica la entrada por una matriz de peso y agrega el vector de polarización.

9. Capa de salida

La capa FC es seguida por las capas softmax y de clasificación. La función softmax se aplica a la entrada. La capa de clasificación calcula la función de entropía cruzada y pérdida para problemas de clasificación.

10. Capa de regresión

La mitad del error cuadrático medio se calcula en esta capa. Esta capa debe seguir a la capa FC.

Arquitectura de la red neuronal convolucional

A continuación se muestra la arquitectura de las redes neuronales convolucionales:

1. LeNet

LeNet se introdujo para el reconocimiento óptico y de caracteres en documentos en 1998. Es pequeño y perfecto para ejecutarse en la CPU. LeNet es pequeño y fácil de entender. Esto se construye con tres ideas principales: campos receptivos locales, pesos compartidos y submuestreo espacial. La red muestra la mejor representación interna de imágenes en bruto. Tiene tres capas convolucionales, dos capas de agrupación, una capa totalmente conectada y una capa de salida. Una capa convolucional fue seguida inmediatamente por la capa de agrupación. Todas las capas se explican anteriormente.

2. AlexNet

AlexNet se desarrolló en 2012. Esta arquitectura popularizó CNN en visión por computadora. Tiene cinco capas convolucionales y tres completamente conectadas donde se aplica ReLU después de cada capa. Aprovecha las ventajas de ambas capas, ya que una capa convolucional tiene pocos parámetros y un cálculo largo y es lo contrario para una capa completamente conectada. El sobreajuste se redujo en gran medida por el aumento de datos y la deserción. AlexNet era más profundo, las capas más grandes y convolucionales no están separadas por una capa de agrupación en comparación con LeNet.

3. ZF Net

ZF Net se desarrolló en 2013, que era una versión modificada de AlexNet. El tamaño de la capa convolucional media se expandió y la zancada de la primera capa convolucional y el tamaño del filtro se hicieron más pequeños. Simplemente reconoció las deficiencias de AlexNet y desarrolló una superior. Todas las capas son iguales a AlexNet. ZF Net ajusta los parámetros de la capa, como el tamaño del filtro o la zancada de AlexNet, lo que hace que reduzca las tasas de error.

4. GoogLeNet

Esta arquitectura se desarrolló en 2014. La capa inicial es el concepto central. Esta capa cubre el área más grande pero toma nota de la pequeña información de la imagen. Para mejorar el rendimiento, se utilizan nueve módulos de inicio en GoogLeNet. Dado que la capa de inicio es propensa al sobreajuste, aquí se usan más no linealidades y menos parámetros. La capa de agrupación máxima se utiliza para concatenar la salida de la capa anterior. Esta arquitectura tiene 22 capas y los parámetros son 12 veces menos. Esto es más preciso que AlexNet, más rápido también. La tasa de error es comparativamente menor. La capa de agrupación promedio se usa al final en lugar de una capa completamente conectada. El cómputo se reduce, la profundidad y el ancho aumentan. Muchos módulos de inicio están conectados para profundizar en la arquitectura. GoogLeNet superó a todas las demás arquitecturas desarrolladas hasta 2014. Varias versiones de seguimiento están disponibles para esta arquitectura.

5. VGG Net

Esta fue una mejora sobre ZFNet y posteriormente sobre AlexNet. Tiene 16 capas con capas convolucionales de 3 × 3, capas de agrupación de 2 × 2 y capas totalmente conectadas. Esta arquitectura adopta la estructura de red más simple pero tiene la mayoría de los parámetros.

6. ResNet

La arquitectura de red residual se desarrolló en 2015. Utiliza la normalización por lotes y omite el uso de capas FC. Esta arquitectura usa 152 capas y usa conexiones de omisión. ResNet se usa principalmente en todos los algoritmos de aprendizaje profundo ahora.

Conclusión

Facebook usa CNN para etiquetar imágenes, Amazon para recomendaciones de productos y Google para buscar entre las fotos de los usuarios. Todo esto se hace con mayor precisión y eficiencia. El avance en el aprendizaje profundo alcanzó una etapa en la que se desarrolló CNN y ayuda de muchas maneras. A medida que se vuelve complicado CNN, ayuda a mejorar la eficiencia.

Artículo recomendado

Esta es una guía de redes neuronales convolucionales. Aquí discutimos Introducción a las redes neuronales convolucionales y sus capas junto con la arquitectura. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. Clasificación de la red neuronal
  2. Aprendizaje automático vs red neuronal
  3. Descripción general de los algoritmos de red neuronal
  4. Redes neuronales recurrentes (RNN)
  5. Implementación de redes neuronales
  6. Las 6 mejores comparaciones entre CNN y RNN

Categoría: