¿Cómo instalar NLTK?

El siguiente artículo Instalar NLTK proporciona un esquema para instalar NLTK. NLTK es un conjunto de bibliotecas para el procesamiento del lenguaje natural. Es una plataforma para construir programas de Python para procesar lenguaje natural. NLTK está escrito en lenguaje de programación Python. Fue desarrollado por Steven Bird y Edward Loper. Es compatible con la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluidas las ciencias cognitivas, la lingüística empírica, la recuperación de información, la inteligencia artificial y el aprendizaje automático. NLTK proporciona una interfaz fácil de usar.

NLTK (Kit de herramientas de lenguaje natural)

  • El procesamiento del lenguaje natural (PNL) es una parte de la inteligencia artificial que procesa el lenguaje hablado por los humanos. Por lo tanto, ayuda a los humanos a interactuar con las computadoras, incluso si no tienen conocimiento de cómo usarlo. Usando PNL, los humanos solo necesitan dictar el comando a las computadoras. Con el poder del aprendizaje automático, el procesamiento del lenguaje natural se está volviendo popular y más fácil de implementar. Básicamente es la técnica para interactuar con humanos y realizar acciones con comandos de voz.
  • Esto permite que los dispositivos sean utilizados incluso por los novatos que no tienen conocimiento de la tecnología. Pero la implementación del procesamiento del lenguaje natural no es fácil, ya que un lenguaje hablado por humanos no tiene una estructura definida. Es ambiguo y depende de palabras de contexto que pueden tener un significado diferente.
  • NLTK tiene más de 50 corpus y fuentes léxicas como WordNet, Problem Report Corpus, Penn Treebank Corpus, etc. También viene con una guía que explica los conceptos del procesamiento del lenguaje por herramientas y los fundamentos de programación de Python, lo que facilita a las personas que no tienen un conocimiento profundo de programación. Tiene una amplia gama de paquetes, lo que lo convierte en uno de los potentes kits de herramientas para PNL. Tokenización, lematización, derivación, análisis, recuento de caracteres, puntuación, recuento de palabras son algunos de estos paquetes.

Instalar NLTK para Windows

A continuación se encuentran las instrucciones para instalar NLTK en Windows. Estos se basan en el supuesto de que Python no está instalado en el sistema. NLTK requiere Python versiones 2.7, 3.5 y superiores.

Paso 1: descargue la última versión de Python para Windows desde el siguiente enlace

https://www.python.org/downloads/

Paso 2: haz clic en el archivo .exe descargado para ejecutarlo.

Paso 3: selecciona personalizar instalación.

Paso 4: Verifique todas las características, especialmente "pip", ya que ayuda a instalar NLTK y haga clic en Siguiente.

Paso 5: en la siguiente pantalla, seleccione las opciones avanzadas, seleccione la ruta y haga clic en instalar.

Paso 6: Una vez que la instalación sea exitosa, cierre la ventana.

Paso 7: Copie la ruta de la carpeta Scripts para instalar NLTK en la misma carpeta.

NLTK se puede instalar fácilmente utilizando un instalador "pip". Además, también tenemos que instalar "numpy".

Paso 8: Para instalar NLTK, abra el símbolo del sistema y escriba el siguiente comando.

Asegúrese de que la instalación sea exitosa.

Después de una instalación exitosa, es hora de usar el NLTK para el procesamiento del lenguaje natural.

Paso 9: Abra Python Shell y escriba el siguiente comando.

Si se importa sin ningún error, significa que NLTK está instalado correctamente.

Instalar NLTK para Mac / Linux

A diferencia de Windows, los sistemas Linux vienen con Python instalado. Para instalar NLTK en Linux / Mac, se utiliza el instalador del paquete Pip de Python. Para instalar pip o actualizarlo, escriba debajo de los comandos en el símbolo del sistema.

Para instalar Python en Linux, use los siguientes comandos.

Paso 1: Para actualizar el índice del paquete, use el siguiente comando.

Paso 2: para instalar Python en el sistema Linux, use a continuación.

Paso 3: Escriba el siguiente comando para instalar "pip" para Python 3.

Paso 4: Después de instalar "Pip" con éxito, use los siguientes comandos para instalar NLTK.

Conjunto de datos NLTK

NLTK tiene muchos conjuntos de datos disponibles para el procesamiento del lenguaje natural, por ejemplo, WordNet, WikiCorpus, Gutenberg, Opinion Lexicon, Tweebank, etc. Estos conjuntos de datos se denominan corpus. Básicamente, el conjunto de datos NLTK contiene un conjunto de archivos o documentos. Cada archivo / documento contiene una colección de palabras, letras o texto en un solo idioma. Por lo tanto, un corpus es principalmente bibliotecas para comprender / aprender un idioma. Tiene reglas de gramática y estructura de un lenguaje.

Después de instalar con éxito NLTK, puede importarlo y también descargar sus corpus con el siguiente comando.

El descargador NLTK abre una ventana para descargar los conjuntos de datos. El tamaño del conjunto de datos es grande, por lo tanto, llevará tiempo. Para probar si los conjuntos de datos están instalados correctamente, intente importar el conjunto de datos y úselo.

Procesamiento de NLTK

Hay 5 procesos principales de procesamiento del lenguaje natural. Estos son los pasos involucrados en el procesamiento de cualquier texto.

  1. Detección EOS : la detección de fin de discurso divide el texto en una colección de oraciones significativas. Divide el texto largo en partes que tienen algún significado.
  2. Tokenización : este paso divide las oraciones en tokens. Los tokens no solo contienen palabras, sino que también incluyen espacios en blanco, saltos de oraciones.
  3. Etiquetado de POS : POS significa pat-of-speech. Aquí, la información se asigna al token. Esta información sugiere qué tipo de discurso es en tiempo, verbo, adjetivo, sustantivo, etc.
  4. Fragmentación : la fragmentación significa recopilar texto basado en etiquetas.
  5. Extracción: la extracción es un proceso continuo de atravesar fragmentos y etiquetarlos como entidades con nombre como personas, ubicaciones, organizaciones, etc.

Conclusión:

NLTK se utiliza para la clasificación de texto, subtítulos de imágenes, reconocimiento de voz, respuesta a preguntas, modelado de idiomas, resumen de documentos y muchas otras operaciones. Existen muchas otras herramientas para el procesamiento del lenguaje natural. Pero NLTK tiene una amplia gama de bibliotecas, lo que la convierte en una de las poderosas herramientas de procesamiento de lenguaje natural. Es más preciso que cualquier otra herramienta, pero debido a la gran cantidad de bibliotecas, es un poco lento. Por lo tanto, todo depende de los requisitos del usuario. Si el usuario quiere velocidad, también puede preferir otras herramientas, pero luego tendrá que comprometerse con la precisión del contenido. Pero si la precisión es una prioridad, definitivamente deberían optar por NLTK.

Artículos recomendados:

Esta ha sido una guía para instalar NLTK. Aquí discutimos el concepto básico y los diferentes pasos para instalar NLTK en Windows y Linux \ Mac. También puede consultar los siguientes artículos para obtener más información.

  1. Instalar el panel de Kubernetes
  2. Cómo instalar JDK
  3. Instalar Docker
  4. ¿Cómo instalar Magento?
  5. Versiones de Magento | Características de las versiones de Magento