Introducción a Scatterplot en R

  • R es un lenguaje de programación de código abierto utilizado para estadísticas de datos y análisis de datos. Con la creciente popularidad de la ciencia de datos, R también ha ganado popularidad. Es utilizado principalmente por estadísticos de datos y mineros de datos para extraer información valiosa de los datos. R es un lenguaje interpretado y tiene una interfaz de línea de comandos, pero hay muchas interfaces gráficas de usuario disponibles para facilitar los trabajos del desarrollador. R ofrece una gran variedad de bibliotecas para implementar estadísticas y técnicas gráficas. R ofrece gráficos estáticos; le permite al usuario construir un gráfico en capas. Por lo tanto, produce gráficos de calidad de publicación y proporciona una mejor representación de la información.
  • R ofrece un gran conjunto de bibliotecas para la implementación gráfica, pero la más popular es "ggplot2". GGPlot2 es una implementación de "Gramática de gráficos" que simplifica la creación de gráficos complejos. Proporciona una interfaz programática para especificar variables, su posición, el color del gráfico, los tipos de gráficos y otras propiedades de visualización. Le permite crear gráficos paso a paso, lo que le permite crear capas para una gran flexibilidad y calidad de publicación.
  • Uno de estos tipos de gráficos es Scatterplot en R. Scatterplot en R, también llamado diagrama de dispersión, que es un tipo de gráfico que muestra la correlación entre dos variables. Muestra los puntos de datos en forma de puntos. Se puede dibujar entre una variable independiente continua y otra variable que depende de la variable anterior o de dos variables independientes continuas. La correlación puede ser positiva, negativa o nula. Si la pendiente del gráfico es de abajo a la izquierda a arriba a la derecha, la correlación es positiva. Si la pendiente es de la parte superior izquierda a la inferior derecha, la correlación es negativa o, en otras palabras, el aumento en el valor de una variable disminuirá en el valor de otra variable.

Sintaxis: Hay muchos paquetes en R para gráficos, por lo tanto, hay muchas funciones para crear un diagrama de dispersión en R. La función más básica y simple es

trama (x, y)

dónde

x denota el eje horizontal o la variable continua independiente.

y denota el eje vertical o la variable dependiente.

Hay muchos otros parámetros para trazar la función y hacer que el gráfico sea fácil de entender.

A continuación hay algunos con una definición:

  • principal: agrega un título al gráfico
  • xlab: agrega una etiqueta al eje x
  • ylab: agrega una etiqueta al eje y
  • xlim: especifica el rango del eje x
  • ylim: especifica el rango del eje y
  • pch: indica la forma de los puntos en el diagrama de dispersión
  • cex: indica el tamaño de los puntos
  • col: define el color de los puntos

También se puede crear un diagrama de dispersión en R utilizando el paquete ggplot2. Para esto, primero necesitamos instalar y cargar el paquete ggplot2. Después de agregar el paquete a la sesión actual, el siguiente comando se puede utilizar para crear un diagrama de dispersión en R.

ggplot (conjunto de datos, aes (x, y, color, forma)) + geom_poin () + labs (x, y, título)

dónde

  • el conjunto de datos es el conjunto de datos para el que se debe crear el diagrama de dispersión.
  • aes () es un mapeo estético en un gráfico. Describe cómo se asignan las variables en el gráfico.
  • x es el eje horizontal o la variable continua independiente.
  • y es el eje vertical o la variable dependiente.
  • color es agregar color a los puntos según la variable de agrupación.
  • la forma se usa para establecer la forma en función de la variable de agrupación.
  • El signo + indica que el comando continúa.
  • geom_point () es función para el diagrama de dispersión.
  • laboratorios (x, y, título): agregue la etiqueta x, la etiqueta y y el título al gráfico.

Crear diagrama de dispersión en R

Para crear un diagrama de dispersión en R, primero necesitamos cargar el conjunto de datos. Aquí estamos usando el conjunto de datos (mtcars) provisto por R. Primero cargue el conjunto de datos en la sesión actual usando el siguiente comando

datos (iris)

Una vez que se cargó el conjunto de datos, visualice los datos para obtener una comprensión básica del tipo de datos y columnas que contiene utilizando el siguiente comando.

iris

Después de obtener una comprensión básica de los datos, creemos un diagrama de dispersión simple usando la función de trazado

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 5.0))

Agregar etiquetas para que el gráfico sea legible

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = “Sepal Length”, ylab = “Sepal Width”, main = “Width vs Longitud ")

Agregar algunos parámetros más para hacer que el gráfico sea más atractivo

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = “Sepal Length”, ylab = “Sepal Width”, main = “Width vs Longitud ", pch = 8, cex = 1.5, col = 6)

Además de estos gráficos en 2D, los gráficos de matriz y los gráficos en 3D también se pueden crear en R.

Matrices de diagrama de dispersión

Cuando tenemos más de dos variables en un conjunto de datos y queremos encontrar una correlación de cada variable con todas las demás variables, se utiliza la matriz de diagrama de dispersión. El comando más básico y simple para la matriz de diagrama de dispersión es:

pares (~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = iris, main = "Scatterplot Matrix")

El gráfico anterior muestra la correlación entre peso, mpg, dsp y cil.

Scatterplot 3D

A veces, un gráfico tridimensional proporciona una mejor comprensión de los datos. Para este R proporciona múltiples paquetes, uno de ellos es "scatterplot3d". A continuación se muestran los comandos para instalar "scatterplot3d" en el espacio de trabajo de R y cargarlo en la sesión actual

install.packages ("scatterplot3d")

biblioteca (scatterplot3d)

Después de cargar la biblioteca, la ejecución de los siguientes comandos creará un diagrama de dispersión en 3-D.

adjuntar (iris)

scatterplot3d (Sepal.Length, Sepal.Width, Petal.Length, main = “3D Scatterplot”)

Aparte de esto, hay muchas otras formas de crear un tridimensional. Los usuarios también pueden agregar detalles como color, títulos para mejorar el gráfico. El usuario también puede crear un diagrama de dispersión interactivo en 3D mediante la función "plot3D (x, y, z)" proporcionada por el paquete "rgl". Esta función crea un diagrama de dispersión 3D giratorio que se puede rotar con un mouse. Por lo tanto, dando una vista completa de la correlación entre las variables.

Conclusión

R es uno de los lenguajes más famosos para la implementación de técnicas gráficas utilizadas por los científicos de datos. Proporciona una amplia gama de paquetes y bibliotecas para gráficos y una mejor comprensión de los datos. "Gglpot2", "ggvis", "rgl", "plot3d", "celosía", "animación", "gganimate", "cairo" son algunos de los paquetes proporcionados por R.

Un diagrama de dispersión es la forma más sencilla de comprender mejor los datos. Al usar esta visualización, el usuario puede conocer cómo se relacionan las variables entre sí, cómo cambiar el valor de una variable cambiará el valor de otras variables, etc. La pendiente del gráfico informa sobre la relación positiva y negativa entre las variables.

Artículos recomendados

Esta es una guía de Scatterplot en R. Aquí discutimos una introducción, matrices de scatterplot, scatterplot 3D, ¿cómo crear scatterplot? junto con ejemplos apropiados. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. ¿Qué es GraphQL?
  2. Marco Scrum
  3. R Preguntas de la entrevista
  4. Introducción a la distribución binomial en R

Categoría: