Gráficos en R - Tipos de gráficos en R y ejemplos con implementación

Tabla de contenido:

Anonim

Introducción a los gráficos en R

Un gráfico es una herramienta que marca una diferencia significativa en el análisis. Los gráficos en Rare son importantes, ya que ayudan a presentar los resultados de la manera más interactiva. R, como paquete de programación estadística, ofrece amplias opciones para generar una variedad de gráficos.

Algunos de los gráficos en R están disponibles en la instalación base, pero otros se pueden usar instalando paquetes necesarios. La característica única de los gráficos en R es que explican hallazgos estadísticos intrincados a través de visualizaciones. Entonces, esencialmente, esto es como moverse un paso por encima de la forma tradicional de visualizar los datos. R, por lo tanto, ofrece un enfoque listo para usar para impulsar el análisis.

Tipos de gráficos en R

Una variedad de gráficos está disponible en R, y el uso se rige únicamente por el contexto. Sin embargo, el análisis exploratorio requiere el uso de ciertos gráficos en R, que deben usarse para analizar datos. Ahora veremos algunos de estos gráficos importantes en R.

Para la demostración de varios gráficos, vamos a utilizar el conjunto de datos de "árboles" disponible en la instalación base. ¿Se pueden descubrir más detalles sobre el conjunto de datos usando? comando de árboles en R.

1. Histograma

Un histograma es una herramienta gráfica que funciona en una sola variable. Numerosos valores variables se agrupan en contenedores, y se calculan varios valores denominados como la frecuencia. Este cálculo se utiliza para trazar barras de frecuencia en los respectivos beans. La altura de una barra está representada por la frecuencia.

En R , podemos emplear la función hist () como se muestra a continuación, para generar el histograma. A continuación se muestra un histograma simple de las alturas de los árboles.

Código:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Salida:

Para comprender la tendencia de la frecuencia, podemos agregar una gráfica de densidad sobre el histograma anterior. Esto ofrece más información sobre la distribución de datos, asimetría, curtosis, etc. El siguiente código hace esto, y la salida se muestra siguiendo el código.

Código:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Salida:

2. Diagrama de dispersión

Esta trama es un tipo de gráfico simple, pero muy crucial que tiene un significado tremendo. El gráfico da la idea de una correlación entre variables y es una herramienta útil en un análisis exploratorio.

El siguiente código genera un gráfico de diagrama de dispersión simple. Le hemos agregado una línea de tendencia para comprender la tendencia que representan los datos.

Código:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Salida:

El cuadro creado por el siguiente código muestra que existe una buena correlación entre la circunferencia del árbol y el volumen del árbol.

Código:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Salida:

Matrices de diagrama de dispersión

R nos permite comparar múltiples variables a la vez porque utiliza matrices de diagrama de dispersión. Implementar la visualización es bastante simple y se puede lograr usando la función pares () como se muestra a continuación.

Código:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Salida:

Scatterplot3d

Hacen posible la visualización en tres dimensiones que pueden ayudar a comprender la relación entre múltiples variables. Por lo tanto, para que los diagramas de dispersión estén disponibles en 3D, primero debe instalarse el paquete scatterplot3d. Entonces, el siguiente código genera un gráfico 3D como se muestra debajo del código.

Código:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Salida:

Podemos agregar líneas y colores, utilizando el siguiente código. Ahora, podemos distinguir convenientemente entre diferentes variables.

Código:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Salida:

3. Boxplot

Boxplot es una forma de visualizar datos a través de cajas y bigotes. En primer lugar, los valores variables se ordenan en orden ascendente y luego los datos se dividen en cuartos.

El cuadro en el gráfico es el 50% medio de los datos, conocido como IQR. La línea negra en el cuadro representa la mediana.

Código:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Salida:

Una variante de la gráfica de caja, con muescas, se muestra a continuación.

Código:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Salida:

4. Gráfico de líneas

Los gráficos de líneas son útiles al comparar múltiples variables. Nos ayudan a relacionar varias variables en una sola parcela. En la siguiente ilustración, trataremos de comprender la tendencia de tres características de árbol. Entonces, como se muestra en el siguiente código, inicialmente, y el gráfico de líneas para Girth se traza usando la función plot (). Luego, los gráficos de líneas para Altura y Volumen se trazan en el mismo gráfico usando la función de líneas ().

El parámetro "ylim" en la función plot () ha sido, para acomodar los tres gráficos de líneas correctamente. Tener leyenda es importante aquí, ya que ayuda a entender qué línea representa qué variable. En la leyenda, el parámetro "lty = 1: 1" significa que tenemos el mismo tipo de línea para todas las variables, y "cex" representa el tamaño de los puntos.

Código:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Salida:

5. Trazado de puntos

Esta herramienta de visualización es útil si queremos comparar múltiples categorías con una medida determinada. Para la siguiente ilustración, se ha utilizado el conjunto de datos mtcars. La función dotchart () traza el desplazamiento para varios modelos de automóviles como se muestra a continuación.

Código:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Salida:

Entonces, ahora clasificaremos el conjunto de datos en valores de desplazamiento, y luego los trazaremos por diferentes engranajes usando la función dotchart ().

Código:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Salida:

Conclusión

La analítica en un verdadero sentido se aprovecha solo a través de visualizaciones. R, como herramienta estadística, ofrece fuertes capacidades de visualización. Entonces, las numerosas opciones asociadas con los gráficos es lo que los hace especiales. Cada uno de los cuadros tiene su propia aplicación y el cuadro debe estudiarse antes de aplicarlo a un problema.

Artículos recomendados

Esta es una guía de Gráficos en R. Aquí discutimos la introducción y los tipos de gráficos en R, tales como histograma, diagrama de dispersión, diagrama de caja y mucho más junto con ejemplos e implementación. También puede consultar los siguientes artículos para obtener más información:

  1. Tipos de datos R
  2. Paquetes R
  3. Introducción a Matlab
  4. Gráficos vs Gráficos