Introducción a las etiquetas de Boxplot en R
Las etiquetas de diagrama de caja ayudan en la visualización de datos distribuidos en R. El gráfico representa la media, la mediana y la varianza. Los valores se dan como una entrada a la función boxplot (). La función Boxplot () crea el diagrama de caja con la ayuda de datos de entrada dados. Se puede crear un diagrama de caja para variables individuales o un grupo.
Trazar el gráfico de diagrama de caja
- Necesitamos cinco entradas valoradas como media, varianza, mediana, primer y tercer cuartil.
- Identificar si hay valores atípicos en los datos.
- Diseñe el modelo para trazar los datos.
Parámetros bajo la función boxplot ()
- fórmula: este parámetro permite derramar valores numéricos en varios grupos.
- Datos :: Datos de entrada que contienen un marco de datos o una lista.
- Subconjunto: parámetro vectorial opcional para especificar un subconjunto para el trazado.
- xlab: anotación del eje x
- ylab: anotación del eje y.
- rango: rango especifica las extensiones de la trama.
- acción: especifique qué sucede cuando hay un valor nulo. Ignora la respuesta o el valor.
Crear datos aleatorios
Podemos crear datos de muestra aleatorios a través de la función rnorm ().
Ahora usemos rnorm () para crear datos de muestra aleatorios de 10 valores.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2))
El comando anterior genera 10 valores aleatorios con media 3 y desviación estándar = 2 y lo almacena en el marco de datos.
Cuando imprimimos los datos, obtenemos el siguiente resultado.
Stat1
1 2.662022
2 2.184315
3 5.974787
4 4.536203
5 4.808296
6 3.817232
7 1.135339
8 1.583991
9 3.308994
10 4.649170
Podemos convertir la misma entrada (datos) a la función boxplot que genera el gráfico.
Agregamos más valores a los datos y vemos cómo cambia la trama.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data)
Agregar más valores aleatorios y usarlo para representar un gráfico.
A continuación se muestran los valores almacenados en la variable de datos.
ESTADO 1 | ESTADO 2 | ESTADO 3 | ESTADO 4 |
3.795465 | 4.21864 | 5.827585 | 2.157315 |
0.911726 | 4.09119 | 6.260811 | 2.26594 |
3.707828 | 3.35987 | 5.88945 | 3.714557 |
0.115772 | 4.5123 | 5.934858 | 2.40645 |
0.697556 | 2.15945 | 6.81147 | 2.571304 |
5.129231 | 3.2698 | 6.250068 | 3.025175 |
5.404101 | 4.38939 | 5.670061 | 2.9901 |
1.455066 | 3.13059 | 5.692323 | 2.69693 |
0.868636 | 5.42311 | 5.415435 | 2.674768 |
2.14113 | 3.90728 | 6.206059 | 2.806656 |
A continuación se muestra el gráfico de diagrama de caja con 40 valores. Tenemos 1-7 números en el eje y y stat1 a stat4 en el eje x.
Podemos cambiar la alineación del texto en el eje x usando otro parámetro llamado las = 2.
Analizando el gráfico de las etiquetas de R Boxplot
Hemos dado la entrada en el marco de datos y vemos la gráfica anterior.
Para comprender los datos, veamos los valores de stat1.
La trama representa los 5 valores. Comenzando con el valor mínimo desde abajo y luego el tercer cuartil, la media, el primer cuartil y el valor mínimo.
La gráfica anterior tiene una alineación de texto horizontal en el eje x.
Cambiando el color
En todos los ejemplos anteriores, hemos visto la trama en blanco y negro. Veamos cómo cambiar el color en la trama.
Podemos agregar el parámetro col = color en la función boxplot ().
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col="red")
data
A continuación podemos ver la salida del gráfico en rojo.
Usando el mismo código anterior, podemos agregar múltiples colores a la trama.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col=c("red", "blue", "green", "yellow")
data
Agregar etiquetas
Podemos agregar etiquetas usando los parámetros xlab, ylab en la función boxplot ().
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", col=c("red", "blue", "green", "yellow"))
data
Al usar el parámetro principal, podemos agregar encabezado a la gráfica.
data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", main="Random relation", notch=TRUE, col=c("red", "blue", "green", "yellow"))
data
El parámetro Notch se usa para hacer que la trama sea más comprensible. Como medianas de stat1 a stat4 no coinciden en el gráfico anterior.
Ventajas y desventajas del diagrama de caja
Ventajas
- Resumir grandes cantidades de datos es fácil con las etiquetas de diagrama de caja.
- Muestra el rango y la distribución de datos en el eje.
- Indica simetría y asimetría.
- Ayuda a identificar valores atípicos en los datos.
Desventajas
- Solo se puede usar para datos numéricos.
- Si hay discrepancias en los datos, entonces el diagrama de caja no puede ser exacto.
Notas:
- Los gráficos deben estar etiquetados correctamente.
- Las escalas son importantes; cambiar escalas puede dar a los datos una vista diferente.
- La comparación de datos con escalas correctas debe ser consistente
Conclusión: etiquetas de R Boxplot
La agrupación de datos se hace fácil con la ayuda de boxplots. El diagrama de caja admite múltiples variables, así como varias optimizaciones. También podemos variar las escalas según los datos.
Los diagramas de caja se pueden usar para comparar varias variables de datos o conjuntos.
La usabilidad de boxplot es fácil y conveniente. Necesitamos datos consistentes y etiquetas adecuadas. Los gráficos de caja a menudo se usan en ciencia de datos e incluso por equipos de ventas para agrupar y comparar datos. Boxplot ofrece información sobre el potencial de los datos y las optimizaciones que se pueden hacer para aumentar las ventas.
Boxplot es una forma interesante de probar los datos que proporciona información sobre el impacto y el potencial de los datos.
Artículos recomendados
Esta es una guía para las etiquetas de R Boxplot. Aquí discutimos los Parámetros bajo la función boxplot (), cómo crear datos aleatorios, cambiando el color y el análisis gráfico junto con las Ventajas y Desventajas. También puede consultar el siguiente artículo para obtener más información:
- Tipos de visualización de datos
- Implementación del almacén de datos
- Técnicas de ciencia de datos
- ¿Qué es el cubo de datos?