Saca el MÁXIMO de summary() en R para estadística descriptiva
La función summary() en R es una de las más populares y sencillas para obtener estadística básica, pero tiene varias claves importantes que no siempre se explican a fondo. En este artículo te cuento todo lo que necesitas saber para sacarle el máximo partido a summary() , desde qué información te ofrece hasta trucos para usarla de forma recurrente y sacar conclusiones útiles con tus datos.
¿Qué es summary() en R?
summary() es una función que nos proporciona estadísticas básicas descriptivas de un vector o columna de datos en R. Por ejemplo, si tienes un vector con un montón de datos, esta función te devuelve valores clave como:
• Mínimo
• Primer cuartil
• Mediana
• Media
• Tercer cuartil
• Máximo
Estos valores son la base para entender la distribución de tus datos de forma rápida y sencilla.
Cómo usar summary() con ejemplos prácticos
Imagina que tienes un array con casi 500 valores. Si aplicas summary() a ese array, obtendrás exactamente 6 valores que resumen toda esa información. Por ejemplo:
mi_array <- c(...) # tu vector con datos
resumen <- summary(mi_array)
print(resumen)
¡Pero aquí viene lo bueno! Puedes guardar el resultado de summary() en una variable y acceder de forma individual a cada medida cada vez que lo necesites. Por ejemplo, acceder al mínimo o a la mediana sin tener que ejecutar de nuevo la función:
resumen["Min."] # Mínimo
resumen["Median"] # Mediana
Esto es especialmente útil cuando trabajas con data frames grandes o haces filtrados complejos.
Entendiendo cada estadística que te devuelve summary()
Puede haber cierta confusión sobre qué representan exactamente estos números. Aquí te lo explico rápido con una visualización mental:
• El mínimo es el valor más bajo que existe en tu conjunto.
• El máximo es el más alto.
• La mediana es el valor que está justo en el medio si ordenas tus datos de menor a mayor.
• La media es el promedio, que se calcula sumando todos los valores y dividiendo por la cantidad de datos.
• El primer cuartil es el valor debajo del cual está el 25% de los datos.
• El tercer cuartil es el valor debajo del cual está el 75% de los datos.
La mediana es especialmente útil cuando tus datos tienen valores extremos que podrían distorsionar el promedio. Por ejemplo, si tienes muchos valores alrededor de 5800 y un valor extremadamente alto como 10,000, la media será sesgada hacia arriba, pero la mediana te dará una referencia más estable.
Técnicas avanzadas con summary(): percentiles y estadística predictiva
¿Quieres ir más allá? Puedes calcular percentiles personalizados (por ejemplo, el 10% y 20%) usando la función quantile() :
quantile(mi_array, probs = c(0.1, 0.2))
Esto te permite segmentar tus datos en partes más finas según tus necesidades.
Además, summary() también es útil cuando lo aplicas a modelos estadísticos, como los resultados de una regresión lineal. Te proporciona información clave como coeficientes, valores p y R cuadrado, que te ayudan a evaluar la calidad de tus predicciones.
Además, summary() también es útil cuando lo aplicas a modelos estadísticos, como los resultados de una regresión lineal. Te proporciona información clave como coeficientes, valores p y R cuadrado, que te ayudan a evaluar la calidad de tus predicciones.
Resumen y recursos para seguir aprendiendo
La función summary() es muy poderosa y un punto de partida excelente para el análisis descriptivo en R. Guardar sus resultados y entender qué significa cada valor es vital para obtener conclusiones sólidas. Si quieres ir más allá, existen cursos completos disponibles en D0AR Academy para dominar desde estadística descriptiva hasta predictiva, visualización y proyectos prácticos.
¿Quieres aprender R desde cero o mejorar tus habilidades analizando datos? Echa un vistazo a nuestra academia online sin compromisos ni matrículas y con soporte personalizado para todas tus dudas. ¡Nos vemos en clase!
¿Quieres aprender R desde cero o mejorar tus habilidades analizando datos? Echa un vistazo a nuestra academia online sin compromisos ni matrículas y con soporte personalizado para todas tus dudas. ¡Nos vemos en clase!