## Cargamos los paquetes necesarios ##
library(PASWR2)
library(car)
Práctica repaso
Descripción
En esta práctica vamos a trabajar con el fichero de datos ZBS.csv
. Este fichero contiene información sobre algunas Zonas Básicas de Salud de Navarra (año 2021). En concreto, se dispone de información de las siguientes variables:
Variable | Descripción |
---|---|
ZBS | Zona Básica de Salud |
Region | Región geográfica |
COVID19 | Casos acumulados de COVID-19 |
Diabeticos | Número de diabéticos diagnosticados |
Pob | Población total |
Pob14 | Población mayor de 14 años |
Pob90 | Población mayor de 90 años |
Extranjeros | Población nacida en el extranjero |
Sexo | Sexo mayoritario en la ZBS |
Natalidad | Tasas de natalidad (nacimientos por cada mil habitantes) |
Tasa_paro | Tasa de desempleo (%) |
Esperanza | Esperanza de vida (años) |
Pobreza | Riesgo de pobreza |
Indice | Índice de envejecimiento (%) |
En primer lugar, debemos leer el fichero ZBS.csv
en R utilizando el asistente \[\mbox{Import Dataset -> Front text (base)}\] y seleccionando la opción Strings as factors.
1. Estadística Descriptiva Univariante
1.1. ¿Cuántas observaciones tiene el fichero?
1.2. ¿Cuántas variables tiene? ¿De qué tipo es cada una?
1.3. ¿Cuántas categorías tiene la variable Region
?
1.4. Obtén una tabla de frecuencias absolutas y relativas para la variable Region
.
1.5. Realiza una representación gráfica adecuada para la variable Region
. Calcula las medidas de tendencia central adecuadas para esta variable.
1.6. Realiza un histograma y un diagrama de cajas de la variable Diabeticos
. A la vista de estas representaciones gráficas, ¿qué puedes decir acerca de la simetría de esta variable? ¿Qué crees que será mayor, la media o la mediana?
1.7. Calcula el coeficiente de asimetría, la media y la mediana de la variable Diabeticos
. ¿Confirman dichos valores lo observado en el histograma y el diagrama de cajas?
1.8. Compara la dispersión de las variables Pob14
y Pob90
.
2. Estadística Descriptiva Bivariante
2.1. Realiza un diagrama de cajas de la esperanza de vida en función de la variable Pobreza
. ¿Qué observas?
2.2. Realiza un diagrama de cajas de la variable Natalidad
por tipo de región geográfica. Compara la asimetria de la variable en los distintos grupos.
2.4. Selecciona únicamente las zonas básicas de salud situadas en la región del Sur. Compara la tasa de desempleo media en función del sexo mayoritario de la zona.
2.5. Realiza una tabla de contingencia para las variables Region
y Pobreza
.
¿Que porcentaje de zonas básicas de salud se encuentran en la región del norte y tienen riesgo alto de pobreza?
Entre las zonas básicas de salud del centro, ¿que porcentaje tienen riesgo bajo de pobreza?
Entre las zonas básicas de con riesgo alto de pobreza, ¿que porcentaje pertecen al sur?
2.6. Realiza un diagrama de dispersión de las variables Pob
y Extranjeros
. Calcula e interpreta el coeficiente de correlación lineal entre ambas variables. ¿Crées que sería adecuado utilizar otro tipo de relación no lineal para medir la asociación entre estas variables?
2.7. ¿Existe una relación lineal entre la tasa de natalidad y el índice de envejecimiento de las zonas básicas de salud? Realiza el análisis estadístico adecuado e interpreta los resultados obtenidos.
3. Contrastes Paramétricos y No-Paramétricos
3.4. Contrasta al nivel de significación de \(\alpha=0.05\) si el índice de envejecimiento medio entre las zonas básicas de salud con sexo mayoritario de hombres es al menos 2 puntos superior al índice de envejecimiento de las zonas básicas de salud con sexo mayoritario de mujeres. Realiza el contraste de hipótesis que consideres adecuado.
4. Regresión Lineal
4.1. Ajusta un modelo de regresión lineal (simple) que permita estimar el índice de envejecimiento en función de la tasa de natalidad.
Proporciona una interpretación para los coeficientes
Representa gráficamente la línea ajustada
Obtén la predicción para el índice de envejecimiento en tres ZBS con tasas de natalidad de 5, 10 y 15 nacimientos por cada mil habitantes.
4.2. Ajusta un modelo de regresión lineal (multiple) que permita estimar el índice de envejecimiento en función de las variables Natalidad
, Pobreza
, Region
, Sexo
, Tasa_paro
y Esperanza
.
- Selecciona las variables incluyendo secuencialmente en el modelo aquellas son estadísticamente significativas utilizando la función .
Utiliza también la función
stepAIC()
de la librería MASS para seleccionar las variables.Interpreta los coeficientes del modelo.
Predice el valor del índice de envejecimiento para una ZBS con una tasa de natalidad de 8 nacimientos por cada mil habitantes, con riesgo de pobreza baja, situada en el norte, una tasa de paro del 12% y con una esperanza de vida de 83.5 años.