Práctica repaso

Author

Aritz Adin

Published

18/12/2024

Descripción

En esta práctica vamos a trabajar con el fichero de datos ZBS.csv. Este fichero contiene información sobre algunas Zonas Básicas de Salud de Navarra (año 2021). En concreto, se dispone de información de las siguientes variables:

Variable Descripción
ZBS Zona Básica de Salud
Region Región geográfica
COVID19 Casos acumulados de COVID-19
Diabeticos Número de diabéticos diagnosticados
Pob Población total
Pob14 Población mayor de 14 años
Pob90 Población mayor de 90 años
Extranjeros Población nacida en el extranjero
Sexo Sexo mayoritario en la ZBS
Natalidad Tasas de natalidad (nacimientos por cada mil habitantes)
Tasa_paro Tasa de desempleo (%)
Esperanza Esperanza de vida (años)
Pobreza Riesgo de pobreza
Indice Índice de envejecimiento (%)

En primer lugar, debemos leer el fichero ZBS.csv en R utilizando el asistente \[\mbox{Import Dataset -> Front text (base)}\] y seleccionando la opción Strings as factors.

1. Estadística Descriptiva Univariante

## Cargamos los paquetes necesarios ##
library(PASWR2)
library(car)

1.1. ¿Cuántas observaciones tiene el fichero?

1.2. ¿Cuántas variables tiene? ¿De qué tipo es cada una?

1.3. ¿Cuántas categorías tiene la variable Region?

1.4. Obtén una tabla de frecuencias absolutas y relativas para la variable Region.

1.5. Realiza una representación gráfica adecuada para la variable Region. Calcula las medidas de tendencia central adecuadas para esta variable.

1.6. Realiza un histograma y un diagrama de cajas de la variable Diabeticos. A la vista de estas representaciones gráficas, ¿qué puedes decir acerca de la simetría de esta variable? ¿Qué crees que será mayor, la media o la mediana?

1.7. Calcula el coeficiente de asimetría, la media y la mediana de la variable Diabeticos. ¿Confirman dichos valores lo observado en el histograma y el diagrama de cajas?

1.8. Compara la dispersión de las variables Pob14 y Pob90.

2. Estadística Descriptiva Bivariante

2.1. Realiza un diagrama de cajas de la esperanza de vida en función de la variable Pobreza. ¿Qué observas?

2.2. Realiza un diagrama de cajas de la variable Natalidad por tipo de región geográfica. Compara la asimetria de la variable en los distintos grupos.

2.4. Selecciona únicamente las zonas básicas de salud situadas en la región del Sur. Compara la tasa de desempleo media en función del sexo mayoritario de la zona.

2.5. Realiza una tabla de contingencia para las variables Region y Pobreza.

  • ¿Que porcentaje de zonas básicas de salud se encuentran en la región del norte y tienen riesgo alto de pobreza?

  • Entre las zonas básicas de salud del centro, ¿que porcentaje tienen riesgo bajo de pobreza?

  • Entre las zonas básicas de con riesgo alto de pobreza, ¿que porcentaje pertecen al sur?

2.6. Realiza un diagrama de dispersión de las variables Pob y Extranjeros. Calcula e interpreta el coeficiente de correlación lineal entre ambas variables. ¿Crées que sería adecuado utilizar otro tipo de relación no lineal para medir la asociación entre estas variables?

2.7. ¿Existe una relación lineal entre la tasa de natalidad y el índice de envejecimiento de las zonas básicas de salud? Realiza el análisis estadístico adecuado e interpreta los resultados obtenidos.

3. Contrastes Paramétricos y No-Paramétricos

3.1. Contrasta al nivel de significación de \(\alpha=0.05\) si la esperanza de vida media en las zonas básicas de salud de Navarra es superior 83 años. Justifica si puedes asumir normalidad. ¿Qué contraste es más adecuado en este caso?

3.2. Contrasta al nivel de significación de \(\alpha=0.01\) si la tasa de desempleo media de las zonas básicas de salud situadas en el norte de Navarra es inferior al 8%. Justifica si puedes asumir normalidad. ¿Qué contraste es más adecuado en este caso?

3.3. Contrasta al nivel de significación de \(\alpha=0.05\) si existen diferencias significativas en la esperanza de vida media entre las zonas básicas de salud situadas en el norte y en el sur de Navarra. Realiza el contraste de hipótesis que consideres adecuado.

3.4. Contrasta al nivel de significación de \(\alpha=0.05\) si el índice de envejecimiento medio entre las zonas básicas de salud con sexo mayoritario de hombres es al menos 2 puntos superior al índice de envejecimiento de las zonas básicas de salud con sexo mayoritario de mujeres. Realiza el contraste de hipótesis que consideres adecuado.

3.5. Contrasta al nivel de significación de \(\alpha=0.05\) si existen diferencias entre los niveles medios del índice de envejecimiento según la región geográfica de las zonas básicas de salud de Navarra. Si has detectado diferencias, averigua entre qué grupos existen diferencias estadísticamente significativas.

4. Regresión Lineal

4.1. Ajusta un modelo de regresión lineal (simple) que permita estimar el índice de envejecimiento en función de la tasa de natalidad.

  • Proporciona una interpretación para los coeficientes

  • Representa gráficamente la línea ajustada

  • Obtén la predicción para el índice de envejecimiento en tres ZBS con tasas de natalidad de 5, 10 y 15 nacimientos por cada mil habitantes.

4.2. Ajusta un modelo de regresión lineal (multiple) que permita estimar el índice de envejecimiento en función de las variables Natalidad, Pobreza, Region, Sexo, Tasa_paro y Esperanza.

  • Selecciona las variables incluyendo secuencialmente en el modelo aquellas son estadísticamente significativas utilizando la función .
  • Utiliza también la función stepAIC() de la librería MASS para seleccionar las variables.

  • Interpreta los coeficientes del modelo.

  • Predice el valor del índice de envejecimiento para una ZBS con una tasa de natalidad de 8 nacimientos por cada mil habitantes, con riesgo de pobreza baja, situada en el norte, una tasa de paro del 12% y con una esperanza de vida de 83.5 años.

5. Riesgos relativos y Odds Ratio

5.1. Calcula e interpreta un intervalo de confianza al 95% para la diferencia de proporciones de ZBS con riesgo de pobreza alta entre las regiones del centro y del norte de Navarra.

5.2. Estima e interpreta el riesgo relativo de que una ZBS se encuentre en riesgo de pobreza alta entre las regiones del centro y del norte. Proporciona un intervalo de confianza al 90% para dicho riesgo.

5.3. Estima e interpreta el odds de que una ZBS tenga riesgo alto de pobreza en ambas regiones.

5.4 Estima e interpreta el odds ratio y calcula su intervalo de confianza (\(\alpha=0.9\)).