En esta práctica vamos a trabajar con el fichero de datos Diabetes.
El fichero de datos contiene 19 variables medidas sobre 403 pacientes. Estos pacientes forman parte de un estudio con 1046 sujetos diseñado para investigar la prevalencia de la de obesidad, diabetes, y otros factores de riesgo cardiovasculares para Afroamericanos en Virginia, EEUU.
Según Dr John Hong, Diabetes Mellitus Tipo II está asociada con la obesidad. El índice cintura-cadera puede ser un predictor en diabetes y enfermedades de corazón.
Diabetes Mellitus Tipo II está también asociada con hipertensión y ambos pueden ser parte del “Síndrome X”.
Los 403 sujetos del estudio son aquellos a los que se les hizo un seguimiento de diabetes. La hemoglobina glicosilada \(>7.0\) se toma normalmente como diagnóstico positivo de diabetes.
1.5 Obtén una tabla de frecuencias absolutas y relativas para la variable frame.
table(diabetes$frame)
large medium small
103 196 104
table(diabetes$frame)/nrow(diabetes)
large medium small
0.2555831 0.4863524 0.2580645
1.6 Realiza una representación gráfica adecuada para la variable frame. ¿Qué información obtienes?
X <-table(diabetes$frame)# Diagrama de barrasbarplot(X, xlab="Frame", ylab="Frecuencias abs.", col=topo.colors(3))legend("topright", legend=levels(diabetes$frame), fill=topo.colors(3))
# Diagrama de sectorespie(X, labels=names(X), col=topo.colors(3))legend("topleft", legend=levels(diabetes$frame), fill=topo.colors(3))
1.7 Calcula la moda de la variable frame. ¿Qué significa?
1.8 ¿Qué representaciones gráficas te parecen adecuadas para la variable chol?
1.9 Realiza un histograma y un diagrama de cajas de la variable chol. ¿Qué información obtienes de ellos?
par(mfrow=c(1,2),pty="s")hist(diabetes$chol, nclass="scott", col="cyan", main="Histograma", xlab="Colesterol")boxplot(diabetes$chol, col="pink", main="Diagrama de caja", xlab="Colesterol")
1.10 A la vista del diagrama de cajas y del histograma de la variable chol, qué puedes decir acerca de su simetría? ¿Qué crees que será mayor, la media o la mediana?
1.11 Calcula el coeficiente de asimetría, la media y la mediana de la variable chol.
summary(diabetes$chol)
Min. 1st Qu. Median Mean 3rd Qu. Max.
78.0 179.0 204.0 207.8 230.0 443.0
library(PASWR2)
Cargando paquete requerido: lattice
Cargando paquete requerido: ggplot2
eda(diabetes$chol)
Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
403.000 0.000 78.000 179.000 207.846 204.000 205.903 230.000
Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
443.000 44.390 1970.494 2.211 51.000 365.000 2.558 0.924
SW p-val
0.000
1.12 Calcula el mínimo, el máximo, los cuartiles y la desviación típica de la variable chol. ¿Entre qué valores se encuentra el 25% de las personas con el colesterol más alto? ¿Y el 75% de las personas con el colesterol más bajo? ¿Qué puedes decir acerca de la dispersión de la variable?¿ Dónde hay más dispersión, en el 25% de las personas con mayor colesterol o en el 25% de las personas con colesterol más bajo?
1.13 Calcula el coeficiente de curtosis de la variable chol. ¿Qué indica?
1.14 Según el diagrama de cajas, ¿existe alguna observación atípica? ¿Alguna de ellas es un valor extremo?
b <-boxplot(diabetes$chol)
b$out
[1] 78 443 318 347 342 404 307 337 322
## Para calcular valores extremos, debemos tipificar la variable ##z.chol <- (diabetes$chol-mean(diabetes$chol))/sd(diabetes$chol)pos <-which(z.chol<-3| z.chol>3)diabetes$chol[pos]
[1] 443 347 342 404
1.15 ¿Cuántos hombres y cuántas mujeres hay en la muestra?
table(diabetes$gender)
female male
234 169
1.16 ¿Cuántas personas residen en Buckingham? ¿Cuántas en Louisa?
table(diabetes$location)
Buckingham Louisa
200 203
1.17 ¿Puedes calcular la media y la mediana de la variable location?
1.18 Realiza un diagrama de cajas de la variable chol según las categorías de la variable frame.
1.20 Calcula la media, mediana, la desviación típica y los cuartiles de la variable chol según las categorías de la variable frame?
tapply(diabetes$chol, diabetes$frame, summary)
$large
Min. 1st Qu. Median Mean 3rd Qu. Max.
78.0 181.5 206.0 208.0 231.5 347.0
$medium
Min. 1st Qu. Median Mean 3rd Qu. Max.
115.0 181.0 206.5 213.2 239.2 443.0
$small
Min. 1st Qu. Median Mean 3rd Qu. Max.
118.0 169.5 196.0 197.6 219.2 307.0
tapply(diabetes$chol, diabetes$frame, sd)
large medium small
43.25211 46.87484 38.95477
1.21 Realiza un histograma de la variable chol según las categorías de la variable frame y la variable gender.
1.22 Calcula la media, la mediana, los cuartiles y la desviación típica de la variable glyhb. Explica cómo está de dispersa utilizando el histograma, el diagrama de cajas, los cuartiles y la desviación típica.
eda(diabetes$glyhb)
Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
403.000 0.000 2.680 4.390 5.590 4.870 5.313 5.590
Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
16.110 2.206 4.867 0.110 1.200 13.430 5.252 2.266
SW p-val
0.000
1.23 Compara la dispersión de las variables chol y glyhb. ¿Qué variable tiene la desviación típica más alta? ¿Puedes concluir que aquella variable con la desviación típica más alta es la más dispersa? ¿Por qué? ¿Qué medida crees que es la más adecuada?
eda(diabetes$chol)
Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
403.000 0.000 78.000 179.000 207.846 204.000 205.903 230.000
Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
443.000 44.390 1970.494 2.211 51.000 365.000 2.558 0.924
SW p-val
0.000
eda(diabetes$glyhb)
Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
403.000 0.000 2.680 4.390 5.590 4.870 5.313 5.590
Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
16.110 2.206 4.867 0.110 1.200 13.430 5.252 2.266
SW p-val
0.000
1.24 Considera la variable chol por sexo. Selecciona el hombre y la mujer con mayor nivel de colesterol. ¿Cuál de los dos destaca más en comparación a la media de su grupo?
1.27 Calcula el mínimo, el máximo, los cuartiles y la desviación típica de la variable ratioWH. ¿Entre qué valores se encuentra el 25% de los valores más altos? ¿Y el 75% de los valores más bajos?
eda(diabetes$ratioWH)
Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
403.000 0.000 0.682 0.830 0.881 0.881 0.879 0.925
Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
1.143 0.072 0.005 0.004 0.095 0.461 0.644 0.383
SW p-val
0.002
summary(diabetes$ratioWH)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6818 0.8298 0.8806 0.8809 0.9250 1.1429
2. Tablas de doble entrada
2.1 ¿Cuántos hombres y cuántas mujeres hay en la localización Buckingham? ¿Cuántos en Louisa?
2.2 ¿Qué porcentaje de personas en la muestra tienen un body frame small y además son de Buckingham?
2.3 Dibuja un diagrama de barras donde representes las frecuencias de la variable location para cada una de las categorías de la variable frame?
2.4 Forma una tabla de doble entrada cruzando las variables gender y frame. ¿Cuántas mujeres tienen un body frame medium?
Y <-table(diabetes$gender,diabetes$frame)Y
large medium small
female 42 123 69
male 61 73 35
2.5 Qué porcentaje de hombres tienen un body frame large?
prop.table(Y)
large medium small
female 0.10421836 0.30521092 0.17121588
male 0.15136476 0.18114144 0.08684864
prop.table(Y,1)
large medium small
female 0.1794872 0.5256410 0.2948718
male 0.3609467 0.4319527 0.2071006
3. Covarianza y correlación
3.1 Realiza un diagrama de dispersión de las variables weight y waist. ¿Crees que existe relación lineal entre ambas variables? Calcula la covarianza y el coeficiente de correlación lineal.
3.2 Realiza un diagrama de dispersión de las variables chol y weight. ¿Crees que existe relación lineal entre ambas variables? Calcula la covarianza y el coeficiente de correlación lineal.
3.3 Selecciona las personas del condado de Buckingham y realiza un diagrama de dispersión de las variables waist y hip. ¿Crees que existe relación lineal entre ambas variables? Calcula la covarianza y el coeficiente de correlación lineal.
3.4 Selecciona las mujeres con body frame medium y realiza un diagrama de dispersión de las variables bp.1s y age. ¿Crees que existe relación lineal entre ambas variables? Calcula la covarianza y el coeficiente de correlación lineal.
Cruza las variables gender y frame y responde a las siguientes preguntas
¿Cuántas mujeres tienen body frame large?
¿Qué porcentaje de mujeres tienen body frame large?
¿Cuál es el porcentaje de hombres con body frame small?
¿Qué porcentaje de pacientes con body frame medium son hombres?
EJERCICIOS A ENTREGAR
Una Organización de Salud busca identificar qué factores de los pacientes están más asociados con la remisión del cáncer de pulmón tras el tratamiento, en el marco de un estudio más amplio sobre los resultados del tratamiento y la calidad de vida de los pacientes con esta enfermedad.
El archivo patients.txt contiene las siguientes variables medidas sobre un conjunto de datos de 8.525 pacientes.
remission: response variable (0=no, 1=yes)
Age: age of the patient (in years)
IL6: Interleukin-6 concentration in blood (pg/ml)
CRP: C-reactive protein concentration in blood (mg/dl)
LengthofStay: duration of a patient’s hospital stay (in weeks)
CancerStage: lung cancer stage (I, II, III or IV)
Smoking: is the patient a smoker? (1=never, 2=former, 3=current)
remission Age IL6 CRP LengthofStay CancerStage Smoking ID.hospital
1 0 65 3.699 8.086 6 II former 1
2 0 54 2.627 0.803 6 II former 1
3 0 53 13.896 4.034 5 II never 1
4 0 41 3.008 2.126 5 I former 1
5 0 47 3.891 1.349 6 II never 1
6 0 52 1.418 2.195 5 I never 1
En primer lugar, selecciona los pacientes asociados a tu código de hospital (ID.hospital) e indica cuántos pacientes pertenecen a dicho hospital.
1) Realiza un histograma y un diagrama de cajas de la variable IL6. ¿Qué puedes decir acerca de la simetría y la dispersión de la variable?
2) Calcula la media, mediana, cuartiles, desviación típica, coeficientes de asimetría y de curtosis, y los coeficientes de variación. Indica sus unidades e interpreta los estadísticos (en aquellos casos que sea posible).
3) Dibuja un histograma y un diagrama de cajas en función de la variable CancerStage. Interpreta los gráficos obtenidos.
4) Realiza un diagrama de dispersión de las variables IL6 y CRP. ¿Crees que existe relación lineal entre ellas? Calcula e interpreta la covarianza y el coeficiente de correlación lineal (indica sus unidades).
5) Selecciona el paciente fumador (never) y ex-fumador (former) con valores más bajos en la variable CRP. ¿Cuál de los dos pacientes destaca más en comparación a la media de su grupo? Justifica la respuesta.