Práctica 3: Contrastes de hipótesis y análisis de la varianza

Author

Aritz Adin

Published

30/10/2024

Descripción

En esta práctica vamos a trabajar con el fichero de datos Diabetes.

  • El fichero de datos contiene 19 variables medidas sobre 403 pacientes. Estos pacientes forman parte de un estudio con 1046 sujetos diseñado para investigar la prevalencia de la de obesidad, diabetes, y otros factores de riesgo cardiovasculares para Afroamericanos en Virginia, EEUU.

  • Según Dr John Hong, Diabetes Mellitus Tipo II está asociada con la obesidad. El índice cintura-cadera puede ser un predictor en diabetes y enfermedades de corazón.

  • Diabetes Mellitus Tipo II está también asociada con hipertensión y ambos pueden ser parte del “Síndrome X”.

  • Los 403 sujetos del estudio son aquellos a los que se les hizo un seguimiento de diabetes. La hemoglobina glicosilada \(>7.0\) se toma normalmente como diagnóstico positivo de diabetes.

El fichero puede descargarse de la web http://biostat.mc.vanderbilt.edu/wiki/Main/DataSets

Para más información ver el paper

Willems JP, Saunders JT, DE Hunt, JB Schorling. Prevalence of coronary heart disease risk factors among rural blacks: A community-based study. Southern Medical Journal 90:814-820; 1997. https://europepmc.org/abstract/med/9258308

Variables

Estas son las variables que contiene el fichero (se han eliminado alguna del fichero original y se han reemplazado algunos valores perdidos):

Variable Descripción
id Subject ID
chol Total Cholesterol (mg/dL)
stab.glu Stabilized Glucose (mg/dL)
hdl High Density Lipoprotein (mg/dL)
ratio Cholesterol / HDL ratio
glyhb Glycolsolated Hemoglobin (%)
location Buckingham or Louisa
age Age of patient (years)
gender Male or Female
height Height (inches)
weight Weight (pounds)
frame Body frame size (small, medium, large)
bp.1s First Systolic Blood Pressure (mmHg)
pb.1d First Diastolic Blood Pressure (mmHg)
waist Waistline (inches)
hip Hip measurement (inches)

Para leer el fichero de diabetes en R:

diabetes <- read.table("diabetes.txt", header=TRUE, sep="", dec=".", stringsAsFactors=TRUE)
head(diabetes)
    id chol stab.glu hdl ratio glyhb   location age gender height weight  frame
1 1000  203       82  56   3.6  4.31 Buckingham  46 female     62    121 medium
2 1001  165       97  24   6.9  4.44 Buckingham  29 female     64    218  large
3 1002  228       92  37   6.2  4.64 Buckingham  58 female     61    256  large
4 1003   78       93  12   6.5  4.63 Buckingham  67   male     67    119  large
5 1005  249       90  28   8.9  7.72 Buckingham  64   male     68    183 medium
6 1008  248       94  69   3.6  4.81 Buckingham  34   male     71    190  large
  bp.1s bp.1d waist hip
1   118    59    29  38
2   112    68    46  48
3   190    92    49  57
4   110    50    33  38
5   138    80    44  41
6   132    86    36  42

IMPORTANTE:

  • Contraste bilateral –> alternative="two.sided"

  • Contraste unilateral inferior –> alternative="less"

  • Contraste unilateral superior –> alternative="greater"

1. Contrastes paramétricos

1.1. Contrasta al nivel de significación 0.05 si el nivel medio de colesterol en los hombres del condado de Buckingham es superior a 200. Justifica si puedes asumir normalidad

Sea X=“Nivel de colesterol de los hombres del condado de Buckingham (mg/dL)”.

El contraste que debemos realizar (\(\alpha=0.05\)) se escribe como:

\[\begin{eqnarray*} \begin{array}{rl} H_0: & \mu=200 \\ H_1: & \mu>200 \\ \end{array} \end{eqnarray*}\]

En primer lugar seleccionamos los datos de la muestra:

pos <- which(diabetes$gender=="male" & diabetes$location=="Buckingham")
chol.manB <- diabetes$chol[pos] 

Comprobamos la condición de normalidad:

# shapiro.test(chol.manB)

library(PASWR2)
eda(chol.manB)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
  86.000    0.000   78.000  174.000  203.603  197.500  202.536  230.750 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
 347.000   44.598 1988.956    4.809   56.750  269.000    0.677    0.402 
SW p-val 
   0.208 

Realizamos el test (paramétrico) para una media:

t.test(chol.manB, mu=200, alternative="greater", conf.level=0.95)

    One Sample t-test

data:  chol.manB
t = 0.74918, df = 85, p-value = 0.2279
alternative hypothesis: true mean is greater than 200
95 percent confidence interval:
 195.6054      Inf
sample estimates:
mean of x 
 203.6029 

Como p-valor\(=0.23>\alpha=0.05 \Rightarrow\) No rechazamos \(H_0\).

Interpretación: Con un nivel de significación del 5%, no existen evidencias estadísticas para afirmar que el nivel medio de colesterol en los hombres de Buckingham es superior a 200 mg/dL.

1.2. Contrasta al nivel de significación 0.10 si la presión diastólica media de los hombres es distinta a la presión diastólica media de las mujeres. Comprueba que las dos muestras provienen de poblaciones normales. Realiza el correspondiente test de medias.

Definimos las variables:

X=“Presión diastólica de los hombres (mmHg)”

Y=“Presión diastólica de las mujeres (mmHg)”

El contraste que debemos realizar (\(\alpha=0.10\)) se escribe como:

\[\begin{eqnarray*} \begin{array}{rl} H_0: & \mu_X - \mu_Y = 0 \\ H_1: & \mu_X - \mu_Y \neq 0 \\ \end{array} \end{eqnarray*}\]

En primer lugar seleccionamos los datos de las muestras:

# table(diabetes$gender)

pos1 <- which(diabetes$gender=="male")
bp1d.male <- diabetes$bp.1d[pos1]

pos2 <- which(diabetes$gender=="female")
bp1d.female <-diabetes$bp.1d[pos2]

Comprobamos la condición de normalidad en ambas variables:

eda(bp1d.male)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
 169.000    0.000   50.000   76.000   84.465   82.000   84.200   92.000 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
 122.000   13.504  182.347    1.039   16.000   72.000    0.124    0.351 
SW p-val 
   0.058 
eda(bp1d.female)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
 234.000    0.000   48.000   72.000   82.496   82.000   82.269   90.000 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
 124.000   13.474  181.535    0.881   18.000   76.000   -0.014    0.216 
SW p-val 
   0.232 

Verificamos si podemos asumir que las varianzas son iguales o no:

boxplot(bp.1d ~ gender, data=diabetes)

Realizamos el test (paramétrico) para la diferencia de medias en poblaciones independientes:

t.test(bp1d.male, bp1d.female, mu=0, alternative="two.sided",
       var.equal=TRUE,  conf.level=0.9)

    Two Sample t-test

data:  bp1d.male and bp1d.female
t = 1.4469, df = 401, p-value = 0.1487
alternative hypothesis: true difference in means is not equal to 0
90 percent confidence interval:
 -0.2747344  4.2142710
sample estimates:
mean of x mean of y 
 84.46534  82.49558 

Como p-valor\(=0.15>\alpha=0.10 \Rightarrow\) No rechazamos \(H_0\).

Interpretación: Con un nivel de significación del 10%, no existen evidencias estadísticas para afirmar que la presión diastólica media de los hombres sea distinta del de las mujeres.

1.3. Se dispone de dos aparatos, uno nuevo y otro antiguo, para medir los niveles de glucosa en sangre. Los médicos sospechan que el nuevo aparato proporciona niveles de glucosa en sangre superiores al antiguo. Se dispone de una muestra con 15 pacientes diabéticos a los que se les ha medido los niveles de glucosa con los dos aparatos. Las medidas se encuentran en el fichero GLUCOSE de la librería PASWR2.

data("GLUCOSE")
head(GLUCOSE)
  patient    old    new
1       1 182.47 195.64
2       2 175.53 196.31
3       3 181.71 190.33
4       4 179.03 192.90
5       5 177.28 193.24
6       6 177.49 193.05

Definimos las variables:

X=“Nivel de glucosa (mg/dL) con el aparato viejo”

Y=“Nivel de glucosa (mg/dL) con el aparato nuevo”

  • ¿Son las muestras independientes?

Como se tratan de los mismos individuos medidos en distintos instantes de tiempo, las muestras son dependientes (o emparejadas). Por lo tanto, trabajaremos con la diferencia entre ambas variables:

D <- GLUCOSE$old - GLUCOSE$new
  • Comprueba si puede asumirse la hipótesis de normalidad.
eda(D)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
  15.000    0.000  -20.780  -16.085  -14.560  -14.330  -14.560  -12.830 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
  -8.620    3.253   10.582    0.840    3.255   12.160   -0.677   -0.105 
SW p-val 
   0.994 
  • Contrasta al nivel de significación \(\alpha=0.05\) si el nuevo aparato proporciona medidas más altas que el antiguo.

El contraste que debemos realizar se escribe como:

\[\begin{eqnarray*} \begin{array}{rl} H_0: & \mu_D = 0 \\ H_1: & \mu_D < 0 \\ \end{array} \end{eqnarray*}\]

Como se verifica la hipótesis de normalidad, realizamo el test (paramétrico) para una media:

t.test(D, mu=0, alternative="less", conf.level=0.95)

    One Sample t-test

data:  D
t = -17.335, df = 14, p-value = 3.701e-11
alternative hypothesis: true mean is less than 0
95 percent confidence interval:
      -Inf -13.08064
sample estimates:
mean of x 
   -14.56 
# Otra opción:
t.test(GLUCOSE$old, GLUCOSE$new, paired=TRUE, mu=0, alternative="less", conf.level=0.95)

    Paired t-test

data:  GLUCOSE$old and GLUCOSE$new
t = -17.335, df = 14, p-value = 3.701e-11
alternative hypothesis: true mean difference is less than 0
95 percent confidence interval:
      -Inf -13.08064
sample estimates:
mean difference 
         -14.56 

Como p-valor\(\approx 0<\alpha=0.05 \Rightarrow\) Rechazamos \(H_0\).

Interpretación: Con un nivel de significación del 5%, existen evidencias estadísticas para afirmar que el aparato nuevo proporciona niveles de medios de glucosa en sangre superiores al aparato viejo.

1.4. Contrasta al nivel de significación 0.05 si la proporción de hombres con hemoglobina glicosilada (glyhb) por encima del 6% es superior a 0.2.

Definimos la variable:

X=“Nº de hombres con valores de hemoglobina glicosilada superior al 6%” \(\sim Bin(n,\pi)\)

  • Calcula el número de hombres en la muestra con glyhb por encima del 6% y el total de hombres en la muestra.
# Casos favorables
x <- sum(diabetes$gender=="male" & diabetes$glyhb>6)

# Casos totales
n <- sum(diabetes$gender=="male")
  • Realiza un test exacto y un test aproximado para la proporción verdadera.

El contraste que debemos realizar se escribe como:

\[\begin{eqnarray*} \begin{array}{rl} H_0: & \pi = 0.2 \\ H_1: & \pi > 0.2 \\ \end{array} \end{eqnarray*}\]

Como se verifica que \(n*\pi_0 =169*0.2 = 33.8 > 10\) y \(n*(1-\pi_0) =169*0.8 = 135.2 > 10\), podemos realizar el test aproximado como:

prop.test(x, n, p=0.2, alternative="greater", conf.level=0.95)

    1-sample proportions test with continuity correction

data:  x out of n, null probability 0.2
X-squared = 0.81694, df = 1, p-value = 0.183
alternative hypothesis: true p is greater than 0.2
95 percent confidence interval:
 0.1792768 1.0000000
sample estimates:
        p 
0.2307692 

Como p-valor\(=0.183 > \alpha=0.05 \Rightarrow\) No rechazamos \(H_0\).

Interpretación: Con un nivel de significación del 5%, no podemos afirmar que la proporción de hombres con valores de hemoglobina glicosilada superior al 6% sea superior a 0.2.

1.5. Contrasta al nivel de significación 0.05 si la proporción de hombres con colesterol por debajo de 200mg/dL es superior a la proporción de mujeres con colesterol por debajo de 200mg/dL.

Definimos la variable:

X=“Nº de hombres con colesterol por debajo de 200mg/dL” \(\sim Bin(n_X,\pi_X)\)

Y=“Nº de mujeres con colesterol por debajo de 200mg/dL” \(\sim Bin(n_Y,\pi_Y)\)

  • Calcula el número de hombres en la muestra con colesterol por debajo de 200mg/dL y el total de hombres de la muestra (\(n_X\)).
x <- sum(diabetes$gender=="male" & diabetes$chol<200)
x
[1] 79
nx <- sum(diabetes$gender=="male")
nx
[1] 169
  • Calcula el número de mujeres en la muestra con colesterol por debajo de 200mg/dL y el total de mujeres de la muestra (\(n_Y\)).
# Nº de hombres con colesterol por debajo de 200mg/dL (casos favorables) y nº de hombres en la muestra (casos totales)
y <- sum(diabetes$gender=="female" & diabetes$chol<200)
y
[1] 105
ny <- sum(diabetes$gender=="female")
ny
[1] 234
  • Realiza un test para la diferencia de proporciones.

El contraste que debemos realizar se escribe como:

\[\begin{eqnarray*} \begin{array}{rl} H_0: & \pi_X - \pi_Y = 0 \\ H_1: & \pi_X - \pi_Y > 0 \\ \end{array} \end{eqnarray*}\]

Realizamos el test en R:

prop.test(c(x,y), c(nx,ny), alternative="greater", conf.level=0.95)

    2-sample test for equality of proportions with continuity correction

data:  c(x, y) out of c(nx, ny)
X-squared = 0.073608, df = 1, p-value = 0.3931
alternative hypothesis: greater
95 percent confidence interval:
 -0.06909495  1.00000000
sample estimates:
   prop 1    prop 2 
0.4674556 0.4487179 

Como p-valor\(=0.3931 > \alpha=0.05 \Rightarrow\) No rechazamos \(H_0\).

Interpretación: Con un nivel de significación del 5%, no podemos afirmar que la proporción de hombres con colesterol por debajo de 200mg/dL sea superior a la proporción de mujeres con colesterol por debajo de 200mg/dL.

2. Contrastes no-paramétricos

2.1. ¿Puede asumirse que la variable ‘hdl’ en mujeres sigue una distribución normal? Contrasta al nivel de significación 0.05 si la media de la variable ‘hdl’ en mujeres es superior a 47.

Sea X=“Nivel de HDL de las mujeres (mg/dL)”.

El contraste que debemos realizar (\(\alpha=0.05\)) se escribe como:

\[\begin{eqnarray*} \begin{array}{rl} H_0: & \mu=47 \\ H_1: & \mu>47 \\ \end{array} \end{eqnarray*}\]

En primer lugar seleccionamos los datos de la muestra:

pos <- which(diabetes$gender=="female")
hdl.female <- diabetes$hdl[pos]

Comprobamos la condición de normalidad:

eda(hdl.female)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
 234.000    0.000   14.000   41.000   52.111   47.500   50.825   59.000 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
 120.000   17.255  297.739    1.128   18.000  106.000    2.443    1.390 
SW p-val 
   0.000 

Como no se verifica la normalidad (p-valor \(<0.05\)), realizamos el test no-paramétrico para una media (test de Wilcoxon):

wilcox.test(hdl.female, mu=47, alternative="greater")

    Wilcoxon signed rank test with continuity correction

data:  hdl.female
V = 16282, p-value = 0.001492
alternative hypothesis: true location is greater than 47

Como p-valor\(=0.0015 < \alpha=0.05 \Rightarrow\) Rechazamos \(H_0\).

Interpretación: Con un nivel de significación del 5%, existen evidencias estadísticas para afirmar que el nivel medio de HDL en mujeres es superior a 47 mg/dL.

2.2. ¿Contrasta al nivel de significación 0.05 si existen diferencias entre los niveles de hdl en hombres y en mujeres. Comprueba si puede asumirse normalidad y realiza el contraste adecuado.

Definimos las variables:

X=“Nivel de HDL en hombres (mg/dL)”

Y=“Nivel de HDL en mujeres (mg/dL)”

El contraste que debemos realizar (\(\alpha=0.10\)) se escribe como: \[\begin{eqnarray*} \begin{array}{rl} H_0: & \mu_X - \mu_Y = 0 \\ H_1: & \mu_X - \mu_Y \neq 0 \\ \end{array} \end{eqnarray*}\]

En primer lugar seleccionamos los datos de las muestras:

pos1 <- which(diabetes$gender=="male")
hdl.male <- diabetes$hdl[pos1]

pos2 <- which(diabetes$gender=="female")
hdl.female <- diabetes$hdl[pos2]

Comprobamos la condición de normalidad en ambas variables:

eda(hdl.male)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
 169.000    0.000   12.000   35.000   48.139   44.000   47.173   59.000 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
 117.000   17.004  289.141    1.308   24.000  105.000    1.001    0.934 
SW p-val 
   0.000 
eda(hdl.female)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
 234.000    0.000   14.000   41.000   52.111   47.500   50.825   59.000 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
 120.000   17.255  297.739    1.128   18.000  106.000    2.443    1.390 
SW p-val 
   0.000 

En este caso no es necesario, pero podríamos verificar la igualdad de varianzas:

boxplot(hdl ~ gender, data=diabetes)

Como no se verifica la normalidad, realizamos el test no-paramétrico para la diferencia de medias (test de Mann-Withney):

wilcox.test(hdl.male, hdl.female, mu=0, alternative="two.sided", conf.level=0.95)

    Wilcoxon rank sum test with continuity correction

data:  hdl.male and hdl.female
W = 16630, p-value = 0.006439
alternative hypothesis: true location shift is not equal to 0

Como p-valor\(=0.006<\alpha=0.05 \Rightarrow\) Rechazamos \(H_0\).

Interpretación: Con un nivel de significación del 5%, existen evidencias estadísticas para afirmar que el nivel medio de HDL en hombres y mujeres es distinto.

2.3. Considera el fichero PHENYL de la libreria PASWR2. Contrasta al nivel de significación 0.05 si existen diferencias en los niveles medios de la coenzima Q10 en el momento de comenzar el estudio (variable Q10.1) y al finalizar el estudio (variable Q10.4).

Definimos las variables:

X=“Nivel de coenzima Q10 al comienzo del estudio”

X=“Nivel de coenzima Q10 al final del estudio”

data("PHENYL")
head(PHENYL)
  Q10.1 Q10.2 Q10.3 Q10.4
1  0.39  0.56  0.65  0.45
2  0.33  0.32  0.44  0.37
3  0.59  0.58  0.38  0.55
4  0.86  0.51  0.53  0.47
5  0.33  0.29  0.29  0.28
6  0.49  0.37  0.33  0.39

Como se tratan de los mismos individuos medidos en distintos instantes de tiempo, las muestras son dependientes (o emparejadas). Por lo tanto, trabajaremos con la diferencia entre ambas variables:

D <- PHENYL$Q10.1-PHENYL$Q10.4

# Comprobamos la condición de normalidad
eda(D)

Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
  46.000    0.000   -0.220   -0.048    0.122    0.100    0.120    0.298 
     Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
   0.470    0.190    0.036    0.028    0.346    0.690   -1.172    0.305 
SW p-val 
   0.022 

El contraste que debemos realizar se escribe como:

\[\begin{eqnarray*} \begin{array}{rl} H_0: & \mu_D = 0 \\ H_1: & \mu_D \neq 0 \\ \end{array} \end{eqnarray*}\]

Como no se verifica la hipótesis de normalidad, realizamo el test no-paramétrico para la diferencia de medias.

wilcox.test(D, mu=0, alternative="two.sided", conf.level=0.95)
Warning in wilcox.test.default(D, mu = 0, alternative = "two.sided", conf.level
= 0.95): cannot compute exact p-value with ties

    Wilcoxon signed rank test with continuity correction

data:  D
V = 857.5, p-value = 0.0005439
alternative hypothesis: true location is not equal to 0
# Otra opción
wilcox.test(PHENYL$Q10.1, PHENYL$Q10.4, paired=TRUE, mu=0, alternative="two.sided", conf.level=0.95)
Warning in wilcox.test.default(PHENYL$Q10.1, PHENYL$Q10.4, paired = TRUE, :
cannot compute exact p-value with ties

    Wilcoxon signed rank test with continuity correction

data:  PHENYL$Q10.1 and PHENYL$Q10.4
V = 857.5, p-value = 0.0005439
alternative hypothesis: true location shift is not equal to 0

Como p-valor\(=0.0005 < \alpha=0.05 \Rightarrow\) Rechazamos \(H_0\).

Interpretación: Con un nivel de significación del 5%, tenemos evidencias estadísticas para afirmar que los niveles medios de la coenzima Q10 han cambiado a lo largo del estudio.

3. Análisis de la varianza y test de Kruskal-Wallis

3.1. Contrasta al nivel de significación 0.10 si el tamaño del cuerpo (frame) influye en la presión diastólica (bp.1d) de las mujeres.

a) Crea un nuevo fichero llamado diabetes.female solo con las mujeres.

pos <- which(diabetes$gender=="female")
diabetes.female <- diabetes[pos,]

b) Exploración gráfica: representa los diagrama de caja de la variable bp.1d según la variable frame.

boxplot(bp.1d ~ frame, data=diabetes.female)

c) Realiza el análisis de la varianza con la función aov()

bp.aov <- aov(bp.1d ~ frame, data=diabetes.female)
summary(bp.aov)
             Df Sum Sq Mean Sq F value Pr(>F)  
frame         2    921   460.7   2.572 0.0786 .
Residuals   231  41376   179.1                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

d) Comprueba si pueden asumirse las hipótesis del modelo.

library(car)
Cargando paquete requerido: carData
checking.plots(bp.aov)

r <- rstandard(bp.aov)
shapiro.test(r)             ## Normalidad de los errores

    Shapiro-Wilk normality test

data:  r
W = 0.98986, p-value = 0.1008
leveneTest(bp.aov)          ## Test de Levene para homogeneidad de varianzas
Levene's Test for Homogeneity of Variance (center = median)
       Df F value Pr(>F)
group   2  1.8214 0.1641
      231               

e) Utiliza un test de Tukey para averiguar entre qué niveles de la variable frame existen diferencias significativas en los niveles medios de la variable bp.1d

bp.mc <- TukeyHSD(bp.aov, conf.level=0.9)
bp.mc
  Tukey multiple comparisons of means
    90% family-wise confidence level

Fit: aov(formula = bp.1d ~ frame, data = diabetes.female)

$frame
                  diff       lwr        upr     p adj
medium-large  2.121373 -2.811945  7.0546917 0.6491061
small-large  -2.423910 -7.826310  2.9784887 0.6247892
small-medium -4.545284 -8.697193 -0.3933743 0.0639277
plot(bp.mc)                 ## Graficos de intervalos de confianza del test de Tukey

3.2. Utiliza el fichero diabetes.female para responder a las siguientes cuestiones.

a) Contrasta al nivel de significación \(\alpha=0.05\) si existen diferencias entre los niveles medios de glucosa glicosilada (glyhb) según la constitución del tamaño del cuerpo (frame) entre las mujeres.

boxplot(glyhb ~ frame, data=diabetes)

glyhb.aov <- aov(glyhb~frame, data=diabetes.female)
summary(glyhb.aov)
             Df Sum Sq Mean Sq F value  Pr(>F)   
frame         2   40.4  20.207     4.7 0.00998 **
Residuals   231  993.1   4.299                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Comprobamos las hipótesis del modelo
checking.plots(glyhb.aov)

r <- rstandard(glyhb.aov)
shapiro.test(r) 

    Shapiro-Wilk normality test

data:  r
W = 0.7235, p-value < 2.2e-16
leveneTest(glyhb.aov)
Levene's Test for Homogeneity of Variance (center = median)
       Df F value Pr(>F)
group   2  1.0362 0.3564
      231               
# Como no se cumplen las hipótesis del modelo, realizamos el test de Kruskal-Wallis
kruskal.test(glyhb~frame, data=diabetes.female)

    Kruskal-Wallis rank sum test

data:  glyhb by frame
Kruskal-Wallis chi-squared = 20.111, df = 2, p-value = 4.295e-05

b) Si has detectado diferencias, averigua entre qué grupos existen diferencias estadísticamente significativas.

library(agricolae)

kruskal(diabetes.female$glyhb, diabetes.female$frame, alpha=0.05, group=FALSE, console=TRUE)

Study: diabetes.female$glyhb ~ diabetes.female$frame
Kruskal-Wallis test's
Ties or no Ties

Critical Value: 20.11077
Degrees of freedom: 2
Pvalue Chisq  : 4.295381e-05 

diabetes.female$frame,  means of the ranks

       diabetes.female.glyhb   r
large              157.07143  42
medium             114.76423 123
small               98.28986  69

Post Hoc Analysis

Comparison between treatments mean of the ranks.

               Difference pvalue Signif.       LCL      UCL
large - medium   42.30720 0.0003     *** 19.424803 65.18960
large - small    58.78157 0.0000     *** 33.723420 83.83973
medium - small   16.47437 0.0932       . -2.783587 35.73233

4. Para entregar

Responde a las siguientes cuestiones, utilizando la misma muestra de pacientes que te ha sido asignada en la Práctica 2 para el fichero patients.txt.

4.1. Contrasta al nivel de significación 0.05 si los niveles medios de la concentración de Interleukina-6 (IL6) son significativamente más bajos en pacientes con cáncer en estadio I que en paciente con cáncer en estadio II.

  • Define correctamente las variables del problema.

  • Comprueba que las dos muestras provienen de poblaciones normales.

  • Realiza el correspondiente test de hipótesis.

4.2. Se estudió la eficacia de la sulfinpirazona en prevenir la muerte después de sufrir infarto de miocardio. Para ello se consideraron pacientes que habían sufrido infarto de miocardio. A un grupo se les proporcionó sulfinpirazona y a otro grupo se les suministró placebo. En la siguiente tabla se muestra el número de pacientes de cada grupo que murieron y que superaron el infarto.

Death (all causes) Survivors
Sulphinpyrazole 41 692
Placebo 60 682
  • Contrasta al nivel de significación \(\alpha=0.01\) si la proporción de muertes de pacientes que tomaron sulfinpirazona es inferior a la de pacientes que tomaron un placebo.

4.3. Contrasta al nivel de significación \(\alpha=0.1\) si existen diferencias en la edad media de los pacientes según el estadio de cancer (CancerStage).

  • Realiza una exploración gráfica y el análisis de varianza correspondiente

  • Comprueba si pueden asumirse las hipótesis del modelo

  • Si has detectado diferencias, averigua entre qué grupos existen diferencias estadísticamente significativas