estadística - ua

28
08/04/11 1 Estadística Análisis de la varianza de un factor (ANOVA) Tests a posteriori Departamento de Ciencias del Mar y Biología Aplicada Prof, Dr. Jose Jacobo Zubcoff Ejemplo de problema a resolver: Uno de los focos de contaminación del agua en la Laguna del Mar Menor lo constituyen los vertidos agrícolas procedentes de las cuencas vertientes, ricos en fósforo. Se espera que comparando los niveles de esta laguna con la de otras tres con parecidas características el hecho resultará evidente. Hipótesis: Estadística ANOVA : : 1 0 H H No existen diferencias entre las k lagunas Hipótesis nula no cierta (al menos alguna laguna es diferente al resto)

Upload: others

Post on 26-Mar-2022

18 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estadística - ua

08/04/11

1

Estadística

Análisis de la varianza de un factor (ANOVA)

Tests a posteriori

Departamento de Ciencias del Mar y Biología Aplicada

Prof, Dr. Jose Jacobo Zubcoff

Ejemplo de problema a resolver: Uno de los focos de contaminación del agua en la Laguna del Mar Menor lo constituyen los vertidos agrícolas procedentes de las cuencas vertientes, ricos en fósforo. Se espera que comparando los niveles de esta laguna con la de otras tres con parecidas características el hecho resultará evidente. Hipótesis:

Estadística

ANOVA

::

1

0

HH No existen diferencias entre las k lagunas

Hipótesis nula no cierta (al menos alguna laguna es diferente al resto)

Page 2: Estadística - ua

08/04/11

2

¿Qué es y para que sirve?

Estadística

ANOVA

Compara la distribución de una variable continua normal en dos o más poblaciones

(niveles o categorías)

Pruebas de contraste para dos o más grupos independientes (ANOVA entre sujetos): un factor

completamente aleatorizado.

Estadística

ANOVA

• En el tema anterior vimos el empleo de la prueba t para efectuar pruebas de contraste de medias para dos grupos, ya fueran tales grupos relacionados o no relacionados.

• El problema es que la prueba t se puede emplear únicamente para el caso de comparar las medias dos grupos. Sin embargo, en muchos casos queremos comparar simultáneamente dos o más grupos.

• La solución es el empleo del Análisis de Varianza (ANOVA: ANalysis Of VAriance). El ANOVA sirve para el caso de dos, tres, cuatro,..., grupos, ya sean éstos grupos relacionados o grupos no relacionados.

Page 3: Estadística - ua

08/04/11

3

Estadística

ANOVA

H0: No existen diferencias entre los k niveles H1: La hipótesis nula no es cierta Hipótesis nula: (todas las medias poblacionales de los “k" grupos son

iguales) H0: µ1=µ2=µ3...=µa=µ Hipótesis alternativa: (al menos una media poblacional difiere) H1: No es cierto H0

•  Parte de un conjunto de observaciones muestrales •  K niveles o categorías

Estadística

ANOVA

Supongamos un universo de notas de 9 alumnos de 3 grupos distintos

No hay diferencia ENTRE grupos Ni DENTRO de los grupos

Grupo 1 Grupo 2 Grupo 3

5 5 5 5 5 5 5 5 5

Xi,j = µ

Page 4: Estadística - ua

08/04/11

4

Estadística

ANOVA

Supongamos que aplicamos un método de enseñanza (factor) que afecta:

Donde αi = {1,2,0} efecto del factor

Grupo 1 Grupo 2 Grupo 3

5+1=6 5+2=7 5+0=5 5+1=6 5+2=7 5+0=5 5+1=6 5+2=7 5+0=5

Xi,j = µ + αi

El factor influye en establecer diferencias ENTRE grupos Pero NO DENTRO

Estadística

ANOVA

Donde εi,j= {-1,-2,0,2,0,1,3,4,0} efecto aleatoriedad

Grupo 1 Grupo 2 Grupo 3 5+1-1 = 5 5+2+2 = 9 5+0+3 = 8 5+1-2 = 4 5+2+0 = 7 5+0+4 = 9 5+1+0 = 6 5+2+1 = 8 5+0+0 = 5

Xi,j = µ + αi + εi,j

La ALEATORIEDAD influye en la variabilidad DENTRO de los grupos

•  Por razones ALEATORIAS algunos alumnos rinden mas que otros

Page 5: Estadística - ua

08/04/11

5

ANOVA

Grupo 1 Grupo 2 Grupo 3 5+1-1 = 5 5+2+2 = 9 5+0+3 = 8 5+1-2 = 4 5+2+0 = 7 5+0+4 = 9 5+1+0 = 6 5+2+1 = 8 5+0+0 = 5

X1.= 5 X2. = 8

X3. = 7.33 X..= 6.78

Calculamos las medias por grupo y la media global

ANOVA

Grupo 1 Grupo 2 Grupo 3 5 9 8 4 7 9 6 8 5

X1.= 5 X2. = 8

X3. = 7.33 X..= 6.78

Para calcular el efecto aleatorio: diferencias DENTRO

!

" Xij # X ..( )2

" = Xij # Xi.( )2

j=1

ni

"i=1

k

" + ni Xi. # X ..( )2

i=1

k

"

Page 6: Estadística - ua

08/04/11

6

ANOVA

Grupo 1 Grupo 2 Grupo 3 5 9 8 4 7 9 6 8 5

X1.= 5 X2. = 8

X3. = 7.33 X..= 6.78

Para calcular el efecto del factor: diferencias ENTRE

!

" Xij # X ..( )2

" = Xij # Xi.( )2

j=1

ni

"i=1

k

" + ni Xi. # X ..( )2

i=1

k

"

Estadística

ANOVA

Tenemos dos tipos de variabilidad: –  ENTRE grupos (debida al factor) –  DENTRO grupos (debida a la aleatoriedad)

Para poder afirmar que el factor produce efectos:

La variabilidad ENTRE grupos debe ser significativamente grande respecto a la DENTRO grupos

Page 7: Estadística - ua

08/04/11

7

Estadística

ANOVA

Xi,j = µ + αi + εi,j Asumiendo las hipótesis previas:

H0: α1= α2= … = αk

O bien si consideramos Xi,j = µ + αi H0: µ1= µ2= … = µk

Se quiere comprobar la NO INFLUENCIA del factor α v  Todas las muestras proceden de la misma población

ANOVA: Análisis de la varianza de un factor: Modelo lineal:

Xij = µi + eij

eij es función de la varianza de la población:

µ Xij

f(X)

X

0 eij

f(e)

e = X - µi

Estadística

Page 8: Estadística - ua

08/04/11

8

Estadística

ANOVA

µ1

f(X1j)

X1j

µ2

f(X2j)

X2j

µa

f(Xaj)

Xaj

µ

µ1

f(X1j)

X1j

µ2

f(X2j)

X2j

µa

f(Xaj)

Xaj

µ

A1

A2

Aa

Análisis de la varianza de un factor: Si H0 es falsa è las medias de cada población difieren en un valor Ai Modelo lineal:

Xij = µ + Ai + eij

La H0 es entonces la siguiente: H0 = A1 = A2 = … = Ai = … = Aa = 0 H0 = ∑ Ai

2 = 0 Se quiere comprobar la INFLUENCIA del factor A **Todas las muestras proceden de la misma población

Estadística

Page 9: Estadística - ua

08/04/11

9

Estadística

ANOVA

SCTotal = SCDentro + SCEntre Q = QD + QE

Estimación insesgada de σi2

Estimación de la variabilidad DENTRO = QD/(n-k)

Estimación de la variabilidad TOTAL = Q/(n-1) Estimación de la variabilidad ENTRE = QE/(k-1)

Suma de cuadrados DENTRO QD = Por simplicidad usamos:

Estadística

ANOVA

H0: µ1= µ2= … = µk

H1: Al menos una igualdad no es cierta •  Según la Hipótesis fijada => modelo probabilístico NO se rechaza H0 si:

Page 10: Estadística - ua

08/04/11

10

Análisis de la varianza de un factor: Construcción del estadístico de contraste:

Si el Fcalc > Fcrit para (a-1) y a(n-1) g.l., se rechaza H0: al menos una de las medias Xi es significativamente diferente de las demás

MCENTRE / MCDENTRO sigue una distribución F

1

Probabilidad p

Solo hay un valor crítico. La variable F es una t al cuadrado, de ahí que sólo haya una cola.

Estadística

Estadística

ANOVA

Si H0 es falsa, MCENTRE > MCDENTRO è MCENTRE / MCDENTRO > 1

Fuentes de variación

Sumas de cuadrados G.L. Cuadrados Medios

F

ENTRE k–1

DENTRO n–k

TOTAL n–1

P-valor

Signif.

knQk

QF

D

E

−= 1( )2

1...∑

=

−=k

iiiE XXnQ

( )

( )∑

∑∑

=

= =

=−=

k

ii

k

i

n

jiijD

Sn

XXQi

1

2

2

1 1.

1

( )∑∑= =

−=k

i

n

jij

i

XXQ1 1

..

21/ EE SkQ =−

2/ DD SknQ =−

21/ SnQ =−

Page 11: Estadística - ua

08/04/11

11

Estadística

ANOVA

Hipótesis necesarias para realizar un ANOVA a)  Normalidad de la respuesta en cada nivel b)  Homogeneidad de las varianzas c)  Independencia de los valores obtenidos

Asumiendo los requisitos previos, hacemos el contraste para ANOVA:

H0: µ1= µ2= … = µk

H1: Al menos una igualdad no es cierta

Estadística

ANOVA

REQUISITOS DE ANOVA: Homogeneidad de varianzas:

f(x1)

µ f(x2)

µ f(x3)

µ

f(x1)

µ f(x2)

µ f(x3)

µ

Cuando varianzas ≠, se incrementa el error Tipo I

Page 12: Estadística - ua

08/04/11

12

Estadística

ANOVA

Test de heterogeneidad de varianzas:

Bartlett -> high alfa, sensible a NO normalidad Levene -> es una ANOVA para VAR. Asume var iguales!! Scheffe -> insensible a NO normalidad, pero no lo recomnieda … Hartley -> problema cuando 1 var es pequeña…. … etc.

Test de Cochran Gexpt = mayor si

2

∑ si2

• Condición: Tamaños muestrales iguales (balanceado) • La distribución G para (n-1) g.l. y k (tratamientos) ha sido tabulada • No rechazamos H0 (homogeneidad de varianzas) si α,,1exp knt GG −<

REQUISITOS DE ANOVA: Homogeneidad de varianzas:

Estadística

ANOVA

Test de Bartlett: • Pros: Tamaños de n desiguales (no balanceado) • Contas: high alfa, sensible a NO normalidad • Test basado en Chi-cuadrado • Calcula una ponderación de las varianzas estimadas:

• El estadístico sería: Siendo

( )

kn

SnS

i

k

ii

D −

−=∑=

2

121

( ) ( ) ( ) ( )⎥⎦

⎤⎢⎣

⎡−−−= ∑

=

k

iiiDt SLnnSLnkn

CM

1

22exp 11

⎥⎦

⎤⎢⎣

−−⎟⎟⎠

⎞⎜⎜⎝

−−+= ∑

= knnkC

k

i i

11

1)1(3

111

No rechazamos H0 si 2,1exp αχ −< ktM

REQUISITOS DE ANOVA: Homogeneidad de varianzas:

Page 13: Estadística - ua

08/04/11

13

Estadística

ANOVA

Varianzas homogéneas ANOVA

Varianzas no homogéneas Transformación

de datos

Conteos (o datos que siguen una dist. de Poisson) è √ (X + 1) Ratios, tasas, concentraciones, etc. è log (X) o log (X + 1) Porcentajes y proporciones è sen-1 √ X (= arcsen X)

Test de homogeneidad

REQUISITOS DE ANOVA: Homogeneidad de varianzas:

Si la transformación de datos no soluciona el problema, y estamos ante alguna de las siguientes situaciones:

•  Situaciones biológicas que presentan varianzas heterogéneas: gran agrupación de organismos. •  Cuando son experimentos bien replicados: el análisis de la varianza es suficientemente robusto. •  Experimentos grandes y balanceados. •  La validez del test y probabilidades asociadas con la distribución de la F ratio no se ven muy afectadas.

Estadística

ANOVA

REQUISITOS DE ANOVA: Homogeneidad de varianzas:

Page 14: Estadística - ua

08/04/11

14

Test de homogeneidad

Varianzas homogéneas ANOVA

Varianzas no homogéneas Transformación

de datos

Si se acepta H0 (p > 0,05), no hay problema Si se rechaza H0, considerar αc = 0,01 Utilizar un test no paramétrico (p.ej. Kruskal-Wallis) no soluciona el problema

Estadística

ANOVA

REQUISITOS DE ANOVA: Homogeneidad de varianzas:

Estadística

ANOVA

REQUISITOS DE ANOVA: Normalidad de los datos

El análisis de la varianza es bastante robusto a las desviaciones de la normalidad, sobre todo cuando:

•  hay un gran número de tratamientos y / o réplicas; •  los datos están equilibrados.

Las transformaciones a menudo corrigen el apuntamiento, pero solo deben hacerse cuando NO hay homogeneidad de varianzas. NUNCA ante la falta de NORMALIDAD.

Page 15: Estadística - ua

08/04/11

15

Estadística

ANOVA

Ejemplo 1: Uno de los focos de contaminación del agua en la Laguna del Mar Menor lo constituyen los vertidos agrícolas procedentes de las cuencas vertientes, ricos en fósforo. Para tratar de verificar esta sospecha, se han medido los niveles diversos puntos de la laguna y en el de resto de lagunas.

¿Es suficientemente importante esta diferencia como para concluir

que el nivel de fósforo en el Mar Menor es diferente al de los demás?

Lago 1 7.1 8.5 6.2 7.3 7.9Lago 2 7.2 6.5 5.9 7.8 6.4Lago 3 5.6 7.1 6.3 6.7 6.5Lago 4 7.2 6.6 6.3 7.4 6.5

Estadística

ANOVA

1. Hipótesis del contraste:

2.  Verificar hipótesis del modelo (…)

•  Independencia de los valores observados (comprobar) •  Normalidad (para cada grupo test –ej. KS-) •  Homogeneidad de las Varianzas (Test de Cochran):

::

1

0

HH No existen diferencias entre las k lagunas

Hipótesis nula no cierta (al menos alguna laguna es diferente al resto)

::

1

43210

HH µµµµ ===

Al menos una igualdad no es cierta

Gexpt = Max(si

2)

∑ si2

Gexp t =0.751.84

= 0.408

No se puede mostrar la

No se puede mostrar la imagen. Puede que su

Como Gexpt < Punto Crítico VARIANZAS IGUALES

(alfa:0.05)

Page 16: Estadística - ua

08/04/11

16

ni ̅̅Xi S²i Si

Lago 1Lago 2Lago 3Lago 4

Estadística

ANOVA

3. Desarrolla el contraste

a) Estadísticos:

204321 =+++= nnnnnNo se puede mostrar la imagen. Puede que su equipo no tenga suficiente memoria para abrir la imagen o que ésta esté dañada. Reinicie el equipo y, a continuación, abra el archivo de nuevo. Si sigue apareciendo la x roja, puede que tenga que borrar la imagen e insertarla de nuevo.

4=k

No se puede mostrar la imagen. Puede que su equipo no tenga suficiente memoria para abrir la imagen o que ésta esté dañada. Reinicie el equipo y, a continuación, abra el archivo de nuevo. Si sigue apareciendo la x roja, puede que tenga que borrar la imagen e insertarla de nuevo.

No se puede mostrar la imagen. Puede que su equipo no tenga suficiente memoria para abrir la imagen o que ésta esté dañada. Reinicie el equipo y, a continuación, abra el archivo de nuevo. Si sigue apareciendo la x roja, puede que tenga que borrar la imagen e insertarla de nuevo.

Estadística

ANOVA

b) Tabla ANOVA:

Fuentes de variación

Sumas de cuadrados

Grados de Libertad

Cuadrados Medios

F Signif.

ENTRE

DENTRO

TOTAL

( )∑=

−=4

1

2...

iiiE XXnQ 41.2)85.680.6(5.....)85.640.7(5 22 =−⋅++−⋅=EQ

( )∑=

−=4

1

21i

iiD SnQ 34.723.0)15(.....75.0)15( =⋅−++⋅−=DQ

2.41

7.34

( )∑∑= =

−=4

1

5

1..

i jij XXQ 75.934.741.2 =+=+= DE QQQ

9.75

Page 17: Estadística - ua

08/04/11

17

Estadística

ANOVA

b) Tabla ANOVA:

Fuentes de variación

Sumas de cuadrados

Grados de Libertad

Cuadrados Medios

F Signif.

ENTRE

DENTRO

TOTAL

3141 =−=−= kGLE 16420 =−=−= knGLD

3

16

191201 =−=−= nGL

19

2.41

7.34

9.75

802.0341.2

12 ==

−=kQS E

E

0.802

0.459

0.513

459.01634.72 ==

−=

knQS D

D 513.01975.9

12 ==

−=nQ

S

Estadística

ANOVA

b) Tabla ANOVA:

Fuentes de variación

Sumas de cuadrados

Grados de Libertad

Cuadrados Medios

F Signif.

ENTRE

DENTRO

TOTAL

747.1459.0802.01

exp ==

−=

knQk

QF

D

E

t 05.0,16,3,,1 FFF knkc =⇒ −− α

3

16

05.0,16,3exp 24.3747.1 FF t =<=

19

2.41

7.34

9.75

1977.0)( exp16,3 =>=− tFFPvalorp

0.802

0.459

0.513

1.747 0.198

NO RECHAZO

(Obtenido con R)

Page 18: Estadística - ua

08/04/11

18

Estadística

Tema 9

Test a posteriori (para ANOVA)

Estadística

Test a posteriori

•  NOTA (ANOVA): en caso de rechazar la hipótesis nula se hace necesario efectuar hipótesis específicas.

•  Hemos de efectuar contrastes entre medias. Estos pueden ser :

•  Contrastes Simples (cuando involucran únicamente dos medias)

•  Contrastes Complejos (cuando involucran tres o más medias).

•  Empleando otro criterio, los contrastes pueden ser:

•  "a priori" (cuando se plantean antes de analizar los datos)

•  "a posteriori" (cuando se plantean una vez vistos los datos)

Comparaciones múltiples

Page 19: Estadística - ua

08/04/11

19

Estadística

Al hacer varias comparaciones estamos aumentando la probabilidad de error de tipo I.

Es decir, si hacemos un ANOVA, la probabilidad de rechazar la hipótesis nula siendo cierta es 0'05.

Pero si en cada una de los contrastes empleamos un α = 0'05, ello quiere decir que al hacer los 3 contrastes de arriba, la probabilidad de cometer algún error de tipo I en el experimento es mayor de 0'05. (De manera análoga que comprar muchos billetes de lotería aumenta nuestras posibilidades de tener premio.)

Por tanto, se precisa controlar la probabilidad de error tipo I en cada contraste, que será menor que 0'05.

Comparaciones múltiples

Test a posteriori

Estadística

Existen varias pruebas que permiten controlar el error tipo I en el experimento. Tales pruebas dependen de si los contrastes son "a priori" o "a posteriori", y de si los contrastes son simples o complejos.

• Cuando todos los contrastes son simples y queremos efectuar todas las comparaciones "a priori" (o bien algunas -o todas las- comparaciones "a posteriori"), la prueba más popular es la prueba de Tukey, que R calcula fácilmente.

Cuando tenemos unos pocos contrastes "a priori" (i.e., k-1 contrastes o menos), la prueba recomendada es la de Bonferroni.

-Cuando tenemos contrastes "a posteriori" y alguno de ellos es complejo, hemos de efectuar la prueba de Scheffé.

Hay muchas otras pruebas de comparaciones múltiples, como podéis ver en el R.

Comparaciones múltiples

Test a posteriori

Page 20: Estadística - ua

08/04/11

20

Estadística

Dos tipos de definición de HA

a priori (antes de realizar el experimento) a posteriori (no propongo alternativas hasta haber realizado el experimento)

Los tests a priori son más potentes, pero están sometidos a mayor riesgo de error Ej: Dunn Sidak

Ejemplo de comparación a priori: H0: µ1 = µ2 = µ3 = µ4 HA: µ3 > µ1; µ3 > µ2; µ3 > µ4

Test a posteriori

Estadística

Tests a posteriori Comparan todos los posibles pares de medias entre sí, de tal modo

que definen la alternativa a la H0

Subconjuntos Homogéneos •  Únicamente podrá definirse una HA sin ambigüedad en el caso de

que se los distintos tratamientos se reúnan en grupos tales que: 1.  no haya diferencias entre las medias dentro de un grupo, y 2.  cada media en un grupo difiere de todas las medias del

otro grupo •  Uno de los tests más utilizados es el de Student-Newman-Keuls (SNK) •  Otros tests utilizables:

Scheffe Tukey LSD Bonferroni … etc.

Test a posteriori

Page 21: Estadística - ua

08/04/11

21

Estadística

Bonferroni Test que realiza comparaciones dos a dos basado en el contraste de diferencias de

medias, σ2 desconocidas pero iguales:

Siendo: Como interesa mantener Alfa por debajo del nivel predeterminado, se corrige

utilizando para cada nivel K, (constante de penalización): OJO: Test conservador que detecta menos diferencias de las reales. No se

recomienda cuando existen muchos niveles

Test a posteriori

chazoNot

nnS

XXKkn

jid

ji Re11 /, ⇒<

+

−− α kn

QS DD −=2

!2)!2(!

2 −=⎟⎟

⎞⎜⎜⎝

⎛=

kkk

K Nº de posibles comparaciones

Estadística

Otros test: Existen otros test basados también en comparaciones de diferencias de

medias tomadas dos a dos. Entre otros: Fisher LSD (diferencia mínima significativa): Test aplicado cuando no es

necesario el incremento del error Tipo I (aplicación directa del test t-Student): No se aplica penalización (no conservador). Usado para pocas comparaciones.

Tukey HSD (diferencia significativa honesta): Aplica penalización

(conservador). Utiliza el llamado “estadístico de rango studerizado”

Test a posteriori

α,, errorglkq

Page 22: Estadística - ua

08/04/11

22

Estadística

Test a posteriori

Estadística

-2 -1 0 1Lago

4-La

go3

Lago

3-La

go2

Lago

3-La

go1

95% family-wise confidence level

Differences in mean levels of grupo

Tukey: Ejemplo con R Si aplicamos Tukey con R con los datos del E.1 del T. 8 (rechazaba H1)

OJO: ERAN MEDIAS IGUALES

Test a posteriori

Page 23: Estadística - ua

08/04/11

23

Estadística

-2 -1 0 1Lago

4-La

go3

Lago

3-La

go2

Lago

3-La

go1

95% family-wise confidence level

Differences in mean levels of grupo

Test a posteriori

-3 -2 -1 0 1Lago

4-La

go3

Lago

3-La

go2

Lago

3-La

go1

95% family-wise confidence level

Differences in mean levels of grupo

H0 no se rechaza (Test no significativo)

Se rechaza H0 (Test significativo)

Estadística

Ejemplo 2: Si se parte del mismo supuesto del ejemplo 1, pero con los datos que se adjuntan a continuación:

¿Es suficientemente importante esta diferencia como para concluir

que el nivel de fósforo en el Mar Menor (Lago1) es diferente al de los demás?

Lago 1 7.8 9.2 6.9 8 8.6Lago 2 7.2 6.5 5.9 7.8 6.4Lago 3 5.6 7.1 6.3 6.7 6.5Lago 4 7.2 6.6 6.3 7.4 6.5

ANOVA y Test a posteriori

Page 24: Estadística - ua

08/04/11

24

Estadística

1. Hipótesis del contraste:

2.  Verificar hipótesis del modelo (…)

•  Independencia de los valores observados (comprobar) •  Normalidad (para cada grupo test –ej. KS-) •  Homogeneidad de las Varianzas (Test de Cochran):

::

1

0

HH No existen diferencias entre las k lagunas

Hipótesis nula no cierta (alguna laguna es diferente al resto)

::

1

43210

HH µµµµ ===

Al menos una igualdad no es cierta

Gexpt = Max(si

2)

∑ si2

Gexp t =0.751.84

= 0.408

No se puede mostrar la

No se puede mostrar la imagen. Puede que su

Como Gexpt < Punto Crítico VARIANZAS IGUALES

(alfa:0.05)

ANOVA y Test a posteriori

ni ̅̅Xi S²i Si

Lago 1Lago 2Lago 3Lago 4

Estadística

3. Desarrolla el contraste

a) Estadísticos:

204321 =+++= nnnnn

03.711 1

.. == ∑∑= =

k

i

n

jij

i

Xn

X

4=k

ANOVA y Test a posteriori

ni ̅̅Xi S²i Si

Lago 1 5 8.10 0.75 0.87Lago 2 5 6.76 0.55 0.74Lago 3 5 6.44 0.31 0.55Lago 4 5 6.80 0.23 0.47

lago1 lago2 lago3 lago4

5.5

6.0

6.5

7.0

7.5

8.0

8.5

9.0

Page 25: Estadística - ua

08/04/11

25

Estadística

b) Tabla ANOVA:

Fuentes de variación

Sumas de cuadrados

Grados de Libertad

Cuadrados Medios

F Signif.

ENTRE

DENTRO

TOTAL

( )∑=

−=4

1

2...

iiiE XXnQ 09.8)03.780.6(5.....)03.710.8(5 22 =−⋅++−⋅=EQ

( )∑=

−=4

1

21i

iiD SnQ 34.723.0)15(.....75.0)15( =⋅−++⋅−=DQ

8.09

7.34

( )∑∑= =

−=4

1

5

1..

i jij XXQ 43.1534.709.8 =+=+= DE QQQ

15.43

ANOVA y Test a posteriori

Estadística

b) Tabla ANOVA:

Fuentes de variación

Sumas de cuadrados

Grados de Libertad

Cuadrados Medios

F Signif.

ENTRE

DENTRO

TOTAL

3141 =−=−= kGLE 16420 =−=−= knGLD

3

16

191201 =−=−= nGL

19

8.09

7.34

15.43

70.2309.8

12 ==

−=kQS E

E

2.70

0.459

0.812

459.01634.72 ==

−=

knQS D

D 812.01943.15

12 ==

−=nQ

S

ANOVA y Test a posteriori

Page 26: Estadística - ua

08/04/11

26

Estadística

b) Tabla ANOVA:

Fuentes de variación

Sumas de cuadrados

Grados de Libertad

Cuadrados Medios

F Signif.

ENTRE

DENTRO

TOTAL

878.5459.070.21

exp ==

−=

knQk

QF

D

E

t 05.0,16,3,,1 FFF knkc =⇒ −− α

05.0,16,3exp 24.3878.5 FF t =>=

006648.0)( exp16,3 =>=− tFFPvalorp

5.878 p<0.01

RECHAZO

(Obtenido con R)

3

16

19

8.09

7.34

15.43

2.70

0.459

0.812

ANOVA y Test a posteriori

Muestras Dif.med. tij t16,0.05/6 p-valorij aprox.

p-valorij

1 y 2 1.34 4.945 Signif. p<0.005 0.0000731 y 3 1.66 6.126 Signif. p<0.005 0.0000071 y 4 1.30 4.797 Signif. p<0.005 0.0000992 y 3 0.32 1.181 No signif. 0.1<p<0.25 0.1272 y 4 -0.04 0.148 No signif. p>0.25 0.4423 y 4 -0.36 1.328 No signif. 0.1<p<0.25 0.101

Estadística

c) Test a posteriori (aplicación Bonferroni):

ANOVA y Test a posteriori

6!2)!24(

!424

2=

−=⎟⎟

⎞⎜⎜⎝

⎛=⎟⎟

⎞⎜⎜⎝

⎛=k

K

677.0459.0 ==−

=kn

QS DD

............................................................

945.4

51

51677.0

76.610.811 12 =

+

−=⇒

+

−= t

nnS

XXt

jiD

jiij

673228.20083.0,16/, === − ttt Kknc α

(Obtenido con R: qt(1-0.00833,16)

(Obtenido con R: pt(t,n-k,lower.tail=false)

Recuerda: Tanto tc como p-valor se pueden aproximar a partir de la tabla de t.

Page 27: Estadística - ua

08/04/11

27

Estadística

c) Test a posteriori (aplicación Tukey con R):

ANOVA y Test a posteriori

-3 -2 -1 0 1Lago

4-La

go3

Lago

3-La

go2

Lago

3-La

go1

95% family-wise confidence level

Differences in mean levels of grupo

Comandos de R: 1. Contraste de bondad de ajuste a una normal: ks.test(nivel,“pnorm”, mean=mean(nivel), sd=sd(nivel)) 2. Homogeneidad de varianzas Test de Cochran: #Construimos una tabla con las varianzas de los grupos: varianzas<-tapply(variable,factor,var) gexpt <- max(varianzas)/sum(varianzas) #Estadísticio experimental qcochran(0.95,6,4) #Punto crítico Test Cochran alternativo: (cargar previamente librería con “library(outliers)”) cochran.test(variable~factor,data=datos) Test Bartlett: bartlett.test(variable~factor)

Estadística

ANOVA y Test a posteriori

Page 28: Estadística - ua

08/04/11

28

Comandos de R: 3. ANOVA: Test ANOVA: aov(variable~(factor)) 4. Compariones múltiples: Test de Bonferroni: pairwise.t.test(variable, factor, p.adj="bonferroni") Test de Tukey: TukeyHSD(aov(variable~factor))

Estadística

ANOVA y Test a posteriori