estatística experimental medicina veterinária faculadade ... · estatística experimental 2...

180
MATERIAL DIDÁTICO Estatística Experimental Medicina Veterinária Faculadade de Ciências Agrárias e Veterinárias Campus de Jaboticabal SP Gener Tadeu Pereira 2º SEMESTRE DE 2014

Upload: others

Post on 12-Feb-2020

37 views

Category:

Documents


0 download

TRANSCRIPT

MATERIAL DIDÁTICO

Estatística Experimental – Medicina Veterinária

Faculadade de Ciências Agrárias e Veterinárias

Campus de Jaboticabal – SP

Gener Tadeu Pereira

2º SEMESTRE DE 2014

ÍNDICE

INTRODUÇÃO AO R ................................................................................................ 2

AULA 1 – ESTATÍSTICA DESCRITIVA ......................................................................... 3

1º EXERCÍCIO PRÁTICO ESTATÍSTICA EXPERIMENTAL ................................................... 23

AULA 2 – TESTES DE SIGNIFICÂNCIA ..................................................................... 25

2º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ............................................. 35

AULA 3- DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) .................................. 37

3º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ............................................. 58

AULA 4 TESTE DE COMPARAÇÕES MÚLTIPLAS ....................................................... 61

4º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ............................................. 79

AULA 5 TESTES F PLANEJADOS ............................................................................ 80

5º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ............................................. 89

AULA 6 DELINEAMENTO EM BLOCOS CASUALIZADOS (DBC) .................................... 91

6º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ........................................... 106

AULA 7 DELINEAMENTO QUADRADO LATINO (DQL). .............................................. 109

7º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ........................................... 124

AULA 8 EXPERIMENTOS FATORIAIS ..................................................................... 126

8º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ........................................... 138

AULA 9 EXPERIMENTOS FATORIAIS: ANALISANDO UM FATORIAL A X B ................... 143

9º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ........................................... 155

AULA 10 EXPERIMENTOS EM PARCELA SUBDIVIDIDA ........................................... 157

10º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL ......................................... 169

AULA 11 EXPERIMENTOS EM PARCELAS SUBDIVIDIDAS - ANÁLISE DE MEDIDAS REPETIDAS NO TEMPO. ...................................................................................... 171

AULA 12 TRANSFORMAÇÃO DE DADOS ................................................................ 175

Estatística Experimental

2

Introdução ao R 1 O que é o R? R é uma linguagem e ambiente para calcular estatísticas e gráficos. Ele é um projeto “GNU” o qual é similar à linguagem S e ambiente a qual foi desenvolvida na “Bell Laboratories” , formalmente (AT&T) por John Chambers e colaboradores. R pode ser considerado uma implantação diferente do S. Existem algumas diferenças importantes, mas muitos dos códigos escritos para o S rodam sem modificações no R. O R fornece uma grande variedade de técnicas estatísticas (modelagem linear e não linear, testes estatísticos clássicos, análise de séries-temporais, ...) e gráficas, e é altamente extensível. Um dos pontos fortes de R é a facilidade com que bem projetados gráficos para publicações de qualidade pode ser produzidos, incluindo símbolos matemáticos e fórmulas. R esta disponível como um programa livre (“Free Software”) sob os termos da “Free Software Foundation’s GNU General Public License”. 2 Instalando o R Geralmente, o sistema R consite de duas partes. Uma é denominada de Sistema básico do R para o núcleo da linguagem R e bibliotecas fundamentais associadas. A outra consiste de contribições de usuários que desenvolvem pacotes que são aplicações mais especializadas. Ambas as partes podem obtidas do “ Comprehensive R Archive Network ” (CRAN) do site:

http://CRAN.r-project.org

A instalação do sistema R é descrito a seguir 2.1 Instalando o Sistema básico do R

Usuários do Windows podem baixar a última versão do R no endereço

http://www.vps.fmvz.usp.br/CRAN/

Em “Dowload and Install R”, acione o “link” que corresponde ao sistema operacional do seu computador ( no caso do Windows – “Dowload R for Windows” e depois no link base. Depois de baixar (salvar) o arquivo executável, basta executá-lo e seguir a rotina de instalação. Neste mesmo endereço são disponibilizadas versões do R nas plataformas do “Linux” ,e “MacOS X”.

O endereço acima é o local disponível mais próximo de Jaboticabal, no caso a USP/Pirassununga, SP.

Estatística Experimental

3

Aula 1 – Estatística Descritiva

1 Símbolos: conjunto de dados e da somatória Conjunto de dados: Considere uma variável aleatória de interesse representada pela letra

maiúscula Y e os valores específicos assumidos por esta variável aleatória pelas letras minúsculas y. Para distinguir um valor do outro, utilizamos um

subscrito i. Por exemplo, nyyy ,...,, 21 . Em geral, um valor típico da variável

aleatória será designado por yi e o valor final desta amostra por yn, sendo que n representa o tamanho da amostra.

Uma notação compacta para representar a soma de todos os valores de uma variável aleatória de interesse, por exemplo, Y, é

n

n

ii yyyy

...21

1

A letra grega Σ (sigma) é usada como símbolo da soma para a soma e yi

para o valor da observação i, denominado de sinal de soma, será usado extensivamente neste curso.

Alguns exemplos e propriedades da somatória:

A soma de n números nyyy ,...,, 21 , como vimos, pode ser expressa por

n

n

ii yyyy

...21

1

A soma dos quadrados de n números nyyy ,...,, 21 é:

22

2

2

1

2 ... ni

n

ii yyyy

A soma dos produtos de dois conjuntos de n números nxxx ,...,, 21

e nyyy ,...,, 21 :

nn

n

iii yxyxyxyx ...2211

1

Exemplo: Considere um conjunto de 3 números: 1, 3 e 6. Os números

são simbolizados por: 6,3,1,, 321 yyyY

A soma e a soma dos quadrados destes números são:

106311

n

iiy , 46631 222

1

2

n

iiy

Considere outro conjunto de números .54,2 321 xexx

A soma dos produtos de x e y é:

44)6)(5()3)(4()1)(2(3

1

i

ii yx

As três principais regras da adição são:

1 A soma da adição de dois conjuntos de números é igual à adição das somas

n

i

n

i

n

iiiii yxyx

1 1 1

)(

Estatística Experimental

4

2 A soma dos produtos de uma constante k e uma variável Y é igual ao produto da constante pela soma dos valores da variável (yi)

n

ii

n

ii ykyk

11

3 A soma de n constantes com valor k é igual ao produto kn

knkkkkn

i

...1

Atenção: notem que o cálculo da expressão

n

ini yyyy

1

22

2

2

1

2 ... ,

denominada de “soma de quadrados” é diferente do cálculo da expressão

n

ini yyyy

1

2

21

2 )...()( , denominada de “quadrado da soma”.

Outras notações:

y+ =

n

ini yyyy

1

21 ... , e n

y

n

yy

n

ii

1

Notação com dois subescritos. Considere dois grupos de dados

1. grupo controle: { 5, 7, 5, 4 } , o qual é representado por

4,5,7,5 14131211 yyyy ,

2. grupo tratado: { 7 , 9 , 6 , 9 , 8 } , o qual é representado por

8,9,6,9,7 2524232221 yyyyy ,

sendo, i =1, 2, representando os grupos e j = 1, 2,..., ri representando as repetições dentro de cada grupo.

Calcular o valor da expressão i

i

r

jij

r

yi

2

1

2

1

)(

Exemplo de Tabela de dupla entrada. Qualquer observação é representada por yij , sendo que, o índice i refere-se às linhas (i=1, 2,..., k) e o índice j refere-se às colunas (j=1, 2, ..., r).

Colunas

Linhas 1 2 3 ... j ... r Total Média 1 y11 y12 y13 ... ... ... y1r y1+ 1y

2 y21 y22 y23 ... ... ... y2r y2+ 2y

3 y31 y32 y33 ... ... ... y3r y3+ 3y

.

.

. i . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

...

...

... yij . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. yj+ . . .

.

.

.

jy

.

.

. k yk1 yk2 yk3 ... ... ... ykr yk+ ky

Total y+1 Y+2 y+3 ... y+j ... y+r y++

Média 1y 2y 3y

... jy

... ry

y

Estatística Experimental

5

geralmédiaaéysobservaçõeastodasdesomageraltotaloéy

linhaésimaidamédiaaéylinhaésimaidatotaloéy

colunaésimajdamédiaaéycolunaésimajdatotaloéy

ii

jj

);(

;;

;;

2 Medidas de tendência central Um dos aspectos mais importantes do estudo de um conjunto de dados

é a posição do valor central. Qualquer valor numérico que representa o centro de um conjunto de dados é denominado de medida de locação ou medida de tendência central. As duas medidas mais comumente utilizadas é média aritmética, ou simplesmente a média, e a mediana.

2.1 Média aritmética. A mais familiar medida de tendência central é a média aritmética. Ela é

a medida descritiva que a maioria das pessoas tem em mente quando elas falam de média.

A média pode ser expressa como

n

y

n

yyy

n

y

y n

n

ii

...211

Vamos supor que a variável aleatória Y assume os seguintes valores, { 10, 54, 21, 33, 53 }, então a média destes 5 valores é dada por:

2,345

171

5

5333215410

5

5

1

i

iy

y

Script no R para o cálculo da média # calculo da média pela definição y <-c(10,54,21,33,53) media.1<-sum(y)/length(y) # pela função mean( ) media.2<-mean(y)

Propriedades da média; a) Única. Para um conjunto de dados existe uma e somente uma média

aritmética. b) Simplicidade. A média aritmética é fácil de ser entendida e fácil de ser

calculada. c) Dado que toda observação do conjunto de dados entra no seu

cálculo, ela é afetada por cada valor. Valores extremos têm influência na média e, em algumas situações podem ocorrer distorções, o que pode torná-la uma medida indesejável como medida de tendência central.

2.2 Mediana.

Uma alternativa à média aritmética como medida de tendência central é a mediana. A mediana de um conjunto de valores finitos é o valor que ocupa a posição central dos dados ordenados, ou seja, aquele valor o qual divide o conjunto de dados em duas partes iguais tal que o número de valores iguais ou

Estatística Experimental

6

maiores que a mediana é igual ao número de valores menores ou iguais que a mediana. Temos que considerar duas situações:

)(2)(2

1

)(12~

)1()(

)1(

parénknseyy

imparénknseyy

kk

k

Exemplos: 1. Considere os dados 10, 54, 21, 33, 53 , com n=5 observações, e a seqüência ordenada fica 10, 21, 33, 53, 54. A mediana é calculada como sendo a observação que ocupa a 3ª posição da seqüência ordenada, ou seja,

33~2,,2/)1(12 )3()12( yyyksejaounkkn

2. Considere os dados 10, 54, 21, 33, 53, 55, e a seqüência ordenada fica 10, 21, 33, 53, 54, 55. Como o número de observações é par e a mediana é calculada como sendo a média das observações que ocupam a posição central, ou seja,

43)5333(2

1

)(2

1)(

2

1~3,,2/)(2 )4()3()13()3(

yyyyyksejaounkkn

Script no R para o cálculo da mediana # calculo da mediana pela função median( ) mediana<-median(y)

Propriedades da mediana; a) Única. Assim como a média, para um conjunto de dados existe

uma e somente uma mediana. b) Simplicidade. A mediana é fácil de ser calculada. c) Ela não é drasticamente afetada por valores extremos, como a

média.

2.3 Moda. A moda é comumente definida como a observação mais freqüente

do conjunto de dados. Se todas as observações são diferentes não existe moda; por outro lado um conjunto de dados pode ter mais de uma moda. Exemplo: considere o conjunto de dados

{98, 102, 100, 100, 99, 97, 96, 95, 99, 100}, então a moda é mo = 100, e no conjunto de dados, abaixo, { 20, 21, 20, 20, 34, 22, 24, 27, 27, 27} existe duas modas 20 e 27 (bimodal).

Estatística Experimental

7

a)

b)

c)

d)

Figura 1.1 Distribuições de freqüência mostrando as medidas de tendência central. Distribuições em a) e b) são simétricas, c) é positivamente assimétrica, e d) é negativamente assimétrica. As distribuições a), c), e d) são unimodal, e a distribuição b) é bimodal.

3 Medidas de dispersão Apesar das medidas de tendência central fornecerem uma idéia do

comportamento de um conjunto de dados, elas podem esconder valiosas informações. Essas medidas não são suficientes para descrever ou discriminar diferentes conjunto de dados. Por exemplo, a Figura 3.1 mostra os polígonos de freqüência duas variáveis que possuem a mesma média, mas diferentes valores de dispersão. A variável B, a qual tem maior variabilidade que a variável A, é mais espalhada. A dispersão de um conjunto de dados se refere à variedade que eles exibem. Uma medida de dispersão fornece informação a respeito da quantidade de variabilidade presente no conjunto de dados.

Figura 3.1 Dois polígonos de freqüência com a mesma média, mas com diferentes quantidades de dispersão. Se todos os valores do conjunto de dados são iguais, não existe

dispersão; se eles são diferentes, a dispersão está presente nos dados. A quantidade de dispersão pode ser pequena, quando os dados, embora diferentes, são muito próximos.

3.1 Amplitude A amplitude é definida como a diferença entre o maior e o menor valor

do conjunto de dados. O problema desta mediada é que ela só leva em conta dois valores do conjunto de dados e, assim, seria mais conveniente considerarmos uma mediada que utilizasse todas as observações do conjunto de dados. A primeira idéia que ocorre é considerar o desvio de cada

Estatística Experimental

8

observação em relação a um ponto de referência e então calcular a sua média. Se tomarmos a média aritmética como este ponto de referência, temos a seguinte situação:

Seja o conjunto de dados yeyyy n...,,, 21 , a média destes dados.

Definiremos por yyd ii , os desvios destas observações em relação à sua

média. Por exemplo, considere os dados 96,5,4 4321 yeyyy . Assim

temos:

3)69(,0)66(,1)65(,2)64(

,64

9654

4321

dddd

y

Reparem que a soma dos desvios é igual a zero, ou seja, 0d4

1i

i

. Isto

pode ser provado algebricamente, da seguinte forma,

n

i

n

i

n

i

n

i

n

i

n

ii

n

ii

n

ii

iiii

n

ii yy

n

y

nyynyyyyyd1 1 1 1 1 11

1

1

0)(

Portanto a soma destes desvios não seria nada informativa sobre a dispersão dos dados. Definiremos então, uma medida que utiliza o quadrado dos desvios em relação à média.

3.2 Variância e desvio-padrão A variância de um conjunto de dados, é definida como média dos

desvios das observações em relação à média ao quadrado, ou seja,

1

)(...)()( 22

2

2

12

n

yyyyyys n

Para manter a mesma unidade dos dados originais, é conveniente definirmos o desvio-padrão como sendo a raiz quadrada positiva da variância s2,

1

)(...)()( 22

2

2

1

n

yyyyyys n

A variância amostral é frequentemente calculada usando-se a

fórmula mais rápida e prática

n

i

n

ii

i

nn

n

y

yn

n

yyyyyy

ns

1

1

2

2

2

2122

2

2

1

2

)(

1

1

)...(...

1

1

Exemplo: Os pesos (em pounds) de uma amostra aleatória de trutas em um lago são:

1,19; 0,93; 2,40; 1,71; 0,89; 1,74; 1,06; 1,16; 1,47; 1,15

A média aritmética destes dados é

.37,110

7,13)15,1...93,019,1(

10

1poundsy

E a variância é

Estatística Experimental

9

2

2222

)(2187,0

)37,115,1(...)37,193,0()37,119,1(110

1

pounds

s

Alternativamente, temos

.47,02187,0

,)(2187,010

70,1374,20

9

1

10

)15,1...93,019,1(15,1...93,019,1

110

1

2

22222

poundss

epounds

s

Script no R para os cálculos acima # entrando com os dados pelo comando concaternar c( ) peso <- c(1.19, 0.93, 2.40, 1.71, 0.89, 1.74, 1.06, 1.16, 1.47, 1.15) # cálculo da média pela definição com os comandos sum() e length() m.peso1 <- sum(peso)/length(peso) m.peso1 # cálculo da média pela função mean() m.peso2 <- mean(peso) m.peso2 # # para saber mais detalhes da função mean() execute o comando ??mean() # # 3 formas de se calcular a variância pelas fórmulas do item 3.4 v1.peso <- sum((peso-mean(peso))^2)/(length(peso)-1) v1.peso v2.peso <- (sum(peso^2)-sum(peso)^2/length(peso))/(length(peso)-1) v2.peso # cálculo pela função var( ) v3.peso <- var(peso) v3.peso # cálculo do desvio padrão pela definição sd1.peso <- sqrt(v3.peso) sd1.peso # cálculo do desvio padrão pela função sd( ) sd2.peso <- sd(peso) sd2.peso

3.3 Quartis Alguns quartis são definidos de modo análogo à mediana. Assim como a

mediana divide o conjunto de dados em duas partes, os quartis dividem os dados em quatro partes. O segundo quartil, representado por Q2 é igual à

Estatística Experimental

10

mediana, então yQ2~ . O primeiro quartil, Q1 é definido como aquele valor do

conjunto de dados tal que não mais que 25% dos dados têm valores menores que Q1 e não mais que 75% dos dados têm valor maior que Q1. O terceiro quartil, Q3, pode ser definido de maneira similar. Assim como a mediana, mais de uma observação pode satisfazer a definição dos quartis. As seguintes fórmulas podem ser utilizadas para calcular o primeiro e o terceiro quartis de um conjunto de dados

ordenadaobservaçãoésiman

Q

ordenadaobservaçãoésiman

Q

4

)1(3

4

1

3

1

3.4 Gráfico “BOX-PLOT” O gráfico tipo Box-plot é um recurso visual útil de comunicação da

informação contida em conjunto de dados. O objetivo de um gráfico tipo Box-Plot é mostrar as principais características de um conjunto de dados. Para interpretar um gráfico Box-Plot adequadamente, os valores devem ser visualizados como pontos de linha horizontal/vertical localizada no centro do gráfico. Valores grandes correspondem a grandes pontos na horizontal/vertical. Existem três componentes importantes no gráfico Box-plot:

A caixa, a qual contém 50% dos valores, começa no primeiro quartil Q1 e termina no terceiro quartil, Q3.

As duas pontas (whiskers), se extendem acima e abaixo da caixa até a localização da maior e da menor observação que estão dentro da distância de 1.5 vezes o intervalo interquartil.

Os valores atípicos “outliers”, são os valores fora das pontas.

Exemplo: Considere os dados a seguir, os quais se referem a peso (g) de tumores cancerígenos extraídos do abdome de 57 cães

68 63 42 27 30 36 28 32 79 27 22 23 24 25 44 65 43 25 74 51 36 42 28 31 28 25 45 12 57 51 12 32 49 38 42 27 31 50 38 21 16 24 69 47 23 22 43 27 49 28 23 19 46 30 43 49 12 O conjunto ordenado fica: 12 12 12 16 19 21 22 22 23 23 23 24 24 25 25 25 27 27 27 27 28 28 28 28 30 30 31 31 32 32 36 36 38 38 42 42 42 43 43 43 44 45 46 47 49 49 49 50 51 51 57 63 65 68 69 74 79 Assim, a menor e a maior observação é 12 e 79, respectivamente. O

número de observações é 57. O primeiro quartil é a observação

255.144

157)5,14(1

yQ g,

e o terceiro quartil

5,465.434

)157(3)5,43(3

yQ g

Script no R para os cálculos acima

Estatística Experimental

11

# entrando com os dados p.tumor <- c(68, 63, 42, 27, 30, 36, 28, 32, 79, 27, 22, 23, 24, 25, 44, 65, 43, 25, 74, 51, 36, 42, 28, 31, 28, 25, 45, 12, 57, 51, 12, 32, 49, 38, 42, 27, 31, 50, 38, 21, 16, 24, 69, 47, 23, 22, 43, 27, 49, 28, 23, 19, 46, 30, 43, 49, 12) # observação mínima dos dados do vetor p.tumor pela função min() min.ptumor <- min(p.tumor) min.ptumor # observação máxima dos dados do vetor p.tumor pela função max() max.ptumor <- max(p.tumor) max.ptumor # cálculo da amplitude pela definição amplitude<-max.ptumor-min.ptumor amplitude # cálculo do quantil 0.20 com a função quantile() q.20 <- quantile(p.tumor,0.20) q.20 # cálculo do primeiro quartil Q1 q1 <- quantile(p.tumor,0.25) q1 # cálculo do primeiro quartil Q2 q2 <- quantile(p.tumor,0.50) q2 # cálculo do terceiro quartil Q3 q3<- quantile(p.tumor,0.75) q3 # calculo da mediana mediana<- median(p.tumor) mediana # reparem que a mediana é igual ao segundo quartil # cálculo dos 3 quartis (0.25, 0.50, 0.75) de uma única vez quartis <- c(0.25,0.50,0.75) quantile(p.tumor,quartis) # apresentando a função summary( ) summary(p.tumor) # 2 gráficos pela função boxplot() boxplot(p.tumor) # gráfico default

Estatística Experimental

12

# incrementando o gráfico boxplot(p.tumor, col=2, # colocando cor no gráfico horizontal= T, # na posição horizontal main= "Gráfico Box-Plot") # colocando título principal Gráfico produzido pela última função boxplot( )

O exame deste Gráfico revela que 50% das observações estão no

retângulo entre os valores do Q1=25 e Q3=46,5. A linha vertical dentro da caixa representa o valor da mediana, Q2, a qual é 32. A longa cauda a direita do gráfico indica que a distribuição de peso de tumores é levemente assimétrica à direita. O símbolo da bolinha indica que existe uma observação atípica neste conjunto de dados, observação cujo valor é 79, com uma probabilidade de ocorrência muito baixa.

3.5 Medidas da forma da distribuição As medidas da forma de uma distribuição são os coeficientes de

assimetria (skewness) e curtosis (kurtosis). Assimetria é uma medida da assimetria da distribuição de freqüência.

Ela mostra se os desvios da média são maiores de um lado do que do outro lado da distribuição. Ela é dada por

3

1)2)(1(

n

i

i

s

yy

nn

nass

Para uma distribuição simétrica o coeficiente de assimetria é zero. Ela é positiva quando a cauda da direita é mais alongada e negativa quando a cauda da esquerda é mais alongada.

a)

b)

Figura 3.3 Ilustrações da assimetria a) negativa e b) positiva Curtosis é uma medida da forma das caudas de uma distribuição. Ela é

dada por

Estatística Experimental

13

)3)(2(

)1(3

)3)(2)(1(

)1( 24

1

nn

n

s

yy

nnn

nnct

n

i

i

Para variáveis, tais como, peso, altura ou produção de leite, espera-se que a distribuição de freqüência seja simétrica em torno da média e tenha a forma de um sino. Estas são as distribuições normais. Se as observações têm distribuição normal então a curtosis é igual a zero (ct = 0). Uma distribuição com curtosis positiva tem uma grande freqüência de observações próximas da média e caudas finas. Uma distribuição com curtosis negativa tem as caudas mais grossas e uma baixa freqüência de dados perto da média.

Script no R para os cálculos dos coeficientes de assimetria e curtosis # definindo uma função para o cálculo do coef. de assimetria ass<-function(x){ # início da função m3<-sum((x-mean(x))^3) s3<-sd(x)^3 n <- length(x);n_1 <- length(x)-1; n_2 <- length(x)-2 coef<- n/(n_1*n_2) coef*m3/s3 } # término da função # aplicando a função ass( ) aos dados de p.tumor ass(p.tumor)

# definindo uma função para o cálculo do coef. de curtosis ct <-function(x) { # inicio da função m4<-sum((x-mean(x))^4) s4<-sd(x)^4 n<-length(x);coef1<-n*(n+1)/((n-1)*(n-2)*(n-3));coef2<- 3*(n-1)^2/((n-2)*(n-3)) coef1*m4/s4 - coef2} # término da função # aplicando a função aos dados de p.tumor ct(p.tumor) # definindo uma função ed( ) que calcula todas as estatísticas descritivas ed<-function (x) { # inicio da funçao media<-mean(x) # cálculo da média dp<-sd(x) # cálculo do desvio padrão minimo<-min(x) # cálculo do mínimo maximo<-max(x) # cálculo do máximo q1<-quantile(x,0.25) # cálculo do 1 quartil mediana<-median(x) # cálculo da mediana q2 q3<-quantile(x,0.75) # cálculo do terceiro quartil cv<-sd(x)/mean(x)*100 # cálculo do coef. variação # cálculo do coef. de assimetria m3<-sum((x-mean(x))^3) s3<-sd(x)^3 n <- length(x) coef<- n/((n-1)*(n-2)) ass<-coef*m3/s3 # cálculo do coef. curtosis

Estatística Experimental

14

m4<-sum((x-mean(x))^4) s4<-sd(x)^4 n<-length(x) coef1<-n*(n+1)/((n-1)*(n-2)*(n-3)) coef2<- 3*(n-1)^2/((n-2)*(n-3)) ct<-coef1*m4/s4 - coef2 # definindo a saída c(mínimo=minimo,Q1=q1,média=media,mediana=mediana,desv_pad=dp, Q3=q3,máximo=maximo,CV=cv,Assimetria=ass,Curtosis=ct) } # final da função ed( ) # aplicando a função ed( ) aos dados de p.tumor round(ed(p.tumor),1) # a função round( ) controla as casas decimais

Abaixo estão estas estatísticas calculadas pelo script acima

mínimo Q1.25% mediana desv_pad Q3.75% máximo CV 12.0 25.0 32.0 15.9 46.0 79.0 43.2 Assimetria Curtosis 0.8 0.1

3.6 Histograma O gráfico do histograma é outro recurso visual muito usado para a

análise da forma da distribuição. No script do R abaixo são apresentados alguns exemplos doa função hist( ) e sua correspondência com o gráfico Box-Plot. # histograma dos dados p.tumor hist(p.tumor) # default # histograma com mais opções hist(p.tumor, col="light blue", # colocando a cor azul xlab=" Classes de Peso (g)", # título do eixo x ylab="Frequência", # título do eixo y nclass=8, # número de colunas border="dark blue") #colocando bordas no gráfico

Saída fornecida pelo script acima

Apresentação do histograma e do Box-Plot juntos

# dividindo a janela gráfica em 2 linhas e 1 coluna par(mfrow=c(2,1))

Histograma

Classes de Peso (g)

Fre

qu

ên

cia

10 20 30 40 50 60 70 80

05

10

15

20

Estatística Experimental

15

# histograma hist(p.tumor, col="light blue", # colocando a cor azul xlab=" Classes de Peso (g)", # título do eixo x ylab="Frequência", # título do eixo y nclass=8, # número de colunas border="dark blue", # colocando bordas no gráfico main="Histograma") # título principal # gráfico box plot boxplot(p.tumor, col=2, # colocando cor no gráfico

horizontal= T, # na posição horizontal main= "Gráfico Box-Plot") # colocando título principal

Gráficos para dados com uma classificação é uma ferramenta muito útil

na ánalise exploratória de dados. Considere a questão nº 1 da 1ª Lista de exercícios, apresentada ao final da Aula 1. Nesta questão é solicitado a construção do gráfico de barras para cada tipo de comida. O script no R para construir estes gráficos é:

# entrando com todas as observações n.moscas<-c(15,20,31,16,22,22,23,33,38,28,25,20,21,23,29,26,40,20,19,31, 6,19,0,2,11,12,13,12,5,16,2,7,13,20,18,19,19,9,9,9) # definindo um vetor para cada tipo de comida t.comida <- c(rep("c.regular",20),rep("c.suco",20)) #calculando a média para cada tipo de comida com o comando tapply() m.moscas<-tapply(n.moscas,t.comida,mean) #calculando o desvio-padrão para cada tipo de comida com o comando tapply() sd.moscas<-tapply(n.moscas,t.comida,sd) # gráfico de barras do valor médio de cada tipo de comida bar.moscas<-barplot(m.moscas, cex.names=0.7, xlab="Comida",col=c(2,3), ylab="Comprimento médio (±sd)", ylim=c(0,max(mean(m.moscas)+sd(m.moscas)*2))) # colocando os eixos do desvio-padrão no gráfico de barras

Histograma

Classes de Peso (g)

Fre

qu

ên

cia

10 20 30 40 50 60 70 80

05

15

10 20 30 40 50 60 70 80

Gráfico Box-Plot

Estatística Experimental

16

arrows(bar.moscas,m.moscas-sd.moscas, bar.moscas,m.moscas+sd.moscas, length=0.1, angle=90, code=3) # gráfico Box-plot para cada tipo de comida boxplot(n.moscas~t.comida,col=c(2,3))

3.7 Coeficiente de variação (CV) O desvio-padrão é útil como medida de variação dentro de um conjunto

de dados. Quando desejamos comparar a dispersão de dois conjuntos de dados, a comparação dos desvios-padrões dos dois conjuntos de dados pode nos levar a conclusões falsas. Pode acontecer que as duas variáveis envolvidas estão medidas em unidades diferentes. Por exemplo, podemos estar interessados em saber se os níveis do soro de colesterol, medido em miligramas por 100 ml são mais variáveis do que o peso corporal, medido em kilograma.

O que é necessário nesta situação é o uso de uma medida de variação relativa do que uma medida absoluta. Tal medida é o COEFICIENTE DE VARIAÇÃO (CV), a qual expressa o desvio padrão como uma porcentagem da média, e sua fórmula é

)%(100y

scv ,

a qual é uma medida independente da unidade. Exemplo: considere os valores abaixo de média e desvio-padrão de dois

grupo de cães, identificados pelas suas idades Amostra 1 Amostra 2

Grupo 10 anos 4 anos Peso médio 145 80

Desvio-padrão 10 10

Uma comparação dos seus respectivos desvios-padrões leva a uma conclusão de que as duas amostras têm a mesma variabilidade. Se calcularmos os coeficientes de variação, para o grupo 1

%,)( 96100145

10cv

e para o grupo 2,

%,)( 51210080

10cv ,

e comparando estes resultados temos uma impressão bem diferente. O grupo 2 tem uma variabilidade de 1,8 vezes maior em relação ao grupo 1. O coeficiente de variação é muito útil na comparação de resultados obtidos por diferentes pesquisadores que investigam a mesma variável. Visto que o coeficiente de variação é independente da unidade, ele é útil para comparar a variabilidade de duas ou mais variáveis medidas em diferentes unidades. # definindo uma função para o cálculo do coeficiente de variação cv <- function(x) sd(x)/mean(x)*100 # aplicando a função aos dados de p.tumor cv(p.tumor) 4.ESTATÍSTICA EXPERIMENTAL

Estatística Experimental

17

4.1 INTRODUÇÃO Numa pesquisa científica o procedimento geral é formular hipóteses e

verificá-las diretamente ou por suas conseqüências. Para isto é necessário um conjunto de observações e o planejamento de experimentos é então essencial para indicar o esquema sob o qual as hipóteses possam ser verificadas com a utilização de métodos de análise estatística que dependem da maneira sob a qual as observações foram obtidas. Portanto, planejamento de experimentos e análises dos resultados estão intimamente ligados e devem ser utilizados em uma seqüência nas pesquisas científicas das diversas áreas do conhecimento. Isto pode ser visto por meio da seguinte representação gráfica da circularidade do método científico.

(2) Observações

(1) (3) Formulação de Hipóteses Verificação das Hipóteses formuladas

(4)

Desenvolvimento da Teoria

Fica evidente nesta ilustração que as técnicas de planejamento devem ser utilizadas entre as etapas (1) e (2) e os métodos de análise estatística devem ser utilizados na etapa (3).

Desenvolvendo um pouco mais está idéia podemos dizer que uma pesquisa científica estatisticamente planejada consiste nas seguintes etapas:

1. Enunciado do problema com formulação de hipóteses. 2. Escolha dos fatores (variáveis independentes) que devem ser

incluídos no estudo. 3. Escolha da unidade experimental e da unidade de observação. 4. Escolha das variáveis que serão medidas nas unidades de

observação. 5. Determinação das regras e procedimentos pelos quais os diferentes

tratamentos são atribuídos às unidades experimentais (ou vice-versa).

6. Análise estatística dos resultados. 7. Relatório final contendo conclusões com medidas de precisão das

estimativas, interpretação dos resultados com possível referência a outras pesquisas similares e uma avaliação dos itens de 1 a 6 (desta pesquisa) com sugestões para possíveis alterações em pesquisas futuras.

Ilustrações destas etapas com exemplos.

1. Enunciado do problema. Como vimos uma pesquisa científica se inicia sempre com a formulação

de hipóteses. Essas hipóteses são primeiramente formuladas em termos científicos dentro da área de estudo (hipótese científica) e em seguida em termos estatísticos (hipótese estatística) . Deve haver uma correspondência perfeita entre as hipóteses científica e estatística para evitar ambigüidade.

Portanto, no enunciado do problema, a hipótese científica deve ser formulada de maneira precisa e objetiva.

Estatística Experimental

18

Exemplo:Um pesquisador está interessado em estudar o efeito de vários tipos de ração que diferem pela quantidade de potássio no ganho de peso de determinado tipo de animal.

Este objetivo pode ser atingido se planejarmos a pesquisa com uma das seguintes finalidades:

a) comparar as médias dos aumentos de peso obtidas com cada uma das rações (igualdade das médias);

b) Estabelecer uma relação funcional entre o aumento do peso médio e a quantidade de potássio.

2. Escolha dos fatores e seus respectivos níveis. No exemplo apresentado em 2.1, a variável independente “ração” é um

fator e os tipos de rações são os níveis deste fator, ou tratamentos. Assim, em um experimento para se estudar o efeito de 4 rações e 3 suplementos no ganho de peso de animais, temos dois fatores: ração com quatro níveis e suplementos com 3 níveis. Podemos dizer que este experimento envolve 12 tratamentos, correspondentes às combinações dos níveis dos dois fatores.

Pelo próprio conceito de fator, temos que em um experimento, a escolha dos fatores e seus respectivos níveis é basicamente um problema do pesquisador. No entanto é importante para o planejamento e análise distinguirmos as duas situações, descritas a seguir:

a) uma fazenda de inseminação adquiriu 5 touros de uma determinada raça para a produção de sêmen, e está interessada em realizar um experimento para verificar se os cinco touros são homogêneos quanto a produção de sêmen.

b) A mesma fazenda de inseminação está interessada em realizar um experimento para verificar se a produção de sêmen de touros, de uma determinada raça, é homogênea. Como a população de touros da fazenda é muito grande o pesquisador decidiu realizar um experimento com uma amostra de touros (5 touros), mas as conclusões devem ser estendidas para a população de touros.

Na situação descrita em a) dizemos que o fator “touro” é fixo e na

situação em b) o fator “touro” é aleatório. A diferença fundamental entre estes dois tipos de fatores é, então, que no caso de fatores fixos, as conclusões se referem apenas aos níveis do fator que estão presentes no experimento. No caso de fatores aleatórios as conclusões devem ser estendidas para a população de níveis.

3. Escolha da unidade experimental. Em um grande número de situações práticas a unidade experimental é

determinada pela própria natureza do material experimental. Por exemplo, experimentos com animais, em geral a unidade experimental é um animal. Em outras situações a escolha de outras unidades experimentais não é tão evidente, exigindo do pesquisador juntamente com o estatístico algum estudo, no sentido de escolher a unidade experimental mais adequada. A escolha de uma unidade experimental, de um modo geral, deve ser orientada no sentido de minimizar o erro experimental, isto é, as unidades devem ser as mais homogêneas possíveis, para, quando submetidas a dois tratamentos diferentes, seus efeitos, sejam facilmente detectados.

Estatística Experimental

19

4. Escolha das variáveis a serem medidas. As medidas realizadas nas unidades experimentais após terem sido

submetidas aos tratamentos constituem os valores da variável dependente. A variável dependente, em geral, é pré-determinada pelo pesquisador, isto é, ele sabe qual variável que ele quer medir. O que constitui problema, às vezes, é a maneira como a variável é medida, pois disto dependem a precisão das observações, e a distribuição de probabilidade da variável a qual é essencial para a escolha do método de análise. Assim, por exemplo, se os valores de uma variável são obtidos diretamente por meio de um aparelho de medida (régua, termômetro, etc.) a precisão das observações vai aumentar se, quando possível, utilizarmos como observação a média de três medidas da mesma unidade experimental. Com relação à distribuição de probabilidade em muitas situações as observações não são obtidas diretamente e sim por expressões matemáticas que as ligam a outros valores obtidos diretamente. Neste caso, a distribuição de probabilidade das observações vai depender da distribuição de probabilidade da variável obtida diretamente e da expressão matemática que as relaciona.

Portanto, as variáveis, necessariamente presentes em um experimento são: a variável dependente, medida nas unidades experimentais, e o conjunto de fatores (variáveis independentes) que determinam as condições sob as quais os valores da variável dependente são obtidos.

Qualquer outra variável que possa influir nos valores da variável dependente deve ser mantida constante.

5. Regras segundo as quais os tratamentos são atribuídos às unidades experimentais. Nas discussões apresentadas em cada um dos itens anteriores a

colaboração da estatística é bem limitada exigindo-se a essencial colaboração do pesquisador. Porém, o assunto discutido neste item é o que poderíamos denominar de planejamento estatístico de experimento. Trata-se das regras que associam as unidades experimentais aos tratamentos e que praticamente determinam os diferentes planos experimentais, ou seja, a Aleatorização ou Casualização. Lembramos, neste ponto, que os tratamentos são cada uma das combinações entre os níveis de todos os fatores envolvidos no experimento.

Para que a metodologia estatística possa ser aplicada aos resultados de um experimento é necessário que em alguma fase do experimento, o principio a ser obedecido é o da Repetição, segundo o qual devemos ter repetições do experimento para que possamos ter uma medida da variabilidade necessária aos testes da presença de efeitos de tratamentos ou a estimação desses efeitos.

Aleatorização

Aleatorização é a designação dos tratamentos às unidades experimentais, tal que estas têm a mesma chance (mesma probabilidade) de receber um tratamento. Sua função é assegurar estimativas não-viesadas das médias dos tratamentos e do erro experimental. Nesta fase do planejamento de um experimento já sabemos quais fatores serão estudados e o número de níveis de cada fator que estarão presentes no experimento. Sabemos ainda qual é a unidade experimental escolhida e a variável dependente. Podemos imaginar que de um lado temos um conjunto

Estatística Experimental

20

U de unidades experimentais, e de outro,

T um conjunto de tratamentos, que podem ser as combinações dos níveis de todos os fatores envolvidos. Precisamos estabelecer esquemas que associam subconjuntos de elementos de U a cada elemento de T. Vamos apresentar o esquema mais simples. Para efeito de notação vamos supor que o conjunto U tem n elementos, o conjunto T tem a elementos, e o número de elementos de U submetidos ao tratamento Ti é ni, com i=1, 2, ..., a, de tal modo que

k

i

i nn1

.

O número de unidades experimentais ni para cada tratamento Ti é determinado a partir de informações sobre a variabilidade das unidades experimentais em termos da variabilidade da variável dependente.

O plano completamente aleatorizado é um esquema em que as unidades experimentais que vão ser submetidas a cada tratamento são escolhidas completamente ao acaso. Isto significa que cada unidade experimental tem igual probabilidade de receber qualquer um dos tratamentos.

Por exemplo, um pesquisador quer realizar um experimento para estudar o efeito de um resíduo industrial que é adicionado em rações de animais. Ele suspeita que este resíduo contenha uma substância tóxica, cuja presença no organismo, produz um aumento relativo de alguns órgãos, como o fígado, por exemplo. Após uma entrevista com o pesquisador conseguimos as seguintes informações

O experimento irá envolver um único fator, ração, com três níveis: t1 - ração normal, sem resíduo industrial (grupo controle; t2 - ração normal com o resíduo tratado, e t3 - ração normal com resíduo não tratado. Portanto, o conjunto T tem três tratamentos

Um conjunto U, é formado por um grupo de 18 camundongos todos, recém nascidos, com o mesmo peso inicial e homogêneos com relação às características genéticas gerais. Por isto foi decidido distribuir completamente ao acaso 6 animais para cada tratamento.

A variável dependente (resposta) é o peso relativo do fígado após 90 dias do início do experimento.

Uma maneira de se proceder ao sorteio é a seguinte:

enumera-se as unidades experimentais de 1 a 18.

coloca-se os tratamentos em seqüência , por exemplo: T1 T1 T1 T1 T1 T1 , T2 T2 T2 T2 T2 T2 , T3 T3 T3 T3 T3 T3

sorteia-se uma sequência de 18 números aleatórios. Pode-se obter, por exemplo, a sequência :

3, 1, 11, 15, 18, 16, 4, 5, 9, 12, 8, 7, 17, 14, 2, 6, 13, 10

Gerando uma seqüência de números aleatórios no R: # gerando uma sequencia de números de 1 a 18 x<-seq(1:18) x # sequencia aleatória de tamanho 18 de x sample(x,18,replace=F)

Estatística Experimental

21

Saída fornecida pelo R > # gerando uma sequencia de números de 1 a 18 > x<-seq(1:18) > x [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 > > # sequencia aleatória de tamanho 18 de x > sample(x,18,replace=F) [1] 4 5 7 10 17 8 16 3 2 14 11 13 9 1 18 6 15 12

Distribuição das unidades experimentais aos tratamentos de acordo com a seqüência gerada no R

Trat. Repetições

T1 u4 u5 u7 u10 u17 u8

T2 u16 u3 u2 u14 u11 u13

T3 u9 u1 u18 u6 u15 u12

Este plano experimental é mais eficiente quanto maior for o grau de

homogeneidade entre as unidades experimentais em termos da variável dependente. Se as unidades experimentais são heterogêneas o número n de unidades experimentais necessárias para uma boa precisão pode ser muito grande. Algumas alterações no planejamento descrito, tal como, a introdução de blocos, ou simplesmente a utilização de uma co-variável medida nas unidades experimentais, a qual é correlacionada com à variável dependente, podem reduzir consideravelmente o erro experimental.

Observações: 1) o plano experimental completamente aleatorizado não depende do

numero de fatores envolvidos e nem da maneira pela qual os fatores são combinados.

2) Existem alguns fatores que pela própria natureza, impõe restrições na aleatorização, porém para efeito de análise, o experimento é considerado completamente aleatorizado.

Plano experimental em blocos Quando o conjunto U de unidades experimentais for muito heterogêneo

(em termos da variável independente), o plano experimental completamente aleatorizado torna-se pouco preciso, pois o erro experimental fica muito grande. Em algumas situações dispomos de informações segundo as quais, antes da realização do experimento, é possível agruparmos as unidades experimentais mais ou menos homogêneas, em que a é o número de tratamentos envolvidos no experimento. Estes subconjuntos são denominados de blocos. Assim, a maior parte da heterogeneidade interna do conjunto U é expressa pela heterogeneidade entre blocos. A distribuição das unidades experimentais entre os tratamentos obedece a uma restrição imposta pelos blocos, isto é, as a unidades de cada bloco são distribuídas aleatoriamente entre os tratamentos.

Na análise de um experimento em blocos, além dos fatores de interesse, deve-se levar em conta o fator experimental bloco, diminuindo desta forma o erro experimental. Quanto maior for a heterogeneidade entre blocos, maior é a eficiência deste plano experimental em relação ao completamente aleatorizado.

Exemplo: Um pesquisador deseja testar o efeito de três tratamentos (T1, T2, T3 ) no ganho de peso de ovelhas . Antes do inicio do experimento as

Estatística Experimental

22

ovelhas foram pesadas e ordenadas de acordo com o peso e atribuídas a 4 blocos. Em cada bloco tinham 3 animais aos quais os tratamentos foram sorteados. Portanto, 12 animais foram usados.

Repetição Repetição significa que o mesmo tratamento é aplicado sobre duas ou

mais unidades experimentais. Sua função é fornecer uma estimativa do “erro experimental” e dar uma medida mais precisa dos efeitos dos tratamentos. O número de repetições requeridas em um particular experimento depende da magnitude das diferenças que o pesquisador deseja testar e da variabilidade da variável dependente em que se esta trabalhando.

Estatística Experimental

23

1º EXERCÍCIO PRÁTICO ESTATÍSTICA EXPERIMENTAL

1) Em um estudo genético, uma alimentação regular era colocada em 20 frascos e o número moscas de um determinado genótipo era contado em cada frasco. O número de moscas também era contado em outros 20 frascos que continham suco de uva. O número de moscas contados foram:

Número de moscas

Comida regular Suco de uva

15 20 31 16 22 22 23 33 38 28 25 20 21 23 29 26 40 20 19 31

6 19 0 2 11 12 13 12 5 16 2 7 13 20 18 19 19 9 9 9

(a) Calcule a média amostral, a variância amostral, o desvio padrão amostral e o coeficiente de variação de cada conjunto de dados. Comente. Qual destes dois conjuntos de dados tem maior variabilidade?

(b) Calcule a média amostral, a variância amostral, o desvio padrão amostral de cada conjunto de dados utilizando os recursos imediatos de sua calculadora.

(c) Para cada conjunto de dados utilize o R para calcular a média, a mediana, o Q1, o Q3, a observações mínima e máxima, construa os gráficos do Histograma, do Box-Plot, e o gráfico de barras com os desvio-padrões para cada tipo de comida. Comente os resultados.

2) Demonstre sua familiaridade com a notação da somatória, desdobrando-as e calculando as seguintes expressões com

x1 = 1, x2 = -2, x3 = 4, e x4 = 5:

Dica para o item (a)

4

1

4321 854)2(1i

i xxxxx

(a)

4

1iix (b)

4

1

4i

ix (c)

4

1

)3(i

ix (d)

4

2

)4(i

ix (e)

3

1

2)4(i

ix

(f)

4

1

2

iix (g)

4

1

2)2(i

ix (h)

4

1

2 )44(i

ii xx

3) Uma observação qualquer do conjunto de dados abaixo pode ser representada por yij , com o índice i=1, 2, 3 controlando as linhas e j=1, 2, 3, 4, 5, 6 controlando as colunas. Por exemplo, y23 = 100. Calcule as seguintes expressões (fazendo o desdobramento):

a)

3

1

2

iiy b)

6

1

2

jjy c)

3

1

6

1i jijy d)

3

1

6

1

2

i jijy e)

23

1

6

1

i j

ijy

4) Os dados a seguir referem-se ao nível de glicose em sangue de 10 cães

56 62 63 65 65 65 65 68 70 72 Calcule manualmente e depois utilize o R para calcular: a) média; b) a mediana; c) mínimo e máximo; d) os quartis Q1 e Q3. Construa o histograma e gráfico tipo Box – Plot. Comente a respeito da dispersão dos dados. 7) Determinações de açúcar no sangue ( mg/ 100ml ) foram feitas em 5 raças de animais experimentais, sendo 10 amostras por raça. Os resultados foram:

Raças A B C D E

124 111 117 104 142 116 101 142 128 139 101 130 121 130 133 118 108 123 103 120 118 127 121 121 127 120 129 148 119 149 110 122 141 106 150 127 103 122 107 149 106 122 139 107 120 130 127 125 115 116

C1 C2 C3 C4 C5 C6

L1 550 950 950 750 650 700 L2 350 500 100 550 350 350 L3 600 450 150 500 100 250

Estatística Experimental

24

Utilize o R para calcular para cada raça: a) média; b) a mediana; c) desvio padrão; d) o erro padrão; e) mínimo e máximo; f) os quartis Q1 e Q3. Construa o histograma, o gráfico tipo Box-Plot e o gráfico de barras para cada raça. Comente a respeito da dispersão dos dados em cada raça. Somatório e Algebrismo c) Seja Y a variável tempo de recuperação da anestesia de tilápias, com 10 observações:

Y = { 17,0; 8,9; 28,7; 20,5; 8,9; 26,1; 43,9 }

Calcular passo-a-passo:

a)

7

1iiy b)

7

7

1

i

iy

c) Quadrado da Soma

27

1

i

iy ;

d) Soma de Quadrados

7

1

2

iiy ; e) Suponha k = 15, calcule

7

1iiky ;

f) Considerando-se Y como uma constante, desenvolva algebricamente o seguinte quadrado:

n

ii yy

1

2)( , lembre-se que n

yy

n

ii

1

g) Reescreva a expressão

n

ii yy

ns

1

22 )(1

1 em função do desenvolvimento do item f.

h) Considere a variável X tempo (segundos) de indução da anestesia para as mesmas 7 tilápias, respectivamente:

X = {165; 183; 161; 147; 146; 152; 174}

Calcule: ii

i yx

7

1

Estatística Experimental

25

Aula 2 – Testes de significância 1 Introdução Um dos principais objetivos da estatística é a tomada de decisões a respeito de parâmetros da população com base nas observações de amostras.

AMOSTRAGEM

INFERÊNCIA ESTATÍSTICA

POPULAÇÃO AMOSTRA

Ao tomarmos decisões, é conveniente a formulação de Hipóteses relativas às populações, as quais podem ser ou não verdadeiras.

Exemplo: Um veterinário está interessado em estudar o efeito de 4 tipos

de rações que diferem pela quantidade de potássio no aumento de peso de coelhos.

osdistpesosdeaumentospropiciamraçõesAsH

scontrolado nãofatores adevidas são observadas diferenças quaisquer

seja,ou rações,as entrediferençaexisteNãoH

1

0

int:

:

H0 é denominada de hipótese de nulidade, a qual assume que não existe efeito dos tratamentos e H1 é a contra hipótese.

Testes de hipóteses ou testes de significância São os processos que nos permitem decidir se aceitamos ou rejeitamos

uma determinada hipótese, ou se os valores observados na amostra diferem significativamente dos valores esperados (População)

2 Tipos de erros nos testes de significância QUADRO RESUMO: condições sobre as quais os erros Tipo I e Tipo II

podem ser cometidas Condição da Hi pótese nula

H0 Verdadeiro H0 Falsa

Rejeição de H0 Erro Tipo I () Decisão correta

Não rejeição de H0 Decisão correta Erro Tipo II ()

Erro Tipo I: é o erro cometido ao rejeitar H0, quando H0 é verdadeira. Erro Tipo II: é o erro cometido ao aceitar H0, quando ela é falsa. E

IITipoErroPeITipoErroP ;

MÉDIA POPULACIONAL

x MÉDIA AMOSTRAL

Possível

ação

Estatística Experimental

26

Esses dois erros estão de tal forma associados que, se diminuirmos a probabilidade de ocorrência de um deles, automaticamente aumentamos a probabilidade de ocorrência do outro. Em geral, controlamos somente o Erro Tipo I, por meio do nível de significância (daí vem a denominação de Testes

de Significância) do teste representado por , o qual é a probabilidade máxima com que nos sujeitamos a correr um risco de cometer um erro do Tipo I, ao testar a hipótese. Dado que rejeitar uma hipótese nula, (H0), verdadeira constitui um erro, parece razoável fixarmos esta probabilidade de rejeitar uma hipótese nula, (H0), verdadeira pequena, e de fato, é isto que é feito. Na prática

é comum fixarmos = 0,05 (5%) ou = 0,01 (1%).

Se, por exemplo, foi escolhido = 0,05, isto indica que temos 5 possibilidades em 100 de rejeitarmos a hipótese de nulidade (H0), quando na verdade ela deveria ser aceita, ou seja, existe uma confiança de 95% de que tenhamos tomado uma decisão correta, esta confiabilidade é denominada grau

de confiança do teste e é representada por 1 - e expressa em porcentagem. Nós nunca saberemos qual tipo de erro estamos cometendo ao rejeitarmos ou ao não rejeitarmos uma hipótese nula (H0), dado que a verdadeira condição é desconhecida. Se o teste nos leva à decisão de rejeitar H0, podemos ficar

tranqüilos pelo fato de que fizemos pequeno e, portanto, a probabilidade de cometer o erro Tipo I é bem pequena. 3 Teste F para a Análise de Variância (ANOVA)

O teste F é a razão entre duas variâncias e é usado para determinar se duas estimativas independentes da variância podem ser assumidas como estimativas da mesma variância. Na análise de variância, o teste F é usado para testar a igualdade de médias, isto é, para responder a seguinte questão, é razoável supor que as médias dos tratamentos são amostras provenientes de populações com médias iguais? Considere o seguinte exemplo de cálculo da

estatística F; vamos supor que de uma população normal ),( 2N foram

retiradas, aleatoriamente, 5 (n=5) amostras de tamanho 9 (r=9).

Calcule as médias das 5 amostras e )19(

)(9

1

2

2

i

i

i

yy

s

Estime 2 por meio da fórmula 5

)...( 2

5

2

12 sss

, a qual é uma

média das variâncias das amostras e será denominada de

variabilidade dentro das amostras ( 2

Ds ).

Estime a variância populacional das médias 2

y , por meio das

médias das 5 amostras: 15

)(5

1

22

2

ii

y

yy

s

De 2

ys , estime novamente 2 , usando a relação

222

2 , yy rssour

ss , denominada de variabilidade entre as

amostras ( 2

Es ).

Estatística Experimental

27

Calcule 2

2

D

Ec

s

sF

A estimativa de 2

Es do numerador foi feita com base em n - 1 = 4 graus

de liberdade (n é o número de amostras) e a estimativa de 2

Ds do denominador

foi feita com base em n(r – 1) = 5(9-1) = 40. A repetição deste procedimento amostral muitas vezes gera uma população de valores de F, os quais quando colocados em um gráfico de distribuição de freqüência tem o seguinte formato

O valor de F = 2,61 é o valor acima do qual, 5% dos valores de F

calculados têm valor acima dele. Este é o valor para um nível de 5% encontrado na Tabela F para 4 e 40 graus de liberdade (veja Tabela F). Dado que as estimativas da variância utilizadas no cálculo da estatística F são

estimativas da mesma variância 2 , espera-se que o valor de F seja bem

próximo de 1, a menos que um conjunto de amostras não usual foi retirado. Para qualquer conjunto de amostras retiradas de n = 5 e r = 9 a probabilidade (ou a chance) de um valor de F calculado ser maior ou igual a 2,61 é 0,05 (5%)

)05,0]61,2[( FP .

As hipóteses estatísticas que testamos quando aplicamos o teste F são

2

2

2

11

2

2

2

10

:

:

H

H

A hipótese H0 estabelece que as duas variâncias populacionais são iguais, o que equivale a admitir que as amostras foram retiradas da mesma população. A hipótese H1 (contra hipótese, ou hipótese alternativa) estabelece que as variâncias são provenientes de populações diferentes e, mais ainda, a variância da primeira é maior que a variância da segunda. Os valores de F são tabelados em função dos graus de liberdade das estimativas de s2 do numerador (n1) e do denominador (n2) no cálculo da estatística F e para diferentes valores de níveis de significância (5%, 1%, etc.). Também podem ser fornecidos por comandos do programa R.

0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Distribuição F(4,40,0.05)

Pro

ba

bilid

ad

e

95% 5%

2,61

Estatística Experimental

28

Regra de decisão para o teste da estatística F Todos os possíveis valores que o teste estatístico pode assumir são pontos no eixo horizontal do gráfico da distribuição do teste estatístico e é dividido em duas regiões; uma região constitui o que denominamos de região de rejeição e a outra região constitui o que denominamos de região de não rejeição. Os valores do teste estatístico que formam a região de rejeição são aqueles valores menos prováveis de ocorrer se a hipótese nula é verdadeira, enquanto que os valores da região de aceitação são os mais prováveis de ocorrer se a hipótese nula é verdadeira. A regra de decisão nos diz para rejeitar H0 se o valor do teste estatístico calculado da amostra é um dos valores que está na região de rejeição e para não rejeitar H0 se o valor calculado do teste estatístico é um dos valores que está na região de não rejeição. O procedimento usual de teste de hipóteses é baseado na adoção de um critério ou regra de decisão, de tal modo que = P(Erro tipo I) não exceda um valor

pré-fixado. Porém, na maioria das vezes, a escolha de é arbitrária. Um

procedimento alternativo consiste em calcular o “menor nível de significância para o qual a hipótese H0 é rejeitada, com base nos resultados amostrais”. Este valor, denominado de nível descritivo do teste ou nível mínimo de significância do teste, será denotado por valor de p ( “p-value”). Todos os modernos programas computacionais fornecem este valor nos testes estatísticos.

A representação gráfica a seguir mostra uma ilustração da regra de decisão do teste F, visto anteriormente,

Exemplo: Amostras aleatórias simples e independentes, após dois tipos

de esforços, do nível de glicose no plasma de ratos após uma experiência traumática forneceram os seguintes resultados:

Esforço 1: 54 99 105 46 70 87 55 58 139 91 Esforço 2: 93 91 93 150 80 104 128 83 88 95 94 97 Estes dados fornecem suficiente evidência para indicar que a variância é

maior na população de ratos submetidos ao esforço 1 do que nos ratos submetidos ao esforço 2. Quais as suposições necessárias para se aplicar o teste?

0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Distribuição F(4,40,0.05)

Pro

ba

bilid

ad

e

Região de não rejeição Região de rejeição

2,61

95% 5%

Estatística Experimental

29

Solução:

As variâncias amostrais são 9333852s2

1 , e 2424398s2

2 , ,

respectivamente.

Suposições: Os dados constituem amostras aleatórias independentes retiradas, cada uma, de uma população com distribuição normal. (Esta é a suposição geral que deve ser encontrada para que o teste seja válido).

Hipóteses estatísticas

2

2

2

11

2

2

2

10

:

:

H

H

Cálculo do Teste Estatístico

1417,22424,398

9333,8522

2

2

1 s

sFc

Distribuição do Teste Estatístico: quando H0 é verdadeira a estatística F tem distribuição F com n1 – 1 e n2 – 1 graus de liberdade, ou seja, )05,0,11,9(F .

Regra de Decisão: fazendo %5 , o valor crítico de

896,2)05,0,11,9( F , então, rejeita-se H0 se 896,2cF . A ilustração

gráfica desta regra de decisão é mostrada a seguir,

Decisão estatística: não podemos rejeitar H0, dado que 2,1417<2,896; isto é, o Fc calculado caiu na região de não rejeição.

Conclusão: não podemos concluir que as variâncias dos esforços 1 e 2 são diferentes, o nível mínimo de significância do teste é p=0,1168 (p>0.05)

Script no R para o teste F

0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Distribuição F(4,40,0.05)

Pro

ba

bilid

ad

e

Região de não rejeição Região de rejeição

2,896

2,1417

Estatística Experimental

30

# definição das variâncias das amostras e do nível de significância (alfa) alfa<-0.05 v.y1<-852.933;v.y2<-398.2424;n.y1<-10;n.y2<-12 # calculo da estatística F fc<-v.y1/v.y2 fc # valor teórico desta distribuição para alfa=0,05 ft<-qf(1-alfa,n.y1-1,n.y2-1) ft # valor de p associado a estatística calculada fc valor.p<-1-pf(fc,n.y1-1,n.y2-1)

Exemplo da construção do gráfico de uma distribuição F com graus de

liberdade 5 e 6 e a 5%. #valor tabelado da distribuição F(5, 6.,0,05) junto com o gráfico ft=qf(0.95,5,6) # valor tabelado ft # gráfico da distribuição xv<-seq(0,4,0.01) # gerando uma sequência de números de 0 a 4 yv<-df(xv,4,40) # gerando os valores de # distr. F(4,40) com a sequencia xv plot(xv,yv,type="l",main="Distribuição F(4,40,0.05)", ylab="Probabilidade",xlab="",lwd=3) # gráfico da distribuição F fcr=qf(0.95,4,40);fcr # valor crítico para alfa=5% lines(c(fcr,fcr),c(0,0.6), col=2,lwd=2,pch=2) # linha sinalizando o valor crítico # preenchimento da área sob a curva acima do valor crítico polygon(c(xv1[xv1>=2.605975],2.605975), c(yv1[xv1>=2.60975],yv1[xv1==4]),col="red") 4 Análise de variância

Embora o teste F possa ser aplicado independentemente, a sua maior aplicação é na análise de variância dos Delineamentos Experimentais. Vamos considerar os seguintes dados de Delineamento Inteiramente Casualizado, (DIC).

Tratamentos

Repetições

1 2 3 4

A 12,4 15,2 14,3 12,6 B 13,2 16,2 14,8 12,9 C 12,1 11,3 10,8 11,4 D 10,9 9,8 9,4 8,3

22

Te

Dentro de um mesmo tratamento o valor observado nas diferentes repetições não é o mesmo, pois estes valores estão sujeitos à variação ao

2

e

Estatística Experimental

31

acaso ( e2 ). Quando passamos de um tratamento para outro, os dados também

não são iguais, pois estes estão sujeitos a uma variação do acaso acrescida de

uma variação devida ao efeito do tratamento, i.é, 22

Te

Quadro da análise de variância do DIC Considere os dados do exemplo anterior, onde tínhamos 4 tratamentos

(k=4) e 4 repetições. A Tabela da Análise de variância fica sendo

Fonte de variação G.L. Soma de Quadrados Quadrado médio Estatística F

Entre k - 1

kr

y

r

yk

i

i2

1

2 )(

1

...

k

TratQS .Re..

...

sMQ

TratMQ

Dentro n - k

k

i

r

j

k

i

iij

r

yy

1 1 1

22 )(

kkr

sQS

.Re..

Total n - 1

k

i

r

jij

kr

yy

1 1

22 )(

Deste quadro notamos que o Quadrado médio do resíduo estima a

variação casual (do resíduo) 2

e . Enquanto que o quadrado médio dos

tratamentos estima a variação casual (resíduo) acrescida de uma possível

variância devido ao efeito dos tratamentos ( 22

Te ), então

2

22

e

TeF

Se não houver efeito dos tratamentos os dois quadrados médios (Quadrado médio dos tratamentos e quadrado médio do resíduo) estimam a

mesma variância, o que implica o valor de F 1,0, e qualquer diferença que ocorra entre os valores médios dos tratamentos é meramente casual. 5 Teste t – Student.

Considere uma outra retirada de amostras repetidas de um determinado tamanho, por exemplo, r = 5 de uma população normal. Para cada amostra

calcule a média y o desvio padrão, s , o erro padrão da média ys e uma outra

estatística

y

cs

yt

Graficamente temos

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

População Normal

x

Pro

ba

bilid

ad

e

Estatística Experimental

32

1

1

1

1

2

1

2

2

11

2

1

2

2

1

;5

;15

)(

...........................................................2

;5

;15

)(

1

y

my

i

m

y

y

i

s

yt

ss

yy

smamostra

amostra

s

yt

ss

yy

samostra

m

Organizando estes milhares de valores da estatística t em distribuição de freqüência. Esta distribuição de freqüência tem a seguinte forma

Existe uma única distribuição t para cada tamanho de amostra. Neste

exemplo em que r = 5 (repetições = 5), 2,5 % dos valores de t serão maiores ou iguais do que 2,776 e 2,5% serão menores ou iguais do que -2,776. Os valores da estatística t – student são apresentados em tabelas (ver Tabela da distribuição t ). Por exemplo, para 10 graus de liberdade, o valor tabelado

esperado para t com probabilidade de 0,01 (1%) é 3,169. A distribuição t –

student converge rapidamente para a distribuição normal. Quanto maior for a amostra maior é aproximação da distribuição t – student com a distribuição normal. Quando os valores de t são calculados em amostras de tamanho r = 60, estes são bem próximos dos valores da distribuição normal.

Script no R para a obtenção dos valores teóricos da distribuição t-student #valor teórico da distribuição t-student pela função qt( ) para alfa=0.01 e 10 #graus de liberdade alfa<-0.01 qt(1-alfa/2,10) #valor teórico da distribuição t-student para alfa=0.05 e 10 graus de liberdade alfa<-0.05 qt(1-alfa/2,10) Regra de decisão para a estatística t-student

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

Distribuição t-student com 4 graus de liberdade

Pro

ba

bilid

ad

e

Valor cr’tico: -2,77 Valor crítico: 2,77

área 95%

área 2,5% área 2,5%

Estatística Experimental

33

Todos os possíveis valores que o teste estatístico pode assumir são

pontos no eixo horizontal do gráfico da distribuição do teste estatístico e é dividido em duas regiões; uma região constitui o que denominamos de região de rejeição e a outra região constitui o que denominamos de região de aceitação. Os valores do teste estatístico que formam a região de rejeição são aqueles valores menos prováveis de ocorrer se a hipótese nula é verdadeira, enquanto que os valores da região de aceitação são os mais prováveis de ocorrer se a hipótese nula é verdadeira. A regra de decisão nos diz para rejeitar H0 se o valor do teste estatístico calculado da amostra (tc) é um valor que está na região de rejeição e para não rejeitar H0 se o valor calculado do teste estatístico é um dos valores que está na região de aceitação. Em particular, no caso do teste t – student a regra de decisão fica sendo: rejeita-se

H0 se )

2,1(

nc tt . Outra forma de se tomar decisão sobre rejeitar ou não

rejeitar H0 é pelo valor de p associado ao valor calculado da estatística tc . Se 050p , não se rejeita H0 , caso contrário ( 050p , ) rejeita-se H0 . Neste caso

não há necessidade de se consultar a Tabela teórica da distribuição t-student. Exemplo: Em um hospital veterinário amostras de soro de amilase de 15

animais sadios e 22 animais hospitalizados foram colhidas. Os resultados da média e dos desvios-padrões foram os seguintes:

mlunidades35smlunidades96y

mlunidades40smlunidades120y

22

11

/,/

/,/

Neste exemplo, o erro padrão amostral ys da fórmula da estatística t,

será substituído pelo erro padrão da média “pooled”, ou seja,

)1()1(

)1()1(

21

2

22

2

112

rr

srsrsP

Cálculos:

Suposições: os dados constituem duas amostras independentes, cada uma, retirada de uma população normal. As variâncias populacionais são desconhecidas e assumidas iguais;

Hipóteses: 211

210

:

:

H

H;

Teste estatístico:

2

2

1

2

2121 )()(

r

s

r

s

yyt

pp

c

;

Estatística Experimental

34

Distribuição do teste estatístico: quando H0 for verdadeira, o teste segue uma distribuição t – Student com r1 + r2 – 2 graus de liberdade;

Regra de decisão: Rejeita-se H0 se )

2;2( 21

rr

c tt , neste exemplo,

030,2ct ;

Cálculo do teste estatístico: primeiro o cálculo da variância amostral

93,142,12

24

22

1375

15

1375

0)96120(

13752114

)35(21)40(14 222

c

p

t

es

Decisão estatística: não se rejeita H0, visto que - 030,288,1030,2 , ou seja, 1,88 está na região de não rejeição;

Conclusão: com base nestes dados não podemos concluir que as médias das duas populações são diferentes. Neste teste o nível mínimo de significância do teste é p= 0,069 (p>0,05).

Script no R para resolver o exemplo acima # definição das médias, dos desvio padrões e do tamanho das amostras m.y1<-120;m.y2<-96;sd.y1<-40;sd.y2<-35;n.y1<-15;n.y2<-22 # calculo da variância “pooled” v.pool<-((n.y1-1)*sd.y1^2+(n.y2-1)*sd.y2^2)/((n.y1-1)+(n.y2-1)) v.pool # calculo da estatistica t tc<-(m.y1-m.y2)/sqrt(v.pool/n.y1+v.pool/n.y2) tc # valor de t tabelado a 5% e 35 graus de liberdade alfa<-0.05 t.tab <- qt(1-alfa/2,35) t.tab # valor de p correspondente a este valor de t # multiplica-se o valor de p por 2 pois o teste é bi-lateral valor.p <- 2*(1-pt(tc,35)) valor.p

Estatística Experimental

35

2º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL

1- A tabela abaixo mostra a porcentagem de gordural corporal para vários homens e mulheres. Estas pessoas participaram de um programa de controle de peso de três vezes por semana por um ano. As medidas referem-se a porcentagem de gordura de seus corpos.

Homens 13,3 19,0 20,0 8,0 18,06 22,0 20,0 31,0 21,0

12,0 16,0 12,0 24,0

Mulheres 22,0 26,0 16,0 12,0 21,7 23,2 21,0 28,0 30,0

23,0

a) Faça um gráfico de barras e um gráfico boxplot para cada grupo a) Quais as suposições sob as quais o teste F pode ser aplicado. b) Podemos concluir que a variabilidade do grupo das mulheres seja maior que o do grupo

homens. (Use 010e050 ,, ).

2- Em um estudo, a seguintes contagens de linfócitos foi obtido em vacas de dois anos da raça Holstein e de vacas de dois anos da raça Guernseys. Os resultados estão na Tabela abaixo:

Holstein 5166 6080 7290 7031 6700 8908 4214 5135 5002

4900 8043 6205 3800

Guernseys 6310 6295 4497 5182 4273 6591 6425 4600 5407

5509

Calcular: a)- a média geral, um gráfico de barras, um gráfico boxplot para cada raça, a média de cada raça, a variância amostral e o desvio-padrão de cada raça; b)- declare as suposições sob as quais o teste t –student, para amostras independentes, pode ser aplicado; c)- teste se as variâncias das duas populações são iguais. (Teste F) d)- em função do resultado do teste do item c) podemos concluir que a contagem de linfócitos nas duas raças diferem assumindo que as variâncias são desconhecidas e iguais? Considere

%5 .

3- Retirou-se 5 amostras de tamanho 5 de uma população N( , 2). Para cada amostra foi

aplicado um antiparasitário (tratamentos). Em seguida os pesos dos animais foram analisados para cada tratamento. Teste se existe efeito de antiparasitário no peso dos animais, ou seja, teste a hipótese estatística,

jiparaH

H

ji

1

5210 ...

Os tratamentos (antiparasitários) e os pesos, em quilogramas, dos animais estão dados na tabela abaixo: Tratamentos

Neguvon Methiridim TH Haloxon Controle

330 315 298 286 279 314 304 289 273 240 331 307 273 269 266 311 320 240 278 269 320 305 121 274 250

(Média) ( jy )

(Variância)2

iS

(Desvio padrão) iS

Roteiro dos cálculos:

a)- Faça uma estimativa da 2 através de:

15

)(

,5

...

5

1

2

2222

5

2

2

2

12

ij

yyED

yy

ssendorssdeesss

s

Estatística Experimental

36

Calcule a estatística 2

2

D

E

s

sF e compare com o valor teórico da distribuição F a 5%, sendo SD

= variância dentro dos tratamentos e SE = variância entre os tratamentos. 4- Obter por meio das tabelas das distribuições F e t os valores de a)- )01,0,12,11()05,0,12,11()01,0,15,10()05,0,15,10()01,0,6,5()05,0,6,5( ;;;;; FFFFFF .

b)- ;;;;;; )20,0,18()10,0,10()05,0,16()025,0,15()01,0,7()05,0,7( tttttt

(faça os desenhos das distribuições com os respectivos valores). Finalmente, obtenha os mesmos valores e os mesmos gráficos no R

Estatística Experimental

37

Aula 3- Delineamento inteiramente casualizado (DIC) 1 Introdução

O DIC é mais simples dos delineamentos. Os tratamentos se distribuem ao acaso em todas as unidades experimentais e o número de repetições por tratamento pode ser igual ou diferente. O DIC é muito utilizado para estudos de métodos, técnicas de trabalhos em laboratório, ensaios de vegetação e em experimentos com animais. Para sua aplicação, há necessidade que o meio atue de forma uniforme em todas as unidades experimentais e que estas sejam facilmente identificadas para receber o tratamento.

Vamos começar com um exemplo:

Em um estudo do efeito da glicose na liberação de insulina, 12 espécies de tecido pancreático idênticas foram subdivididas em três grupos de 4 espécies cada uma. Três níveis (baixo - tratamento 1, médio tratamento - 2 e alto tratamento - 3) de concentrações de glicose foram aleatoriamente designados aos três grupos, e cada espécie dentro de cada grupo foi tratado com o nível de concentração de glicose sorteado a eles. A quantidade de insulina liberada pelos tecidos pancreáticos amostrados são as seguintes:

33

Tratamento Repetições 1 2 3 4

ri

Total

Média

Variância

T1 T2 T3

1,59 3,36 3,92

1,73 4,01 4,82

3,64 3,49 3,87

1,97 2,89 5,39

4 4 4

8,93 13,75 18,00

2,23 3,44 4,50

0,91 0,21 0,54

Total 12 40,68

Este é um estudo experimental com 12 unidades experimentais (amostras de tecido pancreático) e k=3 tratamentos. Cada tratamento é um nível de fator simples: concentração de glicose. Existem 4 repetições para cada tratamento. Os dados, quantidade de insulina liberada pelo tecido pancreático podem ser considerados como três amostras aleatórias, cada uma com r=4 repetições, ou de tamanho r=4 sorteadas de três populações.

Estatística Experimental

38

Dado que os tratamentos são designados às unidades experimentais completamente ao acaso, este delineamento é denominado de DELINEAMENTO INTEIRAMENTE AO ACASO (DIC). Em geral, em um DIC, um número fixo de k tratamentos são sorteados às N unidades experimentais de tal forma que o i-ésimo tratamento é sorteado a exatamente ri unidades experimentais. Assim, ri é o número de repetições do i-ésimo tratamento e

Nrrrr k ...321 . No caso em que ri são iguais, i.é., rrrrr k ...321 ,

então rkN e o delineamento é balanceado. Notação:

Repetições

Tratamento

1 2 3 ... j ... r Total Média

1 y11 y12 y13 ... ... ... y1r 1y

1y

2 y21 y22 y23 ... ... ... y2r 2y

2y

3 y31 y32 y33 ... ... ... y3r 2y 2y

.

.

. i . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

...

...

... yij . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. k yk1 yk2 yk3 ... ... ... ykr

ky ky

N=rk y y

Convenções:

ii yey representam, respectivamente, o total e a média do i-

ésimo tratamento, respectivamente,

yey representam, respectivamente, o total geral (soma de

todas as observações) e a média geral de todas as observações.

2 Quadro da Análise de Variância (ANOVA) O método da análise de variância pode ser visto como uma extensão do

teste t de student para amostras independentes. Como no teste t de amostras independentes, o método da ANOVA compara uma medida da magnitude da variabilidade observada dentro das k amostras com uma medida da variabilidade entre as médias das k amostras.

3 Modelo matemático do DIC com efeitos de tratamentos fixos

O modelo associado ao DIC com efeitos fixos é

ijiij ey ,

sendo,

ijy é a observação na unidade experimental que recebeu o i-ésimo

tratamento na j-ésima repetição;

é a média geral comum a todas as observações definida como

,1

N

rk

iii

com i a média populacional do i-ésimo tratamento;

Estatística Experimental

39

i o efeito do i-ésimo tratamento na variável dependente Y e mede

o afastamento da média i em relação a , isto é, ii ; e

i je é um erro casual não observável.

Pela definição de e i acima, temos que este modelo possui a

restrição

k

iii i

n1

,0 pois, 0)(111

ii

k

iii

k

iii

k

ii nnnn .

4 Suposições associadas ao modelo

As suposições usualmente associadas aos componentes do modelo do

DIC são que os i je são variáveis aleatórias independentes e identicamente

distribuídas com distribuição ),( 20N . Como os ijy são funções lineares dos

i je , das suposições sobre os erros decorre que:

iiijyE )( ;

;)( 2

ijyVar

ijy são normalmente distribuídos e independentes, ou,

resumidamente que ),(~ 2

iij Ny .

Portanto, estamos supondo que as observações do experimento a ser analisado correspondem a amostras aleatórias de k populações normais com a mesma variância e que podem ou não ter médias diferentes. A figura abaixo representa graficamente esse fato, considerando, no caso, três tratamentos.

1 2 3

Figura: Ilustrações das suposições do modelo matemático associado ao DIC com um fator fixo.

5 Hipóteses estatísticas A Hipótese geral é:

0H k210 ...: ,

ou seja, vamos testar a não existência de efeito do fator (tratamento).

6 Partição da soma de quadrados Voltemos ao quadro de representação das observações no DIC na

página 30 Podemos identificar os seguintes desvios:

1

2

3

Estatística Experimental

40

yy ij , como o desvio de uma observação em relação a média

amostral geral;

iij yy , como o desvio da observação em relação à média de seu

grupo ou do i-ésimo tratamento;

yy i , como o desvio da média do i-ésimo tratamento em

relação á média geral. Consideremos a identidade

)()()( yyyyyy iiijij ,

a qual diz que a “ a variação de uma observações em relação à média geral amostral é igual à soma variação desta observação em relação à média de seu grupo com a variação da média do i-ésimo tratamento em que se encontra esta observação em relação à média geral amostral “. Elevando-se ao quadrado os dois membros da identidade acima e somando em relação aos índices i e j, obtemos:

2

1

2

1 1 1 1

2 )()()(

yyryyyy i

k

i

i

k

i

r

j

k

i

r

j

iijij

i i

,

os duplos produtos são nulos. O termo

k

i

r

jij

i

yy1 1

2)( ,

é denominado de Soma de Quadrados Total e vamos denotá-lo por SQT.O número de graus de liberdade associado à SQT é kr - 1, ou N – 1, pois temos N observações e a restrição

k

1i

r

1j

ij

i

0yy )( .

A componente:

k

i

r

jiij

i

yy1 1

)( ,

é denominada de Soma de Quadrados Residual, representada por SQR, e é uma medida da homogeneidade interna dos tratamentos. Quanto mais próximas estiverem as observações dentro de cada grupo (tratamento), menor é a SQR. Notem que a magnitude da SQR não depende da diferença entre as médias dos tratamentos. Considerando apenas o i-ésimo tratamento, temos que

ir

jiij yy

1

2)(

possui ri – 1 graus de liberdade. Assim, o número de graus de liberdade associado à SQR é:

k

ii kNkkrr

1

)1( .

A componente 2

1

)(

yyr i

k

ii , mede a variabilidade entre as médias

dos tratamentos e por isso é denominada de Soma de Quadrados Entre Tratamentos, representada por SQTr. Quanto mais diferentes entre si forem

Estatística Experimental

41

as médias dos tratamentos, maior será a SQTr. Desde que temos k tratamentos e a restrição de que

0)(1

yyr i

k

ii ,

A SQTr possui k - 1 graus de liberdade. Com esta notação, podemos escrever que:

SQT = SQR + SQTr.

6 Quadrados médios Dividindo a SQR e SQTr pelos seus correspondentes graus de

liberdade, obtemos, respectivamente o Quadrado Médio Residual (QMR) e o Quadrado Médio Entre Tratamentos (QMTr), isto é,

1

k

SQTrQMTre

kN

SQRQMR

7 Estatística e região crítica do teste

A estatística para o teste é

QMR

QMTrFc ,

a qual, deve ser próximo de 1 se H0 for verdadeira, enquanto que valores grandes dessa estatística são uma indicação de que H0 é falsa. A teoria nos assegura que Fc tem, sob H0 distribuição F – Snedecor com (k -1) e (N – k) graus de liberdade. Resumidamente, indicamos:

0),1( ,~ HsobFF KNkc .

Rejeitamos H0 para o nível de significância se ,),,1( KNkc FF

sendo, ),,( KN1kF o quantil de ordem )( 1 da distribuição F-Snedecor com

(k -1) e (N – k) graus de liberdade. Graficamente temos:

8 Quadro da análise de variância (ANOVA)

Dispomos as expressões necessárias ao teste na Tabela abaixo denominada de Quadro de Análise de Variância (ANOVA).

Estatística Experimental

42

Fonte de variação g.l. SQ QM Fc

Tratamentos (Entre)

k - 1 N

Y

r

Yir

i i

i2

1

2 )(

1

k

SQTrQMTr

QMR

QMTr

Resíduo (dentro dos trat.)

N - k

k

i

r

j

k

i

iij

r

YY

1 1 1

22 )(

kN

SQRQMR

TOTAL

N - 1

k

i

r

jij

N

YY

1 1

22 )(

Pode-se provar que:

2)( QMRE , ou seja, QMR é um estimador não viesado da

variância 2 ;

k

ii

k

rQMTrE

1

2

)1()( , ou seja, QMTr é um estimador não

viesado da variância 2 se a hipótese 0...: 210 kH é

verdadeira.

9 Detalhes dos cálculos Apresentaremos alguns passos que facilitam os cálculos das somas de

quadrados da ANOVA.

Calcule a correção para a média N

yCM

2)( ;

Calcule a Soma de Quadrados dos Totais (SQT)

CMySQTk

i

r

jij

i

1 1

2 ;

Calcule a Soma de Quadrados Entre os Tratamentos (SQTr)

CMr

YSQTr

ir

i i

i

1

2

;

Calcule a Soma de Quadrados Residual (SQR) pela diferença, isto é, SQTrSQTSQR ;

Calcule os Quadrados Médios Entre os Tratamentos (QMTr) e o

Quadrado Médio Residual (QMR) kN

SQRQMRe

k

SQTrQMTr

1

Calcule Fc para tratamentos QMR

QMTrFc

Notem que estas fórmulas computacionais assumem que existe ri repetições para o i-ésimo tratamento; consequentemente, para um experimento balanceado com r repetições para cada tratamento, ri deve ser substituído por r. Estas várias soma de quadrados obtidas nestes cinco passos podem ser resumidas no quadro da ANOVA apresentado no item 8. 10 Exemplo 1

Vamos considerar os dados apresentados no item 1. Desejamos testar a hipótese nula

jiparummenospeloparaH

H

ji

:

:

1

3210

Estatística Experimental

43

Os cálculos para montarmos o quadro da ANOVA são: temos k = 3, r = 4, e N = 3 x 4 =12. Então

Graus de liberdade:

9312kNsiduo

2131kTrat111121NTotal

Re

.;

91,13712

)68,40( 2

CM

28,1518,13718,153)39,5(...)73,1()59,1( 222 CMSQT

30109113720148CM4

0018

4

7513

4

938SQTr

222

,,,),(),(),(

98430102815SQTrSQTSQR ,,,

5509

984QMRe155

2

3010QMTr ,

,,

,

319550

984

QMR

QMTrFc ,

,

,

O quadro da ANOVA para a variável insulina liberada é o seguinte:

Das tabelas das distribuições F, temos que

0228Fe2574F 0109205092 ,, ),,,(),,,( . O valor Fc=9,31 é maior do que estes

valores tabelados, então rejeitamos a hipótese nula H0 para %,, 1ou010

de probabilidade (se é significativo a 1%, logo também é significativo a 5%).

Podemos concluir que, para um nível de %,, 1ou010 , que a quantidade de

insulina liberada é diferente para pelo menos dois níveis de glicose. Script da resolução do exemplo 1 no R # # exemplo 1 da Aula 3 (DIC) pg 36 # # entrando com o número de repetições r <- 4

Fonte de var. g.l. SQ QM Fc

Tratamentos (Entre) 2 10,30 5,15 9,31

Resíduo (dentro dos tratamentos) 9 4,98 0,55

TOTAL 11 15,28

Estatística Experimental

44

# entrando com os dados insulina <- c(1.59, 1.73, 3.64, 1.97, 3.36, 4.01, 3.49, 2.89, 3.92, 4.82, 3.87, 5.39) # entrando com os níveis da insulina (Tratamentos) trat <- c(rep("Baixo", r), rep("Medio", r), rep("Alto", r)) m.geral<- mean(insulina) # calculando a média geral # estabelecendo o objeto trat com fator e guardando no próprio objeto trat trat <- factor(trat) trat # armazenando os nomes dos níveis dos fatores n.trat <- levels(trat) # aplicando o comando tapply ao objeto insulina para o cálculo dos # totais dos tratamentos t.trat <- tapply(insulina, trat, sum) t.trat # aplicando o comando tapply ao objeto insulina para o cálculo das # médias dos tratamentos m.trat <- tapply(insulina, trat, mean) m.trat # aplicando o comando tapply ao objeto insulina para o cálculo dos # desvio-padrões dos tratamentos sd.trat <- tapply(insulina, trat, sd) sd.trat # mostrando o s gráficos box plot para cada tratamento boxplot(insulina~trat, horizontal=T,xlab="Quantidade de insulina",col="blue") boxplot(insulina~trat, vertical=T,ylab="Quantidade de insulina",col="green") # fazendo a análise de variância insulina.av <- aov(insulina~trat) #imprimindo o quadro da anova summary(insulina.av)

Quadro da anova fornecido pelos comandos básicos do R

Df Sum Sq Mean Sq F value Pr(>F) trat 2 10.2967 5.1483 9.3054 0.006445 ** Residuals 9 4.9794 0.5533 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Estatística Experimental

45

Notem que os comandos do script acima não fornecem os resultados do da fonte de variação do Total e por outro lado fornecem uma coluna a mais referente a Pr(>Fr) com o valor de p (p-value) da estatística F.

Outra forma de obter o quadro da ANOVA é pela função crd( ) do pacote ExpDes. Pacotes (packages) ou bibliotecas (library) são os nomes mais usados para designar conjuntos de funções, exemplos, e documentações desenvolvidas para determinadas tarefas. Os comandos básicos do R, por exemplo, estão em uma biblioteca chamada base. Existem inúmeras bibliotecas, algumas já inclusas na instalação do R. No R podem-se encontrar pacotes desenvolvidos pelos responsáveis pelo R ou implementados por usuários.

# instalando o pacote ExpDes (Experimental Designs) # install.packages("ExpDes") # requerendo o ExpDes require(ExpDes) # sintaxe do comando que faz a ANOVA no ExpDes # crd(treat, resp, quali = TRUE, mcomp = "tukey", sigT = 0.05, sigF = 0.05) crd(trat,insulina,mcomp=F) Resultados da anova pelo comando da pacote ExpDes ------------------------------------------------------------------------ Analysis of Variance Table ------------------------------------------------------------------------ DF SS MS Fc Pr>Fc Treatament 2 10.2967 5.1483 9.3054 0.0064452 Residuals 9 4.9794 0.5533 Total 11 15.2760 ------------------------------------------------------------------------ CV = 21.94 % Podemos chegar a mesma conclusão anteriormente, simplesmente analisando o valor de p (Pr>Fc, (p=0,006445)), o qual é bem menor que 0,01. Assim, sem recorrer à tabela F, concluímos que o teste F é significativo pelo valor de p (p=0,006445) fornecido pela função crd() do ExpDes, rejeitamos H0 e concluímos que a quantidade de insulina liberada é diferente para pelo menos dois níveis de glicose.

O R, por meio do comando aov( ) armazena os valores da tabela da anova acima na forma matricial (2 x 5), ou seja, para obtermos, por exemplo, o valor da soma de quadrados dos tratamentos (SQTr), definimos o seguinte objeto

sqtr <- anova(insulina.av)[1,2]. A soma de quadrados do resíduo é obtida definindo o objeto sqr <- anova(insulina.av)[2,2]. Reparem que insulina.av é o objeto que recebeu os resultados do

quadro da análise de variância no script R listado anteriormente. O esquema das posições de armazenamento dos resultados do quadro

da anova do DIC no R é

Estatística Experimental

46

Df Sum Sq Mean Sq F value Pr(>F) trat [1,1] [1,2] [1,3] [1,4] [1,5] Residuals [2,1] [2,2] [2,3]

Para obter o valor do quadrado médio de resíduo basta digitar e

executar o comando anova(insulina.av)[2,3] Uma forma de se obter ajuda de alguma função no R é por meio da

execução do comando ??nome da função(). Por exemplo, para se obter uma ajuda da sintaxe da função mean deve-se executar o comando ??mean(). Informações sobre o pacote ExpDes(), basta executar o comando ??ExpDes(), e clicar nos passos indicados abaixo ExpDes::ExpDes-package/ Index/ Documentation for package ‘ExpDes’ version 1.1.2/ExpDes-package/ crd Onde aparecerá a explicação crd(treat,resp,quali=TRUE,mcomp="tukey",sigT=0.05,sigF=0.05) sendo:

treat Vetor numeric contendo os tratamentos;

resp Vetor numeric contendo a variável resposta;

quali Logico. Se TRUE (default), os tratamentos são assumidos qualitativos, se FALSE, quantitativos;

mcomp Permite a escolha do teste de comparação múltiplo; o “default”é o teste de Tukey, entretanto, as optções são: o teste LSD ('lsd'), o teste LSD com a proteção de Bonferroni ('lsdb'), o teste de Duncan ('duncan'), o teste de Student-Newman-Keuls ('snk'), o teste de Scott-Knott ('sk') e o teste de comparação múltipla bootstrap ('ccboot');

sigT A significância a ser usada para o teste de comparação múltipla; o “default” é 5%;

sigF A significância a ser usada no teste F da ANOVA; o “default” é 5%,

os argumentos desta função.

11 Exemplo 2 Em um experimento em que se mediu o peso corporal (kg), 19 porcos

foram distribuídos aleatoriamente a 4 grupos. Cada grupo foi alimentado com dietas diferentes. Deseja-se testar se oos pesos dos porcos são os mesmos para as 4 dietas.

Desejamos testar a hipótese nula

jiparummenospeloparaH

H

ji1

43210

:

:

As observações obtidas foram: Tratamento Repetições

1 2 3 4 5

Dieta 1 60,8 57,7 65,0 58,6 61,7

Dieta 2 68,7 67,7 74,0 66,3 69,8

Dieta 3 102,6 102,1 100,2 96,5 *

Dieta 4 87,9 84,2 83,1 85,7 90,3

Estatística Experimental

47

Temos um experimento desbalanceado com número de repetições desigual para os tratamentos. Então, os cálculos para montarmos o quadro da ANOVA são:

Graus de liberdade:

15419kNs

3141kTrat181191NTotal

Re

.;

4411573619

91482CM

2

,),(

754325

4411573619120062CM390860SQT 22

,

,,),(...),(

0742024411573652119938

CM5

2431

4

4401

5

5346

5

8303SQTr

2222

,,,

),(),(),(),(

67123074202754325SQTrSQTSQR .,,

24,815

67,12369,1400

3

07,4202 QMReQMTr

89169248

691400

QmR

QMTrFc ,

,

,

O quadro da ANOVA para a variável peso (kg) é o seguinte:

Fonte de var. g.l. SQ QM Fc

Tratamentos 3 4202,07 1400,69 169,89

Resíduo 15 123,67 8,24

TOTAL 18 4325,75

Script no R para resolver o exemplo 2 Atenção, antes de rodar este script é necessário remover todos os objetos definidos no script do exemplo 1 com o comando rm(list=ls(all=TRUE)), ou pelo atalho na aba do menu da janela da console clicar em Misc/Remover todos os objetos # exemplo 2 da Aula 3 (DIC) pg 46 # entrando com os dados de peso corporal pc <- c( 60.8, 57.7, 65.0, 58.6, 61.7, 68.7, 67.7 , 74.0, 66.3, 69.8, 102.6, 102.1, 100.2, 96.5, 81.9, 84.2, 83.1, 85.7, 90.3) # entrando com os níveis dos tratamentos trat <- c(rep("Dieta1", 5), rep("Dieta2", 5), rep("Dieta3", 4), rep( "Dieta4",5)) # estabelecendo o objeto trat como fator e guardando no próprio objeto trat trat <- factor(trat) trat # imprimindo os niveis do fator trat

Estatística Experimental

48

n.trat<-levels(trat) n.trat # calcula a soma da cada tratamento e guarda em um objeto t.trat t.trat <- tapply(pc, trat, sum) t.trat # calcula a média da cada tratamento e guarda em um objeto m.trat m.trat <- tapply(pc, trat, mean) m.trat # calcula o desvio padrão de cada tratamento e guarda em um objeto sd.trat sd.trat <- tapply(pc, trat, sd) sd.trat # mostrando os gráficos box plot para cada nivel de glicose na horizontal boxplot(pc~trat, horizontal=T,xlab="Peso corporal (Kg)",col="blue") # mostrando os gráficos box plot para cada nivel de glicose na vertical # boxplot(pc~trat, vertical=T,ylab="Peso corporal (Kg)",col="green") # fazendo a análise de variância pela função aov( ) pc.av <- aov(pc~trat) summary(pc.av) # imprimindo o quadro da anova

Quadro da anova fornecido pelos comandos básicos do R

Df Sum Sq Mean Sq F value Pr(>F) trat 3 4202 1400.7 169.9 8.45e-12 *** Residuals 15 124 8.2 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

O símbolo *** na frente do valor de p (p=8.45e-12) é o código de

significância fornecido pelo R. No caso indica que o teste é significativo para um valor de muito pequeno em torno de 0,01%.

Obtendo o quadro da ANOVA pela função crd( ) do pacote ExpDes Atenção! Dado que o pacote ExpDes já foi instalado em seu computador, não há necessidade de se instalá-lo novamente, basta requerê-lo pelos comandos require(nome do pacote ) ou library(nome do pacote ).

# requrendo o pacote ExpDes require(ExpDes) # comando que faz a ANOVA no ExpDes # crd( ) – (completely random design) crd(trat,pc,mcomp=F)

Quadro da anova fornecido pela função crd( ) do pacote ExpDes

Estatística Experimental

49

------------------------------------------------------------------------------- Analysis of Variance Table ------------------------------------------------------------------------------- DF SS MS Fc Pr>Fc Treatament 3 4202.1 1400.69 169.88 8.4501e-12 Residuals 15 123.7 8.24 Total 18 4325.7 -------------------------------------------------------------------------------- CV = 3.68 %

A forma tradicional de interpretar o resultado do teste F da anova é

consultar as tabelas das distribuições F. Desta consulta, temos que

4175Fe2873F 010153050153 ,, ),,,(),,,( . O valor da estatística Fc=169,89 é bem

superior que estes valores tabelados, assim, o valor desta estatística fornecida pelos dados esta na região de rejeição de H0 , logo rejeitamos a hipótese nula H0 a um nível %,, 1ou010 de probabilidade (se é significativo a 1%, logo

também é significativo a 5%). Atenção! Pode-se chegar a esta mesma conclusão analisando somente

pelo valor de p associado à estatística F calculada, o qual é apresentado na forma exponecial p=8,45 e-12 ou p=8,45 x 10-12, bem menor que 0,001, portanto significativo a 0,1%.

Graficamente a regra de decisão fica

Evidentemente que o valor 189,88 esta bem a direita do valor crítico 5,417, assim podemos concluir que, para um nível de

%,,, 010ou0010 , que os pesos dos porcos são diferentes para pelo

menos duas dietas. 12 Estimadores de mínimos quadrados.

Nesta seção mostraremos os estimadores dos termos do modelo matemático do DIC ijiij ey , os quais são obtidos minimizando-se a

expressão do erro deste modelo

k

i

r

jijij

i

yy1 1

2)ˆ( ,

Estatística Experimental

50

em relação a ie , i=1, 2, ...k, sujeito a restrição

k

iiir

1

0 . Assim

procedendo, obtemos os estimadores de ii e , , dados por

yyy ii ˆ,ˆ e de kiy iii ...,,2,1,ˆˆˆ .

Para construir um intervalo de confiança para a média de cada tratamento, devemos notar que a estatística:

)(~ kn

i

ii t

r

QMR

y

,

i.é., tem distribuição t – Student com (n – k) graus de liberdade. Um intervalo de

confiança para i com um coeficiente de confiança )( 1 é dado pela

expressão

r

sQMtyIC

kNii

Re)1;(

);2

( ,

sendo, ),( kN

2

t

o quantil de ordem )(

21

da distribuição t – Student com (n –

k) graus de liberdade, os mesmos graus de liberdade do resíduo da ANOVA. Como exemplo, vamos considerar os dados do experimento

apresentado no item 1, cujos cálculos foram mostrados no item 10. As médias destes dados são:

39,3

50,44

00,18y ;44,3

4

75,13y ; 23,2

4

8,93321

y

ey;

do quadro da ANOVA temos os valores de SQR para calcular

372,04

553,0

r

QMR;

o valor de 262,2)9,025,0( t .

Assim, os intervalos são dados por:

841,04

553,0262,2%)95;( iii yyIC

Resumindo temos o quadro a seguir Nível baixo

de glicose Nível médio de glicose

Nível alto de glicose

iy 2,23 3,44 4,50

%),( 95IC i (1,389; 3,071) (2,599; 4,281) (3,659; 5,341)

Problema: identificar quais os níveis de glicose (tratamentos) que

tiveram efeitos não nulos sobre a liberação de insulina dos tecidos. Script no R para o calculo dos intervalos de confiança do exemplo 1.

Atenção! É necessário executar novamente o script das páginas 39 e 40. # definindo os objetos para o cálculo dos IC´s # obtenção dos gl do residuo no quadro da anova glr <- anova(insulina.av)[2,1] glr

Estatística Experimental

51

# obtenção da QMR no quadro da anova qmr <- anova(insulina.av)[2,3] qmr # intervalo de confiança para o nível baixo de glicose ic.baixo <- m.trat[1] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r) ic.baixo # intervalo de confiança para o nível médio de glicose ic.medio <- m.trat[2] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r) ic.medio # intervalo de confiança para o nível baixo de glicose ic.alto <- m.trat[3] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r) ic.alto

Como segundo exemplo, vamos considerar os dados do experimento

apresentado no item 11. As médias destes dados são:

13,7924,865

2,431y

;35,1004

4,401y ;30,69

5

50,346y ; 76,60

5

303,8

4

321

yégeralmédiaaee

y

do quadro da ANOVA temos o valor do QMR para calcular desvio padrão médio para os tratamentos 1, 2 e 4 é

31,15

557,8

ir

QMR. Para o terceiro tratamento o erro padrão

médio é 46,14

557,8

ir

QMR

o valor de 13142t 150250 ,);,( .

Assim, os intervalos são dados por:

3,46,14

557,81314,2%)95;(

4,2,1,31,15

557,81314,2%)95;(

iparayyICe

eiparayyIC

iii

iii

Resumindo temos o quadro abaixo Dieta 1 Dieta 2 Dieta 3 Dieta 4

iy 60,76 69,30 100,35 86,24

%),( 95IC i (58,02; 63,48) (66,56; 72,04) (97,29; 103,41) (83,50; 88,98)

Problema: identificar quais as Dietas (tratamentos) que tiveram efeitos não nulos sobre o peso dos suínos.

Script no R para calcular os IC´s do exemplo 2. Antes porém execute

novamente o script do R descritos na página 40 e 42. # definindo os objetos para o cálculo dos IC´s

Estatística Experimental

52

# definindo o vetor de repetições dos tratamentos r<- c(5,5,4,5) # obtenção dos gl do residuo no quadro da anova glr <- anova(pc.av)[2,1] glr # obtenção da QMR no quadro da anova qmr <- anova(pc.av)[2,3] qmr # intervalo de confiança para a Dieta1 ic.dieta1 <- m.trat[1] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r[1]) ic.dieta1 # intervalo de confiança para a Dieta2 ic.dieta2 <- m.trat[2] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r[2]) ic.dieta2 # intervalo de confiança para a Dieta3 ic.dieta3 <- m.trat[3] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r[3]) ic.dieta3 # intervalo de confiança para a Dieta4 ic.dieta4 <- m.trat[4] + qt(c(0.025, 0.975), df = glr) * sqrt(qmr/r[4]) ic.dieta4 13 Coeficientes de determinação (R2) e de variação (CV)

A parte da Soma de Quadrados Total (SQT), a variação total nas observações , que pode ser explicada pelo modelo matemático do DIC, é denominada de coeficiente de determinação. Assim, o coeficiente de

determinação para modelo do DIC, ijiij ey , é definido como

%1002 xSQT

SQTrR .

Pode ser verificado que 1000 2 R e que %1002 R quando toda

variabilidade nas observações esta sendo explicada pelo modelo matemático do DIC.

A variabilidade entre as unidades experimentais de experimentos envolvendo diferentes unidades de medidas e/ou tamanhos de parcelas pode ser comparada pelos coeficientes de variação, os quais expressam o desvio padrão por unidade experimental como uma porcentagem da média geral do experimento, ou seja,

%100xy

SCV

.

Da ANOVA sabemos que QMRS , daí resulta que

100*

y

QMRCV .

Estatística Experimental

53

Como exemplo vamos considerar os dados do experimento apresentado no item 1, cujos cálculos foram mostrados no item 10. Neste exemplo temos:

%4,67100

28,15

30,10

,30,1028,15

2

xSQT

SQTrR

entãoSQTreSQT

%88,21100*39,3

55,0100*

y

QMRCV

Concluímos que 67,4% da variabilidade que existe nas observações deste experimento em torno de seu valor médio é explicada pelo modelo matemático do DIC e este experimento apresenta um coeficiente de variação de aproximadamente 22%.

Script no R para calcular os coeficientes de determinação (R2 ) e de variação (CV) # calculo do CV cv <- sqrt(qmr)/mean(pc)*100 cv sqtr <- anova(pc.av)[1,2] # obtenção da SQTr da anova sqtr sqr <- anova(pc.av)[2,2] # obtenção da SQR da anova sqr # cálculo do R2 r2 <- sqtr/(sqtr+sqr)*100 r2 14 Checando as violações das suposições de normalidade dos dados e da homogeneidade das variâncias dos tratamentos Anova

De um modo geral, o teste F da ANOVA não é muito sensível às violações da suposição de distribuição normal. Ele também é moderadamente insensível às violações de variâncias iguais, se os tamanhos das amostras são iguais e não muito pequenas em cada tratamento. Entretanto, variâncias desiguais podem ter um efeito marcante no nível do teste, especialmente se amostras pequenas estão associadas com tratamentos que têm as maiores variâncias. Existe uma série de procedimentos para se testar se as suposições da ANOVA são violadas. Entre estes temos o teste de Anderson-Darling, teste de Shapiro-Wilks e teste de Kolmogorov-Smirnov, que testam a normalidade da população. A igualdade das variâncias (homocedasticidade) pode ser testada pelo teste de Bartlett. Com o advento dos modernos computadores, métodos gráficos são ferramentas muito populares para a visualização das violações das suposições teóricas da ANOVA. Alguns destes métodos gráficos mais comumente usados para checar as suposições da ANOVA são baseados em gráficos dos resíduos.

Resíduos. O resíduo correspondente a uma observação ijy é definido

como:

iijiijijijij yyyyye ˆˆˆ ,

ou seja, o resíduo corresponde á parte da observação que não foi explicada pelo modelo. Calculando os resíduos correspondentes a todas as observações de um experimento e analisando-os descritivamente de forma apropriada,

Estatística Experimental

54

podemos ter alguma indicação, graficamente, se as suposições da ANOVA estão sendo satisfeitas.

Gráfico dos resíduos para testar a normalidade. Técnicas gráficas para checar se uma amostra de resíduos é provenientes de uma população normal incluem os gráficos do Histograma, do Box – Plot, etc. Outra importante técnica é o gráfico q-q normal (quantile-quantile normal plot). O gráfico q-q normal, é um gráfico entre os resíduos e um conjunto de percentis devidamente escolhidos da normal padronizada. Sob a hipótese de normalidade este gráfico q-q normal deve se aproximar de uma reta. Se o gráfico é sigmóide é uma indicação de que a população tem as caudas pesadas ou leves. A assimetria é indicada por gráficos côncavos (assimetria a esquerda) e convexos (assimetria a direita).

O primeiro passo na construção de um gráfico q-q normal é o cálculo de

,1

º

N

eresíduosdenp ij

ij a qual é denominada de probabilidade empírica

acumulada, e está associada a todo i je , de tal forma que 1

N

edepostop

ij

ij .

Como exemplo, a probabilidade empírica acumulada associada ao resíduo, cujo posto é o sexto (seu rank=6) em um conjunto de N=10 resíduos é p=6/11 = 0.545. O gráfico q-q normal de um conjunto de resíduos é obtido com o

gráfico dos resíduos i je vs ,)1( ijij pzq sendo que: z é o valor critico de

nível de uma distribuição normal padronizada

Vamos considerar os dados apresentados no item 1 e construir um gráfico q-q normal para ver se a suposição de normalidade parece razoável para a quantidade de insulina liberada do exemplo 1.

O Quadro abaixo apresenta os dados, o valor estimado pelo modelo, os resíduos e os percentis associados:

i j Yij Yest eij R(eij) Pij Qij

1 1 1.59 2.23 -0.64 1 0.077 -1.426 1 2 1.73 2.23 -0.50 5 0.385 -0.293 1 3 3.64 2.23 1.41 12 0.923 1.426 1 4 1.97 2.23 -0.26 6 0.462 -0.097 2 1 3.36 3.44 -0.08 7 0.538 0.097 2 2 4.01 3.44 0.57 10 0.769 0.736 2 3 3.49 3.44 0.05 8 0.615 0.293 2 4 2.89 3.44 -0.55 4 0.308 -0.502 3 1 3.92 4.50 -0.58 3 0.231 -0.736 3 2 4.82 4.50 0.32 9 0.692 0.502 3 3 3.87 4.50 -0.63 2 0.154 -1.020 3 4 5.39 4.50 0.89 11 0.846 1.020

e o gráfico q-q normal ( )ijij qxe fica sendo:

Estatística Experimental

55

e os gráficos do Histograma e do Box – Plot dos resíduos ficam:

Pelo gráfico qq normal, pelo histograma e pelo Box-Plot é razoável

supor a normalidade para os dados de liberação de insulina. O script do R que fornece os resultados acima são:

# extraindo os resíduos do objeto pc.av residuo <-insulina.av$res resíduo # fazendo o gráfico q-q plot qqnorm(residuo, ylab ="Resíduos",main="Gráfico normal de probabilidade") qqline(residuo,lwd=2) # dividindo a tela gráfica em 2 colunas e uma linha par(mfrow=c(1,2)) # histograma dos resíduos hist(residuo, main="Histograma dos Resíduos",lwd=2,col="green") # gráfico boxplot dos resíduos boxplot(residuo, horizontal=T,main="Boxplot dos resíduos", col="blue",lwd=2)

Estes recursos gráficos não são quantitativos, é necessário um teste. O script no R que fornece o teste de normalidade de Shapiro-Wilks , o qual testa as hipóteses:

Estatística Experimental

56

normaldistruiçãotemnãoamostradapopulaçãoaH

normaldistruiçãotemamostradapopulaçãoaH

1

0

:

:

),0(:

),0(~:

2

1

2

0

NtemnãoeH

NeH

ou

ij

ij

é dado a seguir # teste de normalidade de Shapiro-Wilks dos dados do exemplo 1 shapiro.test(residuo) Cujos resultados são: Shapiro-Wilk normality test data: res W = 0.8796, p-value = 0.08657.

No resultado fornecido pelo R e pelo valor de p (p=0,08657) associado a

estatística W=0,8796 do teste de Shapiro-Wilks, não rejeitamos 0H , logo é

razoável supor a normalidade para os dados de liberação de insulina. O teste de Bartlett testa as hipóteses

jiH

H

2

j

2

i1

2

3

2

2

2

10

:

:,

ou seja, a homogeneidade das variâncias dos tratamentos. O script no R que fornece este teste é

# teste de homogeneidade das variâncias dos tratamentos dos dados do #exemplo 1 (Teste de Bartlett) # teste de Bartlett para a homogeneidade das variâncias bartlett.test(insulina ~ trat) com a seguinte saída Bartlett test of homogeneity of variances data: insulina by trat Bartlett's K-squared = 1.27, df = 2, p-value = 0.5299

Pelos resultados destes testes não rejeitamos 0H , o nível mínimo de

significância do teste é p=0,5299 (p>0,05). O teste é não significativo. Concluímos, então, que a homogeneidade das variâncias é uma suposição plausível para os dados da liberação da insulina. Assim é razoável supor que este conjunto de dados suporta as suposições básicas de normalidade e homogeneidade da variância para a correta aplicação da ANOVA.

Estatística Experimental

57

14 Vantagens e desvantagens do DIC As principais vantagens do DIC são:

é fácil de ser planejado e é flexível quanto ao número de tratamento e de repetições tendo como única limitação o número de unidades experimentais disponíveis para o experimento;

o número de repetições pode variar de tratamento para tratamento, embora o desejável é ter o mesmo número de unidades experimentais em todos os tratamentos;

o DIC proporciona o número máximo de graus de liberdade para o resíduo;

a análise estatística é simples mesmo que se perca algumas unidades experimentais.

Algumas desvantagens são:

é mais apropriado para um pequeno número de tratamentos e para um material experimental homogêneo;

todas as fontes de variação não associadas aos tratamentos farão parte do resíduo, podendo comprometer a precisão das análises;

super-estima a variância residual.

15 Resumo

O DIC é mais útil onde não existe nenhuma fonte de variação identificável entre as unidades experimentais, exceto às dos efeitos dos tratamentos. É o mais flexível com respeito ao arranjo físico das unidades experimentais. Ele maximiza os graus de liberdade para a estimação da variância por unidade experimental (erro experimental ou erro residual) e minimiza o valor da estatística F requerida para a significância estatística.

Estatística Experimental

58

3º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL

1- Para avaliar o efeito de altos níveis de cobre na alimentação de pintinhos, seis pintinhos foram alimentados com uma dieta basal padrão às quais foram adicionadas três níveis de cobre (0, 400, e 800 ppm). Os dados abaixo mostram a razão da eficiência da dieta (g dieta/ g ganho de peso) ao final de 3 semanas Use o R para apresentar os resultados.

Tratamentos (nível de cobre)

Pintinhos

1 2 3 4 5 6

0 1,57 1,54 1,65 1,57 1,59 1,58 400 1,91 1,71 1,55 1,67 1,64 1,67 800 1,88 1,62 1,75 1,97 1,78 2,20

(extraído de Statistical Research Methods in the Life Science, P. V. Rao, pg. 287).

(a) Calcular os totais dos tratamentos yi+ , i=1,2,3, as médias dos tratamentos

iy , os desvios padrões dos tratamentos is , i=1,2,3, o total geral y++, e a média

geral y .

(b) Estabelecer as hipóteses estatísticas H0 e H1 e as suposições básicas para se testar estas hipóteses. (c) Monte o quadro da anova

Estatística Experimental

59

(d) Com base nos resultados do teste F da anova faça as conclusões pertinentes sobre as hipóteses do item (b). (e) Calcular os intervalos de confiança das médias dos tratamentos IC(µi ; 95%). Apresente os resultados. (Siga o modelo tabela pg 42 da apostila). (f) Calcular os coeficientes: de determinação R

2 e o de variação do experimento

(CV). Comente os resultados.

Estatística Experimental

60

(g) Verifique as suposições básicas da ANOVA. Apresente e comente os resultados. 2- Num experimento inteiramente casualizado com 5 tratamentos e 4 repetições, estudou-se o efeito de 5 carrapaticidas (tratamentos) no controle de carrapatos em bovinos. Analisando- se o número de carrapatos que cairam por animal, obtiveram-se as seguintes somas de quadrados: S.Q. Tratamentos = 41,08 S.Q. Total = 57,46 Estabelecer as hipóteses estatísticas H0 e H1, montar o quadro de análise de variância, concluir e calcular o coeficiente de determinação R

2

3- Cite as vantagens e as desvantagens do delineamento inteiramente casualizado. 4- Escreva o modelo matemático do delineamento inteiramente casualizado para os dados apresentados na 2ª questão. 5- Descreva os procedimentos de um experimento cego, e dos experimentos duplamente cego. 6- Quando um experimento será considerado planejado (Descreva as etapas). 7- Quais os princípios básicos da experimentação.

Estatística Experimental

61

Aula 4 Teste de comparações múltiplas 1 Introdução

Os testes de comparações múltiplas também conhecidos como testes de comparações de médias servem como um complemento ao teste F da análise de variância quando este é significativo e são usados para detectar diferença entre médias. Considere o exemplo a seguir

Exemplo 1. Em um experimento de alimentação de porcos, foram

utilizados quatro rações (A, B, C e D), cada uma fornecida a 5 animais. Os ganhos de peso, kg, foram:

Rações

A B C D

35 40 39 27

19 35 27 12

31 46 20 13

15 41 29 28

30 33 45 30

Calculando-se as somas de quadrados podemos construir o seguinte quadro de análise de variância:

F.V. g.l. S.Q. QM Fc

Rações 3 823,75 274,58 3,99

Resíduo 16 1100,00 68,75

Total 19 1923,75

Das tabelas das distribuições F, temos que

295Fe243F 010163050163 ,, ),,,(),,,( . O valor Fc=3,99 é maior que

o valor do F tabelado a 5%, então, rejeitamos a hipótese nula H0 a%5 de probabilidade.

Dúvida: Qual é a ração que tem o melhor desempenho no ganho de peso?

Para responder a questão, conheceremos alguns PROCEDIMENTOS DE COMPARAÇÕES DE MÚLTIPLAS ou MÉTODOS DE COMPARAÇÕES DE MÉDIAS, como por exemplo, os testes t-Student , Scheffé, Tukey, Duncan, Dunnett e Bonferroni, dentre outros.

2 Definições básicas Consideremos um experimento com k tratamentos, cujas médias

populacionais são K ...,,, 21 e seus estimadores kyyy ...,,, 21 foram obtidas

de amostras de tamanhos r1, r2, ..., rK. Definição 1 Um contraste de médias é qualquer função do tipo

kkcccY ...2211 ,

com

k

iki cccc

1

21 0... e i , é a média do tratamento i = 1, 2, ..., k

Estatística Experimental

62

Definição 2 Dizemos que dois contrastes são ortogonais se

k

i i

ii

r

ba

1

0

. Quando o experimento é balanceado (ri = r) a condição de ortogonalidade é

que a soma dos produtos de seus coeficientes é nula, i.é.,

k

iii ba

1

0 .

Quando um experimento envolve k tratamentos, podemos definir diversas comparações entre as k médias, mas somente (k – 1) são ortogonais;

Nos contrastes envolvendo duas médias podemos definir 2

)1( kk

contrastes possíveis, os quais não são ortogonais.

Supondo que os tratamentos têm variância constante 2 e que uma

estimativa não viesada desta variância é o QMR da ANOVA, tem-se que:

kn xcxcxcxcY 332211ˆ é um estimador não viesado do

contraste kkcccY ...2211 ;

i

n

ii

i

nr

cr

cccYV2

1

22

22

2

2

1 )()ˆ(

e um estimador não

viesado é dado por i

n

ii

i

nr

QMRc

r

QMRcccYV

1

222

2

2

1 )()ˆ( ,

se o experimento é balanceado r1= r2 = ...= rK =r, as expressões acima ficam, respectivamente,

rc

rcccYV

n

iin

2

1

22

22

2

2

1 )()ˆ(

e

r

QMRc

r

QMRcccYV

n

iin

1

222

2

2

1 )()ˆ(

Exemplo 1. Em um experimento dois antibióticos em duas dosagens cada um para a cura da mastite em bovinos. A variável resposta é tempo de cura em dias

Tratamento Descrição

T1 Dose baixa da droga A

T2 Dose alta da droga A

T3 Dose baixa da droga B

T4 Dose alta da droga B

Podemos definir os seguintes contrastes:

43211 Y : compara as doses da droga A com as doses

da droga B;

212 Y : compara as doses da droga A;

433 Y : compara as doses da droga B.

A afirmação de que o contraste Y1 é nulo (Y1 = 0) é o mesmo que afirmar

que: 22

,, 43214321

queou , ou ainda, que a média dos

tratamentos 1 e 2 é igual à média dos tratamentos 3 e 4.

Estatística Experimental

63

Para verificarmos se estes contrastes são ortogonais é aconselhável uma tabela com os coeficientes dos (k – 1) contrastes e a partir daí, verificar que a soma dos produtos dos coeficientes, aos pares, é nula.

Contraste

1 2 3 4

1Y +1 +1 -1 -1

2Y +1 -1 0 0

3Y 0 0 +1 -1

Portanto estes contrastes são ortogonais 2 a dois e ortogonais entre si.

3 Teste t - student O teste t – student pode ser utilizado para comparar médias de tratamentos. Os requisitos básicos para sua utilização são:

as comparações devem ser determinadas a priori, ou seja, antes de serem examinados os dados.

não existe limite para o número de contrastes envolvendo as médias de tratamentos, porém, o número de contrastes ortogonais é, no máximo, igual ao número de graus de liberdade dos tratamentos.

A ortogonalidade entre os contrastes de médias garante independência entre as conclusões.

O objetivo é testar a hipótese

0:

0:

1

0

i

i

YH

YH,

Usamos a estatística ),(

1

2

)ˆ(

ˆresglk

ii

ii t

cr

QMR

Y

YV

Yt

, a qual sob H0

verdadeira tem distribuição t-student com o mesmo número de graus de liberdade do resíduo, no DIC é ( n-k ). Para um valor fixado de nível de significância , devemos buscar o valor de t tabelado (arquivo Tab_tstudent,

disponibilizado na página ou nos livros indicados na bibliografia) e compará-lo com o valor da estatística tc , calculada para o contraste Yi e aplicar a regra de decisão:

Se Tabeladoc tt rejeitamos H0 para um determinado valor de ,

geralmente 5% ou 1%, caso contrário ( Tabeladoc tt ), não rejeitamos

H0. (veja o esquema gráfico desta regra de decisão apresentado no item 6

da 2ª Aula).

Exemplo 2: Num experimento inteiramente casualizado com 4 tratamentos e 4 repetições, estudaram-se os efeitos de Bacitracina de zinco(BDZ) e Anti-stress sobre frangos de corte alimentados com rações à base de sorgo, desde a fase inicial até a final. A resposta medida foi conversão alimentar. Foram utilizados os seguintes tratamentos:

Tratamento Descrição Média(kg)

1 Concentrado Comercial + Milho 2,03

2 Concentrado Comercial + Sorgo 2,24

Estatística Experimental

64

3 Concentrado Comercial + Sorgo + BDZ 2,04

4 Concentrado Comercial + Sorgo + Anti-stress 2,22

Sabendo-se que da ANOVA o valor do 00443750QMR , , com 12

graus de liberdade. Pode - se estabelecer os contrastes de médias dos tratamentos para cada componente do desdobramento:

Milho vs. sorgos, o qual é expresso pela combinação linear

4321143211 yyyy3Yporestimado3Y ˆ, ;

Sorgo vs. Sorgo + Aditivos, o qual é expresso pela combinação

linear 43224322 yyy2Yporestimado2Y ˆ, ;

Bacitracina vs. Anti-stress, o qual é expresso por

433433 yyYporetimadoY , ;

A verificação se os contrastes são ortogonais pode ser feita facilmente no quadro abaixo:

Contraste

1 2 3 4

IY

4

1I

2

ic ct

1Y +3 -1 -1 -1 -0,41 12 -3,55 (p=0,00198)

2Y 0 +2 -1 -1 0,22 6 2,70 (p=0,0097)

3Y 0 0 +1 -1 -0,18 2 -3,82 (p=0,0012)

p< 0,01 significativo a 1% e a 5%; p< 0,05 significativo a 5% e p> 0,05 não-significativo a 5%.

O objetivo é testar a hipótese 0:

0:

1

0

i

i

YH

YH, para i = 1,2,3.

Assim, para o contraste 1Y , temos que:

0:

0:

11

10

YH

YH

0133,012

4

0044375,0)ˆ(

41,0)22,2()04,2()24,2()03,2(3ˆ

4

1

2

1

1

i

icr

QMRYV

eY

55,30133,0

41,0ˆ

4

1

2

1

i

i

c

cr

QMR

Yt

179,2)025,0,12( t . Como Tabc tt , então rejeitamos H0

(0,005<p<0,001). (Repetir estes passos para os contrastes Y2 e Y3 ). Script do R para o cálculo dos resultados apresentados acima

# como não foram fornecidos os dados deste exemplo # é necessário fornecer os valores # definindo o número de repetições r <- 4 # definindo os graus de liberdade do resíduo glr <- 12 # quadrado médio do resíduo

Estatística Experimental

65

qmr <- 0.0044375 # definindo as médias dos tratamentos m.trat <- c( 2.03, 2.24, 2.04, 2.22) # definindo os coeficientes do contraste c <- c( 3, -1,-1,-1) #calculo da variância do contraste var.c<- qmr/r*sum(c1^2) # cálculo da estatística tc da estatística t-student tc <- sum(c*m.trat)/sqrt(qmr/r*sum(c^2)) tc # cálculo do valor de p associado à estatistica t calculada anteriormente valor.p<- 1-pt(abs(tc),glr) valor.p

(repita este procedimento adaptando-o aos demais contrastes) Com base nos resultados dos testes de hipóteses, concluímos que:

os animais tratados com o concentrado comercial + milho têm uma conversão alimentar melhor do que os animais tratados com concentrado comercial + sorgo;

os animais tratados com o concentrado comercial + sorgo+aditivos têm uma conversão alimentar melhor do que os animais tratados com concentrado comercial + sorgo, ou seja, os aditivos BDZ e anti-stress quando adicionados ao concentrado comercial não melhoram a conversão alimentar;

os animais tratados com o concentrado comercial + sorgo+BDZ têm uma conversão alimentar melhor do que os animais tratados com concentrado comercial + sorgo+anti-stress.

4 Teste de Scheffé

O teste de Scheffé pode testar qualquer contraste envolvendo

médias de tratamentos do tipo kk2211 cccY ... definido a priori ou

não, sendo baseado na estatística S, definida como:

itodopararri (Experimento balanceado)

;)1(

)ˆ()1(

1

2

),,1(

),,1(

k

i

iresglk

iresglk

r

cQMRFk

YVFkS

jipararr ji (Experimento desbalanceado)

;)1(1

2

),,1(

k

i i

iresglk

r

cQMRFkS

Sendo: k – 1 o número de graus de liberdade de tratamentos;

),,1( resglkF é o valor crítico da Tabela F-Snedecor, a qual depende dos graus de

liberdade de tratamentos e do resíduo; ci são os coeficientes do contraste e ri é o número de repetições do i-ésimo tratamento. A Regra de Decisão do teste de Scheffé para rejeitarmos ou não se o contraste é diferente de zero é comparar

a estimativa do contraste Y com o valor de S:

Estatística Experimental

66

se SYi , rejeitamos a hipótese 0YH i0 : , e concluímos que o

contraste de médias é diferente de zero;

se SYi , não rejeitamos a hipótese 0YH i0 : , e concluímos que

o contraste de médias não é diferente de zero Aplicando o teste de Scheffé ao exemplo anterior do teste de t-student,

temos

Contraste 1 2 3

4 IY

4

1

2

Iic

S

1Y +3 -1 -1 -1 -0,41 12 0,3733 *

2Y 0 +2 -1 -1 0,22 6 0,2640 *

3Y 0 0 +1 -1 -0,18 2 0,1524 ns

* significativo a 5%; ns não significativo a 5%.

O objetivo é testar a hipótese 0:

0:

1

0

i

i

YH

YH, para i = 1,2,3.

Assim, para o contraste 1Y , temos que:

0:

0:

11

10

YH

YH

0133,012

4

0044375,0)ˆ(

41,0)22,2()04,2()24,2()03,2(3ˆ

4

1

2

1

1

i

icr

QMRYV

eY

3733,01394,0)12)(4

0044375,0)(49,3)(14(

)111)3((4

0044375,0)14( 2222

)05,0,12,3(

FS

Pela regra de decisão SYi , logo rejeitamos H0 a 5% de

probabilidade e concluímos que a ração comercial com milho tem uma conversão alimentar melhor do que a que a ração comercial com sorgo.

O script no R para o cálculo da estatística de Scheffé é # como não foram fornecidos os dados deste exemplo # é necessário fornecer os valores # definindo o número de repetições r <- 4 # definindo os graus de liberdade dos tratamentos gltr<- 3

# definindo os graus de liberdade do resíduo glr <- 12 # quadrado médio do resíduo qmr <- 0.0044375 # definindo as médias dos tratamentos

Estatística Experimental

67

m.trat <- c( 2.03, 2.24, 2.04, 2.22) # definindo os coeficientes do contraste c <- c( 3, -1,-1,-1) # cálculo da variância do contraste var.c<- qmr/r*sum(c1^2) # cálculo da estatística S de Scheffé s<- sqrt(gltr*q(0.95,gltr,glr)*var.c) s

(Repetir esse procedimento para os contrastes Y2 e Y3 e tirar as conclusões).

5 Teste de Tukey O Teste de Tukey é baseado na amplitude total “estudentizada”

(studentized range) e pode ser usado para comparar todo contraste entre duas médias de tratamentos do tipo

Hipóteses: 0:

0:

1

0

jii

jii

YH

jiparaYH

Calcular o valor da diferença mínima significativa (d.m.s):

itodopararri (Experimento

balanceado)

r

QMRqdms resglk ),;(

jipararr ji (Experimento desbalanceado)

)11

(2

),;(

ji

resglkrr

QMRqdms

sendo: ),,( resglkq é o valor da amplitude total “estudentizada” e é obtido

de tabela própria, e depende do número de tratamentos (k) e do número de graus de liberdade para o resíduo, o qual neste exemplo é (n - k). Após calcular o d.m.s., calculamos a estimativa dos contrastes entre os pares de médias

jii xxY ˆ e comparamos esses valores com o valor do d.m.s., aplicando a

seguinte regra de decisão:

se ...ˆ smdYi rejeitamos H0, ao nível a de significância, e

concluímos que as médias dos tratamentos envolvidos são diferentes;

se ...ˆ smdYi não rejeitamos H0 e concluímos que as médias dos

tratamentos envolvidos são iguais.

Exemplo 3: usaremos os dados do exemplo 1 apresentado no início desta aula, o quadro da anova fornece

k = 4, 7568QMR , com 16 graus de liberdade e 0464q 050165 ,),,,(

e 00,155

75,68046,4),;(

r

QMRqdms knk

Assim, toda estimativa de contraste do tipo jii yyY ˆ que exceder o

valor do d.m.s.= 15,00 é significativo a 5%.

Estatística Experimental

68

Estimativa do contraste

ns132639yyY AB1 ˆ

ns62632yyY AC2 ˆ

ns42622yyY AD3 ˆ

ns73239yyY CB4 ˆ

*ˆ 172239yyY DB5

ns102232yyY DC6 ˆ

* - significativo a 5%; ns – não significativo a 5%

Script no R para o cálculo da anova e o teste de Tukey # entrando com os dados de ganho de peso gp <- c(35,19,31,15,30, 40,35,46,41,33, 39,27,20,29,45, 27,12,13,28,30) # entrando com o número de repetições dos tratamentos r <- 5 # entrando com os níveis dos tratamentos trat <- c(rep("A",r),rep("B",r),rep("C",r),rep("D",r)) trat # cálculo das medias dos tratamentos m.trat <- tapply(gp,trat,mean) m.trat # Gráfico Box-Plot boxplot(gp~trat, vertical=T,ylab="ganho de peso",col="green") # análise da variância - ANOVA gp.av <- aov(gp~factor(trat)) summary(gp.av) # obtendo os residuos residuo <- aov(gp.av)$res residuo # gerando o gráfico normal de probabilidade qqnorm(residuo,ylab="Residuos", main=NULL,pch=16,col=2) # colocando a reta da distribuição teórica normal qqline(resíduo,lwd=2,main="Gráfico Normal de Probabilidade dos Resíduos") # testando a normalidade dos resíduos "Teste de Shapiro-Wilks" shapiro.test(residuo)

Estatística Experimental

69

# teste da homogeneidade das variâncias "Teste de Bartllet" bartlett.test(gp ~ trat) # Teste de Tukey compara.tu <- TukeyHSD(gp.av) compara.tu # grafico do teste de Tukey plot(compara.tu,main="Teste de Tukey") Saída proporcionada por este script Média dos tratamentos A B C D 26 39 32 22

gráfico box-plot para cada tratamento

Quadro da anova fornecido pela função aov( ) Df Sum Sq Mean Sq F value Pr(>F) trat 3 823.7 274.58 3.994 0.0267 * Residuals 16 1100.0 68.75 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Conclusão: o teste F é significativo (p=0,0267), rejeitamos H0. Assim existe pelo menos dois tratamentos que diferem entre si.

teste de Shapiro-Wilks de normalidade Shapiro-Wilk normality test data: residuo

A B C D

15

20

25

30

35

40

45

ga

nh

o d

e p

eso

-2 -1 0 1 2

-10

-50

51

0

Gráfico da normalidade

Quantis teóricos

Re

sid

uo

s

Estatística Experimental

70

W = 0.9387, p-value = 0.227 Conclusão: o teste é não significativo (p=0,227), não rejeitamos H0 e concluímos que os dados deste experimento suportam a suposição de normalidade. Teste de Bartlett da homogeneidade das variâncias populacionais dos tratamentos Bartlett test of homogeneity of variances data: gp by trat Bartlett's K-squared = 1.5284, df = 3, p-value = 0.6757 Conclusão: o teste é não significativo (p=0,6757), não rejeitamos H0 e concluímos que os dados deste experimento suportam a suposição de homogeneidade das variâncias populacionais dos tratamentos. Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = gp ~ trat) $trat diff lwr upr p adj B-A 13 -2.003315 28.003315 0.1018285 C-A 6 -9.003315 21.003315 0.6687032

D-A -4 -19.003315 11.003315 0.8698923 C-B -7 -22.003315 8.003315 0.5553529 D-B -17 -32.003315 -1.996685 0.0237354 D-C -10 -25.003315 5.003315 0.2640642

Conclusão: o teste de Tukey é significativo (p=0,0237) para o contraste entre as médias dos tratamentos D e B. Os outras comparações de pares de médias populacionais dos tratamentos não são significativas.

Uma forma simples de apresentação destes resultados é a seguinte:

coloque as médias em ordem decrescente;

una as médias que não diferem entre si por meio de uma linha No exemplo temos:

*BCAD yyyy

22 26 32 39

* médias seguidas pela mesma linha não diferem entre si pelo teste de Tukey a 5% de probabilidade.

Outra forma, muito utilizada pelos pesquisadores é a que substitui a linha por letras, ou seja,

BCAD yyyy

22a 26ab 32ab 39b, médias seguidas pela mesma letra minúscula não diferem entre si pelo teste de Tukey a 5% de probabilidade

ou ainda, Tratamentos Médias

D 22 a

A 26 ab

C 32 ab

B 39 b médias seguidas pela mesma letra minúscula nas colunas não diferem entre si pelo teste de Tukey a 5% de probabilidade.

A saída do pacote ExpDes para o teste de Tukey já contempla esta

facilidade das médias seguidas pelas letras. O script do R usando os recursos deste pacote é dado por:

Estatística Experimental

71

# usando ao função crd( ) do ExpDes # requerendo o ExpDes library(ExpDes) crd(trat,gp,quali=T,mcomp="tukey") a saída fornecida por este script é: ------------------------------------------------------------------------ Analysis of Variance Table ------------------------------------------------------------------------ DF SS MS Fc Pr>Fc Treatament 3 823.75 274.58 3.9939 0.026711 Residuals 16 1100.00 68.75 Total 19 1923.75 ------------------------------------------------------------------------ CV = 27.87 % ------------------------------------------------------------------------ Shapiro-Wilk normality test p-value: 0.2270063 According to Shapiro-Wilk normality test at 5% of significance, residuals can be considered normal. ------------------------------------------------------------------------ Tukey's test ------------------------------------------------------------------------ Groups Treatments Means a B 39 ab C 32 ab A 26 b D 22 ------------------------------------------------------------------------

6 Teste de Dunnet

É um teste utilizado no qual as únicas comparações de interesse são aquelas entre os tratamentos e um determinado tratamento padrão, geralmente a testemunha (controle), e cada um dos demais tratamentos, não havendo interesse na comparação dos demais tratamentos entre si. Para testarmos o

contraste ci0H : , o qual envolve a média do tratamento “i” e do

tratamento controle “c”, usamos a estatística:

QMRrr

dDci

resglk )11

(),,( ,

sendo: “ ),,( resglkd ” o valor tabelado para fixado freqüentemente em 5%, que

depende do número total de tratamentos (k), do número de graus de liberdade do resíduo (gl res), o qual neste exemplo é (n-k) e de ; ri e rc correspondem

ao número de repetições dos tratamentos “i” e “c”. A seguir, calculamos uma

estimativa para cada um dos contrastes cii yyY ˆ e comparamos o valor da

estatística D' e aplicamos a seguinte regra de decisão:

se DY i ˆ rejeitamos H0 e concluímos que a média do tratamento

“i” difere significativamente da média do tratamento “c” o padrão;

se DY i ˆ não rejeitamos H0 e concluímos que a média do

tratamento “i” é igual ao do tratamento padrão “c”. Como exemplo, considere as médias de um experimento, apresentados

na tabela abaixo, em que um médico veterinário, comparou o efeito de cinco

Estatística Experimental

72

drogas na diminuição da pressão arterial de animais experimentais. Para tanto o pesquisador tomou 30 animais e dividiu ao acaso em seis grupos: o grupo controle recebeu um placebo e os outros receberam, cada um, uma das drogas.

Tratamentos

(Drogas)

Médias

A 21 a

B 8 b

C 10 b

D 29 a

E 13 a

Controle 2 b Médias com a mesma letra do controle nao diferem deste pelo teste de Dunnett a 5% de probabilidade.

A verificação destes resultados pode ser feita por meio dos resultados da ANOVA, onde QMR= 36, os graus de liberdade do resíduo é 24 e vamos fixar %5 .

Procedimentos:

consultando a Tabela do Teste de Dunnett (VIEIRA, S. pg 183 e

184) a 5% de probabilidade, temos que 762d 050246 ,),,,( e a

estatística 47,105

)36(276,2´ D

é fácil verificar que as drogas A, D e E diferem significativamente do controle, ou seja, apresentam resultados melhores que os do controle.

O teste de Dunnett no R está implementado no pacote multcomp. Um exemplo de sua utilização para os dados do exemplo 1 desta aula, considerando o tratamento A como controle, é dado pelo script abaixo # instalando o pacote multicomp install.packages("multcomp") # requerendo o pacote multcomp require(multcomp) # teste de Dunnett gp.dunnett <- glht(gp.av, linfct = mcp(trat = "Dunnett")) summary(gp.dunnett) A saída fornecida por este script é: Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Dunnett Contrasts Fit: aov(formula = gp ~ trat) Linear Hypotheses: Estimate Std. Error t value Pr(>|t|) B - A == 0 13.000 5.244 2.479 0.062 C - A == 0 6.000 5.244 1.144 0.540 D - A == 0 -4.000 5.244 -0.763 0.788 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Estatística Experimental

73

(Adjusted p values reported -- single-step method) Conclusão: todos os valores de p do teste t-student são superiores a 0,05 (p > 0,05) logo nenhum dos tratamentos B, C e D diferem do controle A. 7 Teste de Duncan

A aplicação do teste de Duncan é bem mais trabalhosa que o teste de Tukey, mas chega-se a resultados mais detalhados e se discrimina com mais facilidade entre os tratamentos. Geralmente, o Teste de Duncan indica resultados significativos em casos em que o Teste de Tukey não permite obter significância estatística. Para a aplicação do teste é importante ordenarmos as médias dos tratamentos em ordem crescente ou decrescente de tamanho. A seguir, calculamos o valor da amplitude total mínima significativa (shortest significant range) para o contraste entre a maior e a menor das médias dos tratamentos, usando a fórmula:

r

QMRzsmd resglp ),,(... ,

sendo: p=i-j+1 ( nº de médias abrangidas pelo intervalo delimitado pelas

médias comparadas), ),,( resglpz é o nível da amplitude mínima estudentizada

de Duncan (obtido da Tabela de Duncan – arquivo Tab_Duncan_5%.pdf), neste exemplo os graus de liberdade do resíduo é n-k.

A regra de decisão é:

se ...ˆ smdYi rejeita-se H0 , ou seja, se o valor absoluto da

diferença entre as médias em comparação é igual ou maior que a d.m.s.

se ...ˆ smdYi não rejeitamos H0

Considere os dados do item 6 desta aula. A ordem dos tratamentos, segundo a grandeza das médias, é:

Tratamentos Controle B C E A D

Médias (2) (8) (10) (13) (21) (29)

O valor do d.m.s. para comparar a média do Controle com a média da

Droga D é:

79,85

36276,3... smd ,

Sendo que o valor de p = 6-1+1 = 6, o valor dos graus de liberdade neste exemplo é n-k=24 e %5 Daí que o valor Tabelado é

2763z 050246 ,),,,( . O valor 2727292ˆ1 DCont yyY , o que pela

regra de decisão nos leva a rejeitar a 0YH 10 : e concluímos que a média da

Droga D é significativamente maior que a média do controle, a 5% de probabilidade. As comparações entre o controle e a Droga A, e entre as Drogas B e D, envolvem intervalos de cinco médias e o calculo do d.m.s. do teste de Duncan fica:

os contrastes são DB3ACont2 YeY e seus valores de

suas estimativas em módulo são

Estatística Experimental

74

2129819212ˆ32 YeY e o valor da

66,85

36226,3... smd . Neste caso 226,3)05,0,24,5( z ,

portanto, rejeitamos as hipóteses 0:0: 3020 DBACont YHeYH e concluímos que

estes contrastes são significativos a 5% de probabilidade. Da mesma forma para comparar o controle e a Droga E, as Drogas B e

A, e as Drogas C e D, todas elas envolvendo quatro médias, temos,

os contrastes DCABECont YeYY 654 , e seus

valores de suas estimativas em módulo são

19291013218,11132ˆ654 YeYY e o valor da

48,85

36160,3... smd . Neste caso 160,3)05,0,24,4( z .

Portanto rejeitamos as hipóteses 0:0:;0: 605040 DCDBECont YHeYHYH

e concluímos que estes contrastes são significativos a 5% de probabilidade.

Este mesmo procedimento pode ser feito para comparar médias de tratamentos correspondendo a intervalos que abrangem três médias, sendo

que neste caso, 066,3)05,0,24,3( z e duas a duas com 9192z 050242 ,),,,( . (ver

detalhes destes cálculos no livro da Vieira, S. Estatística experimental p. 66).

O resultado da aplicação do teste de Duncan é representado da seguinte maneira:

Tratamentos Controle B C E A D

médias (2)a (8)ab (10)ab (13)b (21)c (29)d Médias seguidas pela mesma letra minúscula não diferem entre si pelo teste de Duncan a 5% de probabilidade.

# usando ao função crd( ) do ExpDes # requerendo o ExpDes (atenção !!! se o ExpDes já foi requerido não é # necessário requerê-lo novamente library(ExpDes) # crd(trat,gp,quali=T,mcomp="duncan")

A saída fornecida por este script é

Analysis of Variance Table ------------------------------------------------------------------------ DF SS MS Fc Pr>Fc Treatament 3 823.75 274.58 3.9939 0.026711 Residuals 16 1100.00 68.75 Total 19 1923.75 ------------------------------------------------------------------------ CV = 27.87 % ------------------------------------------------------------------------ Shapiro-Wilk normality test

Estatística Experimental

75

p-value: 0.2270063 According to Shapiro-Wilk normality test at 5% of significance, residuals can be considered normal. ------------------------------------------------------------------------ Duncan's test ------------------------------------------------------------------------ Groups Treatments Means a B 39 ab C 32 b A 26 b D 22 ------------------------------------------------------------------------

Conclusão (somente para o teste de Duncan): O tratamento B difere significativamente dos tratamentos A e D. Reparem que o teste de Duncan indicou uma diferença a mais, entre os tratamentos B e A, a qual não foi indicada pelo teste de Tukey.

A função crd( ) do pacote ExpDes fornece outras opções de testes de comparações múltiplas para serem colocadas no comando mcomp = " ". O teste default é o teste de Tukey ("tukey"). As outras opções são o teste LSD equivalente ao teste t-student ("lsd"); o teste LSD com proteção Bonferroni ("lsdb"); o teste de Duncan ("duncan"); o teste de Student-Newman-Kews ("snk") e o teste de Scott-Knott ("sk"). 8 ALGUMAS CONSIDERAÇÕES SOBRE O USO DE PROCEDIMENTOS DE COMPARAÇÕES MÚLTIPLAS.

Quando desejamos comparar os diversos tratamentos com um tratamento controle ou padrão (testemunha), o teste de Dunnett é o mais indicado. Os testes de Duncan e de Tukey têm fundamentos muito semelhantes, mas o teste de Duncan é menos conservador e menos exigente que o teste de Tukey, isto é, indica diferenças significativas com mais facilidade. Vale lembrar também que o teste de Duncan é um teste seqüencial e a sua aplicação é mais trabalhosa. Ambos os testes são exatos quando os números de repetições por tratamento forem iguais; caso contrário os testes são apenas aproximados. O teste t-Sudent é pouco rigoroso quando usado indiscriminadamente, devendo ser usado com cautela para testar contrastes ortogonais definidos a priori. Já o teste de Scheffé é bastante rigoroso e seu uso é desaconselhável (como o teste t-Student) para a comparação entre duas médias de tratamentos, sendo mais indicado para testar contrastes que envolvem mais de duas médias.

O pacote "agricolae " também pode ser a utilizado para as comparações múltiplas. A seguir é fornecido um script utilizando este pacote # instatlando o pacote "agricolae" install.packages("agricolae") # requerendo o pacote “agricolae” require("agricolae") # teste de Tukey compara.tukey <- HSD.test(gp.av,"trat") # gráfico de barras das médias com as letras segundo com o teste de Tukey bar.group(compara.tukey,main="Teste de Tukey", ylim=c(0,50), xlab="Tratamentos (Rações)")

Estatística Experimental

76

# teste de Duncan compara.duncan <- duncan.test(gp.av,"trat") # gráfico de barras das médias com as letras segundo o teste de Duncan bar.group(compara.duncan,main="Teste de Duncan",ylim=c(0,50), xlab="Tratamentos (Rações)") # teste de Scheffé compara.scheffe <- scheffe.test(gp.av,"trat") # gráfico de barras das médias com as letras segundo o teste de Scheffé bar.group(compara.scheffe, main="Teste de Scheffé",ylim=c(0,50), xlab="Tratamentos (Rações)")

Este script fornece a seguinte saída HSD Test for gp Mean Square Error: 68.75 trat, means gp std.err replication A 26 3.820995 5 B 39 2.302173 5 C 32 4.449719 5 D 22 3.911521 5 alpha: 0.05 ; Df Error: 16 Critical Value of Studentized Range: 4.046093 Honestly Significant Difference: 15.00331 Means with the same letter are not significantly different. Groups, Treatments and means a B 39 ab C 32 ab A 26 b D 22

Saída do teste de Duncan Duncan's new multiple range test for gp Mean Square Error: 68.75

B C A D

Teste de Tukey

Tratamentos (Rações)

01

02

03

04

05

0

a

ab

ab

b

Estatística Experimental

77

trat, means gp std.err replication A 26 3.820995 5 B 39 2.302173 5 C 32 4.449719 5 D 22 3.911521 5 alpha: 0.05 ; Df Error: 16 Critical Range 2 3 4 11.11688 11.65753 11.99550 Means with the same letter are not significantly different. Groups, Treatments and means a B 39 ab C 32 b A 26 b D 22

Saída do teste Scheffé

Scheffe Test for gp Mean Square Error : 68.75 trat, means gp std.err replication A 26 3.820995 5 B 39 2.302173 5 C 32 4.449719 5 D 22 3.911521 5 alpha: 0.05 ; Df Error: 16 Critical Value of F: 3.238872 Minimum Significant Difference: 16.34646 Means with the same letter are not significantly different. Groups, Treatments and means A B 39 ab C 32 ab A 26 b D 22

B C A D

Teste de Duncan

Tratamentos (Rações)

01

02

03

04

05

0

a

ab

b

b

Estatística Experimental

78

B C A D

Teste de Scheffé

Tratamentos (Rações)

01

02

03

04

05

0

a

ab

ab

b

Estatística Experimental

79

4º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL 1. Três extratos de origem vegetal foram fornecidos a 20 cães por via oral com a finalidade de testar o possível efeito sobre a pressão arterial sistólica desses animais. Os cães foram divididos em grupos de cinco animais, recebendo cada grupo um tipo de extrato, ao acaso, B, C ou D, além de um grupo controle – A, tratado com placebo. Os dados obtidos foram:

Trat.(extratos) Cães Totais Médias is

(Controle) A 74,0 71,0 73,0 79,0 68,0 B 99,0 91,0 94,0 101,0 97,0 C 100,0 95,0 97,0 99,0 98,0 D 78,0 74,0 75,0 86,0 72,0 Total Geral

(a) Escreva o script da linguagem R para ler os dados da tabela acima e calcular os totais dos

tratamentos, as médias dos tratamentos, os desvios padrões dos tratamentos, o total geral, e a média geral. Apresente os resultados na mesma tabela acima.

(b) Escrever o modelo matemático do experimento, estabelecer as hipóteses estatísticas H0 e H1 e as suposições básicas para se testar estas hipóteses.

(c) Escreva o script para os cálculos do quadro da análise de variância e apresente monte o quadro da anova. Apresente as conclusões.

(d) Aplique o teste de Tukey para comparar as médias 2 a 2. Apresente um quadro e um gráfico de barras das médias juntamente com as letras explicando as diferenças. Tire as conclusões.

(e) Aplique o teste de Duncan para comparar as médias 2 a 2. Apresente um quadro e um gráfico de barras das médias juntamente com as letras explicando as diferenças. Tire as conclusões.

(f) Aplique o teste de Dunnett para comparar as médias com o controle A. Comente os resultados.

2- A redução da pressão sangüínea sistólica (RPS) depois da administração de drogas para hipertensão é um dos indicadores de como os pacientes estão respondendo às drogas. No tratamento da hipertensão, os efeitos colaterais associados com as drogas têm um particular interesse. Neste estudo, duas drogas X e Y para a redução dos efeitos colaterais de uma droga padrão (P) de hipertensão foi avaliada. O estudo foi conduzido em um delineamento inteiramente casualizado com cinco tratamentos, assim definidos:

T1 – Droga padrão (P)

T2 – P combinada com uma dose baixa de X (P+DBX)

T3 – P combinada com uma dose alta de X (P+DAX)

T4 – P combinada com uma dose baixa de Y (P+DBY)

T5 – P combinada com uma dose alta de Y (P+DAY) A redução na pressão sangüínea (mm Hg) em um período de quatro semanas observadas em cães experimentais está tabulada abaixo:

Tratamentos

Repetição

1 2 3 4 Total Média

T1 27 26 21 26 T2 19 13 15 16 T3 15 10 10 11 T4 22 15 21 18 T5 20 18 17 16

Pede-se: a) A análise de variância para testar a hipótese geral de igualdade das médias dos tratamentos; b) Aplique os testes t-student e Scheffé nos contrates abaixo: b.1 Existe efeito das drogas combinadas (T2 T3 T4 T5 ) na RPS?. b.2 Existe diferença entre os efeitos médios das doses baixa e alta da droga Y?. b.3 Existe diferença entre a resposta média esperada das duas doses de X?. (extraído de Statistical Research Methods in the Life Science, P. V. Rao, pg. 327).

Estatística Experimental

80

Aula 5 Testes F planejados No planejamento de um experimento, frequentemente pode-se utilizar o

teste F para responder algumas questões mais específicas. Isto implica na decomposição dos graus de liberdade e da soma de quadrados do efeito dos tratamentos em componentes de comparações. Estes componentes podem ser classes de comparações ou tendência das respostas. Eles podem ser testados pela partição dos graus de liberdade e da soma de quadrados dos efeitos dos tratamentos em contrastes simples e específicos e suas soma de quadrados associadas. O número de contrastes independentes e ortogonais que podem ser definidos é igual ao número de graus de liberdade do efeito do tratamento. O poder e a simplicidade deste método não são muito apreciados e compreendidos pelos pesquisadores com deveria ser. Esta metodologia envolve a definição de contrastes ortogonais, e talvez este termo, cria a impressão de que ele é complicado e difícil. Isto esta longe de ser verdade. Atualmente este método tem três grandes vantagens:

permite responder a questões específicas e importantes a respeito dos efeitos dos tratamentos;

os cálculos são simples; e,

proporciona uma checagem útil da soma de quadrados dos tratamentos.

Esta metodologia também é denominada de “desdobramento, ou a decomposição dos graus de liberdade de tratamentos”.

2 Soma de quadrados de um contraste.

Quando utilizamos contrastes na decomposição dos graus de liberdade dos efeitos dos tratamentos usamos a seguinte definição para o cálculo da soma de quadrados:

Definição: a soma de quadrados de um contraste é calculada pela

fórmula

k

ii

iik

ii

k

iii

i

cr

YYSQou

cr

Yc

YSQ

1

2

2

1

2

1

2

)ˆ()(

)(

)( , sendo: ic os

coeficientes do contraste; iY os totais dos tratamentos e r o

numero de repetições (neste caso r = r1 = . . . = rk ) e

k

iiii YcY

1

2)(ˆ é uma estimativa do contraste com base nos totais.

Observações importantes:

todo contraste tem sempre 1 grau de liberdade, assim QM(Yi) = SQ(Yi).

geralmente, testamos H0: Yi = 0 vs. H1: Yi 0 e para tanto usamos a estatística F-Snedecor tendo como denominador o quadrado médio do erro experimental (QMR).

os contrastes devem ser planejados a priori e podem ser tão numerosos quanto acharmos necessário.

o número de contrastes ortogonais entre os totais dos tratamentos é igual ao número de graus de liberdade associados a essa fonte de variação, isto é, se o fator tratamento tem k níveis então conseguiremos definir somente (k-1) contrastes ortogonais.

Estatística Experimental

81

se 121 .,..,, kYYY são contrastes ortogonais envolvendo os totais dos

k níveis do fator, então SQTrYSQYSQYSQ k )(...)()( 121

a ortogonalidade dos contrastes garante a independência entre as

conclusões. Exemplo 1: Foram comparados os efeitos de cinco tratamentos no crescimento de alevinos de carpas (mediu-se o comprimento em cm aos dois meses de idade) em um DIC.

T1 – ração comum. (rc) T2 – ração comum + esterco. (rce) T3 – ração comum + esterco de porco + vitamina B12. (rceB12) T4 – ração comum + farinha de osso. (rcfo) T5 – ração comum + farinha de osso + vitamina B12. (rcfoB12) Dados

Trat.

Repetições

1 2 3 4

T1 4,6 5,1 5,8 5,5

T2 6,0 7,1 7,2 6,8

T3 5,8 7,2 6,9 6,7

T4 5,6 4,9 5,9 5,7

T5 5,8 6,4 6,8 6,8

Análise de variância usual.

Causas da Variação G.L. S.Q. Q.M. F

Tratamentos 4 7,72 1,91 7,19

Resíduo 15 4,03 0,27

Total 19 11,75

894Fe063F 010154050154 ,, ),;,(),;,(

Conclusão: o teste é significativo a 1% de probabilidade, portanto rejeitamos H0, os tratamentos apresentam efeitos distintos sobre o crescimento de alevinos de carpas. Esta é uma informação geral sobre os efeitos dos tratamentos. Para obtermos informações detalhadas devemos decompor os 4 graus de liberdade dos efeitos dos tratamentos em quatro contrastes ortogonais.

Comparações objetivas:

rc vs demais.

4321543211 44ˆ YYYYTTTTTY

rce vs rcfo

543254322ˆ YYYYTTTTY

rce vs rceB12.

32323ˆ YYTTY

rcfo vs rcfoB12

54544ˆ YYTTY

Estatística Experimental

82

Contraste 1Y 2Y 3Y

4Y 5Y

Y1 4 -1 -1 -1 -1

Y2 0 +1 +1 -1 -1

Y3 0 +1 -1 0 0

Y4 0 0 0 +1 -1

Usando a fórmula definida acima para o cálculo da soma de quadrados dos contrastes temos:

1) rc vs demais.

cmY 6,176,251,226,261,27)0,21(4ˆ1

78,3)20(4

)4,17()ˆ()ˆ.(.

20)1()1()1()1()4(

2

5

1

2

2

11

222225

1

2

i

ii

cr

YYQS

c

(A obtenção das S.Q. dos outros contrastes são deixadas como exercícios)

A anova com os testes F planejados ou com os desdobramentos dos graus de liberdade do efeito dos tratamentos fica:

Causas da Variação G.L. S.Q. Q.M. F Pr(>F)

rc vs demais (Y1) 1 3,87 3,87 14,43 0.00175

rce vs rcfo (Y2) 1 2,10 2,10 7,83 0.55014

rce vs rceB12 (Y3) 1 0,03 0,03 0,12 0.00200

Rcfo vs rcfoB12 (Y4) 1 1,72 1,72 6,38 0.87434

Tratamentos (4) (7,72) 1,91 7,19 0.00193

Resíduo 15 4,03 0,27

Total 19 11,75

688Fe544F894F063F 050151050151010154050154 ,,;,;, ),;,(),;,(),;,(),;,(

Conclusões:

rc vs demais – o contraste é significativo (p<0,01) e pelo resultado do contraste devemos utilizar rce ou rceB12, ou ainda, rcfo ou rcfoB12, quando comparada com a rc.

rce vs rcfo – o contraste é significativo (p<0,05) e pelo resultado do contraste verificamos que rce tem um efeito superior no crescimento dos alevinos, quando comparada com rcfo.

rce vs rceB12 - o contraste é não significativo (p>0,05), portanto o acréscimo de vitamina B12 à rce (rceB12) não afeta significativamente, o crescimento dos alevinos, quando comparada com a rce.

rcfo vs rcfoB12 – o contraste é significativo (p<0,05) e pelo resultado do contraste devemos adicionar vitamina B12 à ração comum com farinha de osso,quando comparada com a rcfo.

Script no R para os cálculos descritos acima

# entrando com o número de repetições r <- 4

Estatística Experimental

83

# criando os níveis dos tratamentos trat <- c(rep("T1",r),rep("T2",r),rep("T3",r),rep("T4",r),rep("T5",r)) trat # entrando com os valores comp <- c(4.6,5.1,5.8,5.5, # observações do tratamento T1 6.0,7.1,7.2,6.8, # observações do tratamento T2 5.8,7.2,6.9,6.7, # observações do tratamento T3 5.6,4.9,5.9,5.7, # observações do tratamento T4 5.8,6.4,6.8,6.8) # observações do tratamento T5 comp # fazendo a análise da variância - ANOVA comp.av <- aov(comp~factor(trat)) # imprimindo o quadro da ANOVA summary(comp.av) # Definição do contraste c <- c(4,-1,-1,-1,-1) # contraste rc vs demais # obtenção do QMR no quadro da anova qmr <- anova(comp.av)[2,3] qmr # obtenção dos gl do residuo no quadro da anova glr <- anova(comp.av)[2,1] glr # cálculo dos totais por tratamento t.trat <- tapply(comp,trat,sum) t.trat # estimativa do contraste Y com base nos totais y.est <-sum(c*t.trat) y.est # cálculo da soma de quadrados sqy <- (y.est^2)/(r*sum(c^2)) sqy # Cálculo da estatística F fc <- sqy/qmr fc # Cálculo do valor de p associado à estatística fc valor.p <- 1-pf(fc,1,glr) valor.p

Para obter os resultados referentes aos outros contrastes basta substituir o objeto c na linha # Definição do contraste pelo contraste correspondente definido abaixo e executar todo o script novamente

Estatística Experimental

84

#c <- c(0, 1, 1,-1,-1) # contraste rce vs rcfo

#c <- c(0, 1,-1, 0, 0) # contraste rce vs rceB12

#c <- c(0, 0, 0, 1,-1) # contraste rcfo vs rcfoB12

Estes resultados podem ser obtidos facilmente com o pacote gmodels # instalando o pacote gmodels install.packages("gmodels")

# requerendo o pacote para o ambiente R require(gmodels) # juntando os 4 contrastes no objeto cte cte <-rbind(c(4,-1,-1,-1,-1), c(0, 1, 1,-1,-1), c(0, 1,-1, 0, 0), c(0, 0, 0, 1,-1)) # calculando a anova com desdobramento dos gl dos tratamentos comp.av <- aov(comp ~ trat,contrast = list(trat = make.contrasts(cte))) # imprimindo o quadro da ANOVA summary(comp.av, split = list(trat = 1:4))

Quando os tratamentos e/ou fatores utilizados num experimento são de natureza qualitativa (raça, sexo, cultivares, tratos culturais etc.) os testes de comparações de médias (teste t-Student, testes de Tukey, Duncan, Scheffé etc.) se aplicam sem restrições. A esses casos se equiparam os fatores ou tratamentos quantitativos (doses de uma droga, tempo, etc.) quando há só dois níveis (presença e ausência, por exemplo). O mesmo não acontece, porém, quando o tratamento ou fator quantitativo tem mais de dois níveis, por exemplo:

doses crescentes de cobre na alimentação de galinhas (0, 400 e 800 ppm);

doses crescentes de uma droga;

0%, 20%, 40% e 60% de substituição de um ingrediente da ração por farelo de soja.

Em tais situações é essencial avaliar o comportamento da variável resposta ao longo dos níveis do fator, através de uma equação de regressão. Por exemplo: a equação que associa a freqüência cardíaca em função de doses de uma droga é quase sempre desconhecida, mas em geral, pode ser bem estimada por meio de uma equação polinomial do tipo:

... 3

3

2

210 xaxaxaaY,

sendo Y, a resposta avaliada e x os níveis quantitativos do fator (tratamentos). O ajuste e a interpretação da equação de regressão quando o polinômio

é de grau muito elevado são tarefas bastante complexas. Porém, quando os níveis do fator quantitativo são igualmente espaçados, o estudo do comportamento das médias pode ser feito utilizando o método dos polinômios ortogonais, que será apresentado a seguir através de um exemplo.

Exemplo: os efeitos de quatro tratamentos no ganho de peso (g) de alevinos de carpas foram comparados em um DIC. T1 – ração comum. T2 – ração comum + 10 mg de B12.

Estatística Experimental

85

T3 – ração comum + 20 mg de B12. T4 – ração comum + 30 mg de B12. Dados

Trat.

Repetições

1 2 3 4

0 6,80 6,50 6,40 6,50 10 7,90 6,60 6,80 6,20 20 8,30 8,40 8,60 9,20 30 9,50 9,80 10,00 10,70

médiasduasmenospeloH

H

1

43210

:

:

Análise de variância usual.

955F493F 010123050123 ,, ),;,(),;,(

O teste F é significativo a 1% de probabilidade, portanto rejeita-se Ho, os tratamentos apresentam efeitos distintos sobre o crescimento dos alevinos de carpas. Como os níveis são eqüidistantes, 0, 10, 20 e 30 mg a decomposição dos graus de liberdade pode ser feita com uso de polinômios ortogonais, usando-se os coeficientes dos contrastes encontrados em tabelas. As tabelas são construídas em função do número de tratamentos, denominados níveis. Assim, como temos 4 tratamentos, temos 4 níveis e o polinômio máximo é o de grau 3. Consultando as tabelas dos coeficientes dos polinômios ortogonais (Gomes P., 1966, p. 314, Sampaio, I.B.M, 1998, p. 215) , podemos montar a seguinte tabela

Assim, para o efeito linear temos:

40,48

)00,40)(3()50,34)(1()50,27)(1()20,26)(3(

)3()1()1()3(ˆ4321

TTTTYLinear

28,29)20)(4(

)40,48().(.

2

LinearYQS

(A obtenção das SQ dos efeitos quadráticos e cúbicos são deixados como exercício)

Causas da Variação G.L. S.Q. Q.M. F

Tratamentos 3 31,03 10,02 41,3 Resíduo 12 2,95 0,25

Total 15 33,98

Tratamentos

(Totais)

Coeficientes para 4 níveis

1º grau 2º grau 3º grau

T1=26,20 -3 +1 -1

T2=27,50 -1 -1 +3

T3=34,50 +1 -1 -3

T4=40,00 +3 +1 +1

I

Ic 2

20 4 20

Estatística Experimental

86

A análise de variância com desdobramento dos graus de liberdade dos tratamentos por polinômios ortogonais.

Causas da Variação G.L. S.Q. Q.M. F

Regressão linear 1 29,28 29,28 119,32 Regressão Quadrática 1 1,10 1,10 4,49 Regressão Cúbica 1 0,65 0,65 2,64

Tratamentos (3) (31,03) 10,34 42,15 Resíduo 12 2,95 0,25

Total 15 33,98

339Fe754F955F493F 010121050121010123050123 ,,;,;, ),;,(),;,(),;,(),;,(

Conclusão: somente a componente do 1º grau foi significativa (p<0,01), ou seja, a diferença entre os valores médios dos tratamentos está sendo explicada por uma equação linear, bxaY , cujos parâmetros a e b são

estimados por:

k

i

k

ii

i

k

i

k

i

k

iii

ii

k

X

X

k

YX

YX

b

1

1

2

2

1

1 1

)(

ˆ e XbYa ˆˆ ,

sendo: aeb ˆˆ , os estimadores de mínimos – quadrados de b e a,

respectivamente, xi = 0, 10, 20 e 30 as doses de vitamina B12; iy = 6,55, 6,80,

8,63 e 10,00 são os comprimentos médios dos alevinos, para i = 1, 2, 3, 4. Utilizando essas fórmulas, obtemos a equação

X12201686Y ,,ˆ

Script no R para os cálculos acima # entrando com o número de repetições r <- 4 # criando os níveis dos tratamentos trat <- c(rep(0,r),rep(10,r),rep(20,r),rep(30,r)) trat # entrando com os valores g.peso <- c(6.80, 6.50, 6.40, 6.50, # observações do tratamento 1 7.90, 6.60, 6.80, 6.20, # observações do tratamento 2 8.30, 8.40, 8.60, 9.20, # observações do tratamento 3 9.50, 9.80, 10.00, 10.70) # observações do tratamento 4 #imprimindo o resumo do arquivo head(g.peso) # calculando o quadro da ANOVA gpeso.av <- aov(comp~factor(trat)) # imprimindo o quadro da anova anova(comp.av) # obtenção do QMR no quadro da anova qmr <- anova(comp.av)[2,3]

Estatística Experimental

87

qmr # obtenção dos gl do residuo no quadro da anova glr <- anova(comp.av)[2,1] glr # cálculo dos totais por tratamento t.trat <- tapply(g.peso,trat,sum) t.trat # Definição do contraste c <- c(-3,-1,1,3) # efeito linear # estimativa do contraste linear com base nos totais y.est <-sum(c*t.trat) y.est # cálculo da soma de quadrados sqy<- (y.est^2)/(r*sum(c^2)) sqy # calculo da estatística F fc <- sqy/qmr fc # calculo do valor de p da estatística fc valor.p <- 1-pf(fc,1,glr) valor.p

Para obter os resultados referentes aos outros contrastes basta substituir o objeto c na linha # Definição do contraste pelo contraste correspondente definido abaixo e executar todo o script novamente

#c <- c(1,-1,-1,1) # efeito quadrático #c <- c(-1,3,-3,1) # efeito cúbico

Este quadro da anova pode ser obtido facilmente com o pacote gmodels. Não há necessidade de instalar o pacote gmodels novamente, dado que ele já foi instalado no script anterior. Basta requerê-lo.

Script no R utilizando o pacote gmodels # requerendo o pacote para o ambiente R require(gmodels) # juntando os 3 contrastes no objeto cte cte<-rbind(c(-3, -1, 1, 3), c(1, -1, -1, 1), c(-1, 3, -3, 1)) # cálculando a anova com desdobramento dos gl dos tratamentos gpeso.av <- aov(g.peso ~ trat,contrast = list(trat = make.contrasts(cte))) # imprimindo o quadro da ANOVA summary(gpeso.av, split = list(trat = 1:4))

Estatística Experimental

88

Este quadro da anova com os desdobramentos dos graus de liberdade dos tratamentos junto com as equações linear, quadrática e cúbica são facilmente obtidos com o pacote ExpDes.

Script no R utilizando o pacote ExpDes

#requrendo o pacote ExpDes require(ExpDes) #quadro da anova com o desdobramento dos graus de liberdade dos trat crd(trat,g.peso,quali=F)

Fazendo o gráfico da reta de regressão

# entrando com os valores da dose (x) dose<-c(0,10,20,30) # cálculo das médias dos tratamentos (y) m.trat<-tapply(g.peso,trat,mean) m.trat # gráfico de dispersão (dose x ganho de peso) plot(dose,m.trat,pch=16, col="black",ylab="ganho de peso (g)") # ajustando a reta de regressão reg.lin<-lm(m.trat~dose) #imprimindo os resultados do ajuste summary(reg.lin) # colocando a reta estimada no gráfico de dispersão abline(reg.lin,col="blue",lwd=2)

Estatística Experimental

89

5º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL

1) Num experimento estudou-se a adição de triguilho, a uma dieta básica de milho e farelo de soja na alimentação se suínos, mestiços ( Landrace x Large White), com peso inicial de 10,5 kg durante um período experimental de 40 dias, mantidos em gaiolas metálicas de 1,90 x 0,74 m. O delineamento experimental foi o inteiramente casualizado com 5 tratamentos e 8 repetições e a parcela experimental representada por 4 animais (dois machos castrados e duas fêmeas). Os tratamentos consistiram na inclusão de 0; 7,5; 15,0; 22,5; e 30% de triguilho em dietas à base de milho e soja. Os ganhos de peso médio diário em gramas (média dos 4 animais na parcela) foram:

Tratamentos Repetições Total % de triguilho 1 2 3 4 5 6 7 8

0,0 340 320 310 350 320 340 330 340 2650 7,5 360 350 350 360 370 380 340 350 2860 15,0 370 370 380 390 360 370 360 380 2980 22,5 380 390 380 390 360 360 360 390 3010 30,0 400 390 410 420 380 390 410 420 3220

14720 A análise de variância preliminar é a seguinte:

Causa da variação GL S. Quadrados Q. M F

Tratamentos 4 21915.00 5478,55 31,30** Resíduo 35 6125,00 175,00 Total 39

** Significativo p<0,01 a- Escrever o script na linguagem do R para reproduzir o quadro da anova acima. b- Escrever também o script para montar a tabela de análise de variância com desdobramento dos graus de liberdade de tratamentos por polinômios ortogonais.

Causa da variação GL S. Q. Q. M. F Vapor de p

Tratamentos 21915.00 5478,55 31,30** Y1 (Linear)

Y2 (Quadrático) Y3 (Cúbico) Y4 (4ª grau)

Resíduo 6125,00 175,00 Total 0,3426

c- Tirar as conclusões práticas possíveis para este experimento. d- Calcular as médias e os erros padrões das médias dos tratamentos e o coeficiente de determinação e de variação do experimento. Coeficientes dos polinômios ortogonais para 5 tratamentos: Linear: -2 -1 0 1 2 Quadrático. : 2 -1 -2 -1 2 Cúbico: -1 2 0 -2 1 4º Grau : 1 -4 6 -4 1 2) Num experimento inteiramente casualizado de competição de linhagens de aves visando o ganho de peso aos 60 dias de idade, foram utilizados 4 tratamentos e 6 repetições. Os tratamentos, com as respectivas médias de ganho de peso foram as seguintes:

1- ARBOR ACRES kg 81,11 y

2- KIMBER 44 kg 59,12 y

3- PILCH kgy 61,13

4- COBBS kg 71,14 y

Para a análise de variância dos ganhos de peso, obteve-se: S.Q. Tratamentos = 0,2266 e S.Q. Total = 0,3426 a) Sejam os contrastes:

43211 y ; 212 y ; 433 y

Verificar se estes contrastes são ortogonais entre si. b) Preencher o quadro da anova abaixo:

Estatística Experimental

90

F.V. GL S. Q. Q. M. F Vapor de p

Tratamentos 0,2266 Y1 Y2 Y3

Resíduo Total 0,3426

c) Apresente as conclusões destes testes. d) Calcular R

2 e o C.V. deste experimento e concluir.

3- Num experimento inteiramente casualizado, com 5 tratamentos e 6 repetições, estudou-se o efeito da infestação de ovinos e caprinos por larvas de Gaigeria pachyscelis (Nematoda: Ancylostomatoidea). Os tratamentos aplicados foram: T1 - infestação com 150 larvas por animal T2 - infestação com 300 larvas por animal T3 - infestação com 600 larvas por animal T4 - infestação com 1200 larvas por animal T5 - infestação com 2400 larvas por animal.

A análise de variância do número de semanas decorridas até a morte do animal apresentou os seguintes resultados. S.Q. Tratamentos = 5,7204 S.Q. Total =13,1829 Sabendo-se, também que as médias do número de semanas, decorridas até a morte do animal, por tratamento foram:

2,71=y 3,22=y 3,55=y 16,4y 28,4 54321 y

Pede-se:

a) Montar a análise de variância e concluir.

F.V. GL S. Q. Q. M. F Vapor de p

Tratamentos 5,7204 Resíduo Total 13,1829

b) Verificar pelo teste de “Tukey”, “Duncan” e “Scheffé” ao nível de 5% de probabilidade, quais as médias de tratamentos que estão diferindo significantemente entre si.

Estatística Experimental

91

Aula 6 Delineamento em blocos casualizados (DBC) Suponha que um experimentador esteja interessado em estudar os

efeitos de 3 diferentes dietas. A primeira providência do pesquisador foi a de se inteirar a respeito da natureza do material experimental disponível. Feito isto, constatou que ele disporia de 12 animais com aproximadamente o mesmo peso. Entretanto, estes 12 animais eram provenientes de 4 ninhadas, cada uma contendo três animais. Dentro de uma ninhada, os três animais foram sorteados às três dietas. Os animais foram colocados em 12 baias idênticas e alimentados com as dietas sorteadas, em idênticas condições. Mediu-se, então, o ganho de peso desses animais depois de 12 semanas. Os dados obtidos são apresentados no quadro abaixo:

Dieta Ninhada

1 2 3 4

Total

A 28,7 29,3 28,2 28,6 114,8

B 30,7 34,9 32,6 34,4 132,6

C 31,9 34,2 34,9 35,3 136,3

Total 91,3 98,4 95,7 98,3 383,7

Organizando as observações em arquivos com extensão .xls ou .txt dieta.xls dieta.txt

dieta ninhada gpeso

A Ninhada1 28.7

A Ninhada2 29.3

A Ninhada3 28.2

A Ninhada4 28.6

B Ninhada1 30.7

B Ninhada2 34.9

B Ninhada3 32.6

B Ninhada4 34.4

C Ninhada1 31.9

C Ninhada2 34.2

C Ninhada3 34.9

C Ninhada4 35.3

dieta ninhada gpeso A Ninhada1 28.7 A Ninhada2 29.3 A Ninhada3 28.2 A Ninhada4 28.6 B Ninhada1 30.7 B Ninhada2 34.9 B Ninhada3 32.6 B Ninhada4 34.4 C Ninhada1 31.9 C Ninhada2 34.2 C Ninhada3 34.9 C Ninhada4 35.3

(Dica: primeiro digite os dados no excel, para depois colocá-lo no bloco de notas)

O delineamento experimental para este ensaio de dietas é um exemplo

de um Delineamento em Blocos Casualizados com três tratamentos e quatro blocos. Os tratamentos são níveis de um fator experimental, as três dietas; os blocos são os níveis do fator confundido, as ninhadas. Dado que os animais em diferentes ninhadas respondem diferentemente a uma dada dieta, a ninhada é considerada, um fator de confundimento. As 12 unidades experimentais (animais) são agrupados em 4 blocos, de tal forma que, dentro de cada grupo, três unidades são afetadas pelo mesmo nível do fator de confundimento. Por causa da porção das características inerentes aos animais dentro de uma mesma ninhada (bloco), suas respostas serão muito similares, enquanto que as respostas dos animais pertencentes a diferentes ninhadas irão variar muito; isto é, as unidades experimentais são mais homogêneas dentro dos blocos do que entre os blocos. Assim, resumidamente, podemos definir que um DBC é um delineamento no qual as unidades (unidades experimentais) às quais os tratamentos são aplicados são subdivididos em grupos homogêneos, denominados de blocos, tal que o número de unidades experimentais em um bloco é igual ao número (ou algum múltiplo do número) de tratamentos estudados. Os tratamentos são então sorteados às unidades experimentais

Estatística Experimental

92

dentro de cada bloco. Deve-se ressaltar que cada tratamento aparece em cada bloco, e todo bloco recebe todos os tratamentos. Quando se usa o DBC, o objetivo é isolar e remover do termo de erro (resíduo) a variação atribuída ao bloco, garantindo assim, que as médias dos tratamentos estão livres do efeito dos blocos. A efetividade deste delineamento depende da habilidade em se obter blocos homogêneos de unidades experimentais. A habilidade para formar blocos homogêneos depende do conhecimento que o pesquisador tem do material experimental. Quando os blocos são usados adequadamente, o QMR (quadrado médio do resíduo) no quadro da ANOVA será reduzido, a estatística F aumentará, e a chance de se rejeitar H0 (hipótese de nulidade) será maior.

Em experimentos com animais, quando suspeita-se que diferentes raças de animais responderá diferentemente ao mesmo tratamento, a raça do animal pode ser usada como um fator a ser considerado na formação dos blocos. O DBC pode, também, ser empregado efetivamente quando um experimento deve ser conduzido em mais de um laboratório (bloco) ou quando vários dias (blocos) são requeridos para a realização do experimento. No DBC temos os três princípios básicos da experimentação: repetição, casualização e controle local.

Vantagens do DBC

Com o agrupamento das parcelas, geralmente se obtém resultados mais precisos que aqueles obtidos num DIC.

Desde exista material experimental suficiente, o delineamento será sempre balanceado, podendo-se incluir qualquer número de tratamentos.

A análise estatística é bastante simples.

Se a variância do erro experimental é maior para alguns tratamentos que para outros, pode-se obter um erro não viesado para testar qualquer combinação específica das médias dos tratamentos.

Principal desvantagem Ocorre quando da perda de parcela(s) em algum tratamento. Apesar de

existir um método apropriado de estimação desses valores, há a perda de eficiência na comparação de médias envolvendo esses tratamentos.

Esquematicamente para um DBC com 4 tratamentos e 3 blocos (classes de idade) temos: 1) Unidades experimentais heterogêneas (Fonte: Vieira, 2006, pag. 15).

Estatística Experimental

93

2) Constituição dos 3 blocos. ( 3 classes de idades ). 3) Delineamento de um experimento em blocos casualizados.

2 Organização dos dados no DBC.

Vamos considerar k -tratamentos; r – blocos e ijy é o valor observado na

parcela que recebeu o tratamento i e se encontra no bloco j. Assim, um quadro para representar os valores amostrais de um DBC pode ser da forma abaixo:

Estatística Experimental

94

Blocos

Trat.

1 2 3 ... j ... r Total Média

1 Y11 Y12 Y13 ... ... ... Y1r Y1+ 1Y

2 Y21 Y22 Y23 ... ... ... Y2r Y2+ .2Y

3 Y31 Y32 Y33 ... ... ... Y3r Y3+ 3Y

.

.

. i . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

...

...

... Yij . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. k Yk1 Yk2 Yk3 ... ... ... Ykr Yk+

kY

TOTAL Y+1 Y+2 Y+3 ... Y+j ... Y+r Y++

3 Modelo matemático rjekiY ijijij ,,2,1,,2,1

sendo:

.

;0

;0,

;

;

1

1

aleatórioerrodoefeitooé

comtratamentoésimoidoefeitoé

comblocoésimojdoefeitooé

sobservaçõeastodasacomumgeralmédiaé

blocoésimojnotratamentoésimoiorecebeuqueobservaçãoay

ij

r

jii

r

jjj

ij

4 Suposições do modelo. Neste modelo,

cada ijy observado constitui uma amostra aleatória independente

de tamanho 1 de cada uma das kr populações

os i j são independentes e normalmente distribuídos com média 0

e variância 2 , ou seja, ),(~ 2

ij 0N . Isto implica em que as kr

populações são normalmente distribuídas com média ij e a

mesma variância 2 , ou seja, ),(~ 2

ijij Ny ;

os efeitos de blocos e tratamentos são aditivos. Esta suposição pode ser interpretada como não existe interação entre tratamentos e blocos. Em outras palavras, uma particular combinação bloco-tratamento não produz um efeito que é maior que ou menor que a soma dos efeitos individuais.

4 Hipótese estatística Podemos testar

0:

...,,2,1,0:

1

0

i

i

ostodosnemH

kicomH

ou

jiH

H

ji

k

:

0...:

1

210

Estatística Experimental

95

Geralmente o teste de hipótese com relação aos efeitos de blocos não é feito por dois motivos: primeiro o interesse principal é testar os efeitos de tratamento, o propósito usual dos blocos é eliminar fontes estranhas de variação. Segundo, embora as unidades experimentais sejam distribuídas aleatoriamente aos tratamentos, os blocos são obtidos de uma maneira não aleatória.

6 Partição da soma de quadrados

Voltemos ao quadro de representação das observações no DBC no item 2

Podemos identificar os seguintes desvios:

yy ij , como o desvio de uma observação em relação a média

amostral geral;

iij yy , como o desvio da observação em relação à média de seu

grupo ou do i-ésimo tratamento;

yy i , como o desvio da média do i-ésimo tratamento em

relação á média geral.

yy j como o desvio da média do j-ésimo bloco em relação á

média geral. Consideremos a identidade

)()()()( yyyyyyyyyy jiijjiij ,

a qual representa a “ a variação de uma observações em relação à média geral amostral como uma soma da variação desta observação em relação à média de seu grupo, com a variação desta observaçãoem relação à média do j-ésimo bloco em que se encontra esta observação, com a variação do erro experimental “. Elevando-se ao quadrado os dois membros da identidade acima e somando em relação aos índices i e j, obtemos:

,)(

)()()(

1 1

2

1 1

22

1 1 1 1

2

k

i

r

jjiij

k

i

r

jj

k

i

r

j

k

i

r

jiijij

yyyy

yyyyyy

Descrição de cada termo da expressão acima. O termo

k

i

r

jij

i

yy1 1

2)( ,

é denominado de Soma de Quadrados Total e vamos denotá-lo por SQT.O número de graus de liberdade associado à SQT é kr - 1, ou N – 1, pois temos N observações e a restrição

k

i

r

jij

i

yy1 1

0)( .

O termo:

k

i

r

ji

i

yy1 1

2)( ,

é denominado de Soma de quadrados de tratamentos, representada por SQTr, e é uma medida da variabilidade entre os tratamentos. Quanto mais

Estatística Experimental

96

diferentes entre si forem as médias dos tratamentos, maior será a SQTr. Desde que temos k tratamentos e a restrição de que

0yyk

1i

i

)( ,

a SQTr está associada a k-1 graus de liberdade. O termo

k

1i

r

1j

2

j

i

yy )( ,

é denominado de Soma de quadrados de blocos, representada por SQB, e é uma medida da variabilidade entre os blocos. Quanto mais diferentes entre si forem as médias dos blocos, maior será a SQB, justificando assim, a utilização do delineamento em blocos. Desde que temos r blocos e a restrição

0)(1

r

jj yy ,

a SQB está associada a r-1 graus de liberdade. Finalmente, o termo

,)(1 1

2

k

i

r

jjiij yyyy

é denominado SQR. Notem que a magnitude da SQR não depende da diferença entre as médias dos tratamentos. Os graus de liberdade associada à SQR é (k-1)(r-1), isto é, o produto dos graus de liberdade dos tratamentos e blocos. Assim,

SQRSQTrSQBSQT ,

e os graus de liberdade associados a cada membro da equação acima fica total blocos tratamentos resíduo

kr-1 = (r-1) + (k-1) + (k-1)(r-1)

7 Quadrado médios. Dividindo a SQB, SQTr e SQR pelos correspondentes graus de

liberdade, obtemos, respectivamente o Quadrado Médio Blocos (QMB), o Quadrado Médio Entre Tratamentos (QMTr) e o Quadrado Médio Resíduo, isto é,

)1)(1(11

rk

SQRQMRe

k

SQTrQMTre

r

SQBQMB

8 Estatística e região crítica do teste

A estatística para o teste é

QMR

QMTrFc ,

a qual, deve ser próximo de 1 se H0 for verdadeira, enquanto que valores grandes dessa estatística são uma indicação de que H0 é falsa. A teoria nos assegura que Fc tem, sob H0 distribuição F – Snedecor com (k -1) e (k-1)(r-1) graus de liberdade no numerador e no denominador, respectivamente.

Resumidamente, indicamos:

0)),1)(1(,1( ,~ HsobFF rkkc .

Rejeitamos H0 para o nível de significância se

Estatística Experimental

97

)),1)(1(,1( rkkc FF ,

sendo, )),)((,( 1r1k1kF o quantil de ordem )( 1 da distribuição F-Snedecor

com (k -1) e (k-1)(r-1) graus de liberdade no numerador e no denominador.

9 Quadro de análise de variância (anova) Dispomos as expressões necessárias ao teste na Tabela abaixo,

denominada de Quadro de Análise de Variância (ANOVA). Fonte de variação gl SQ QM F

Blocos

r – 1 kr

Y

k

Yr

j

j2

1

2)(

1r

SQB

Tratamentos

k - 1 kr

Y

r

Yk

i

i2

1

2 )(

1k

SQTr

QMR

QMTr

Resíduo

(k-1)(r-1)

))(( 1r1k

SQR

TOTAL

kr – 1

k

i

r

Jij

kr

YY

1 1

22 )(

Pode-se provar que:

2QMRE )( , ou seja, QMR é um estimador não viesado da

variância 2 ;

k

ii

k

rQMTrE

1

2

)1()( , ou seja, QMTr é um estimador não

viesado da variância 2 se a hipótese 0H k210 ...: é

verdadeira.

r

1j

j

2

1r

kQMBE

)()(

10 Detalhes computacionais

Apresentaremos alguns passos que facilitam os cálculos das somas de quadrados da ANOVA.

Calcule a correção para a média N

yCM

2)( ;

Calcule a Soma de Quadrados dos Totais (SQT)

CMySQTk

1i

r

1j

2

ij

;

Calcule a Soma de Quadrados Entre os Tratamentos (SQTr)

CMr

YSQTr

r

1i

2

i

;

Calcule a Soma de Quadrados de blocos (SQB)

CMk

YSQB

r

1j

2

j

;

Calcule a Soma de Quadrados Residual (SQR) pela diferença, isto é, SQBSQTrSQTSQR ;

Estatística Experimental

98

Calcule o Quadrado Médio entre os Tratamentos (QMTr) e o Quadrado Médio Residual (QMR)

))((,

1r1k

SQRQMRe

1k

SQTrQMTr

1r

SQBQMB

Calcule Fc para tratamentos QMR

QMBFe

QMR

QMTrF cBlcTr

11 Exemplo 1 Vamos considerar os dados apresentados no item1. Os cálculos para montar-mos o quadro da ANOVA são:

k = 3, r = 4, e kr = N =(3)(4) =12. Então

Graus de liberdade:

6231r1kse3141rBlo

2131kTrat111121431N1krTotal

))(())((Recos

.;))((

201227512

80383CM

2

,),(

548481122683512353

CM335329728SQT 222

,,,

),(...),(),(

066681122688712334

CM4

3136

4

6132

4

8114SQTr

222

,,,

),(),(),(

071181122688812279

CM3

398

3

795

3

498

3

391SQB

2222

,,,

),(),(),(),(

417071106665484SQBSQTrSQTSQR ,,,,

2416

417QMRe693

3

0711QMB0333

2

0666QMTr ,

,,

,,,

,

992241

693

QMR

QMBFe6426

241

0333

QMR

QMTrF cBlcTr ,

,

,,

,

,

Organizando estes resultados no Quadro da ANOVA, temos: Fonte de variação g.l. SQ QM Fc

Dietas 2 66,06 33,03 26,75

Ninhadas 3 11,07 3,69 2,99

Resíduo 6 7,41 1,235

Total 11 84,54

Das tabelas das distribuições F, temos que

9210Fe145F 0106205062 ,, ),,,(),,,( . O valor FcTr = 26,75 é maior do que estes

valores tabelados, então rejeitamos a hipótese nula H0 para um nível %,, 1ou010 de probabilidade (se é significativo a 1%, também é

significativo a 5%), e concluímos que existe uma diferença entre as três dietas. As conclusões sobre as diferenças entre os efeitos de ninhadas (blocos) podem ser baseadas no Fc para blocos (FcBl = 2,98 com p=0,118). Os resultados indicam que não existe uma variação significativa entre as ninhadas nos ganhos de peso.

Estatística Experimental

99

O teste F da ANOVA para os blocos é um teste aproximado mesmo quando as suposições são satisfeitas. Alguns pesquisadores sugerem que não se considere o efeito colocado nos blocos em futuros estudos similares, somente se o valor mínimo significativo (valor de p) associado à estatística calculada for maior ou igual a 0,25 ),( 250p . Para estes dados, FcBl = 2,99

tem um p = 0,118. Portanto, mesmo que existe insuficientes evidências para

rejeitar 0H j0 : , ou seja, não existe efeito de ninhada, não é uma boa idéia

ignorar os efeitos de ninhada em futuros estudos. O script no R para obter os resultados acima é apresentado abaixo # lendo o arquivo dieta.txt e armazenando no objeto dados dados.ex1 <- read.table("dieta.txt",h=T) head(dados.ex1) Se quisermos calcular a média de gpeso e digitarmos o comando mean(gpeso) o programa dará como resposta: Erro em mean(gpeso) : objeto 'gpeso' não encontrado É necessário mostrar o caminho de procura dos objetos. Ou seja, quando voce usa um nome do objeto o R vai procurar este objeto no caminho indicado, na ordem apresentada. Pois bem, podemos “adicionar” um novo local neste caminho de procura e este novo local pode ser o objeto dados.ex1. Digite o seguinte comndo e compare com o anterior: # anexando o objeto dados.ex1 no caminho de procura attach(dados.ex1) # cálculo da média da coluna com dados de ganho de peso (gpeso) mean(gpeso) # mostra o caminho agora com o objeto dados.ex1 incluído search() # gráficos box-plot para cada dieta com a cor 5 boxplot(gpeso~dieta,col=5) # estatisticas descritivas do box-plot de cada dieta e.des<- tapply(gpeso,dieta,summary) e.des # média do ganho de peso de cada dieta m.gpeso <- tapply(gpeso,dieta,mean) m.gpeso # desvio padrão do ganho de peso de cada dieta sd.gpeso <- tapply(gpeso,dieta,sd) sd.gpeso # análise de variância

Estatística Experimental

100

gpeso.av <- aov(gpeso~factor(ninhada) + factor(dieta)) summary(gpeso.av) # outra forma de se obter as médias do gpeso das dietas e das ninhadas model.tables(gpeso.av,type="means") # efeitos das dietas e das ninhadas model.tables(gpeso.av,type="effects") # obtendo os resíduos de cada observação residuos <- resid(gpeso.av) residuos # gráfico Q-Q da normalidade qqnorm(residuos,pch=16,col=1) qqline(residuos,lwd=2,col=2) # teste de normalidade de Shapiro-Wilks para os resíduos shapiro.test(residuos) # teste de Bartlett para a igualdade das variância populacionais das dietas bartlett.test(gpeso~factor(dieta)+factor(ninhada))

Outra forma de se obter estes resultados é pelo pacote ExpDes com a função rbd( ) # requerendo o pacote ExpDes require(ExpDes) # anova pelo ExpDes rbd(dieta,ninhada,gpeso,quali=T,mcomp="tukey")

Atenção! Para retirar o objeto do caminho de procura basta digitar detach(dados.ex1) # mostra o caminho agora com o objeto dados.ex1 excluído search() NOTA IMPORTANTE: Sempre use detach () antes de anexar um novo arquivo de dados, especialmente se as colunas dos dois arquivos tem nomes idênticos, se não haverá problemas! 12 Estimação de uma parcela perdida

Um problema relativamente sério deste tipo de delineamento ocorre quando perdemos uma (ou mais) parcela(s) durante o desenvolvimento do experimento. Vamos considerar o seguinte exemplo: Exemplo:

Classe de idade (Blocos)

Trat. 1 2 3 4 Total

A 15 11 20 18 64 B 22 31 45 26 124 C 33 37 * 30 100 D 44 31 49 34 158 E 37 30 36 21 124

Total 151 140 150 129 570

Estatística Experimental

101

A generalização destes dados pode ser representada no quadro abaixo

Blocos

Trat. 1 2 3 ... j ... r Total

1 Y11 Y12 Y13 ... ... ... Y1r 1Y

2 Y21 Y22 Y23 ... ... ... Y2r

2Y

.

.

. i . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

...

...

...

i jY

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. ´

iY

. .

K Yk1 Yk2 Yk3 ... ... ... Ykr iY

Total

1Y 2Y ...

´

jY ... rY

´

Y

sendo:

.tan

;tan

;

cos;

´

´

´

perdidaparcelaaocorreuondebloconotesresparcelasdastotaloY

perdidaparcelaaocorreuondetratamentonotesresparcelasdastotaloY

sdisponíveiparcelasdastotaloY

blodenúmeroorestratamentodenúmerook

perdidaparceladaestimativaaY

j

I

ij

Uma solução interessante para o caso da perda de uma parcela consiste em estimar seu valor usando a fórmula:

)1)(1(ˆ

´´´

rk

YrYkYY jI

ij

No exemplo acima, temos uma parcela perdida no tratamento C no bloco 3 (classe de idade). Nestes dados temos:

;570100,150,4,5 ´´

3

´

3 YeYYrk

a estimativa da parcela é dado por

17,44)14)(15(

570)150(4)100(5ˆ

ijY

Este valor deve ser substituído no lugar do dado perdido e a análise é feita como anteriormente. A única diferença é que se perde um grau de liberdade no resíduo, obtendo-se o seguinte quadro de análise de variância:

Fonte de Variação g.l. SQ QM Fc

Blocos 3 488,56 162,86

Tratamentos 4 1289,00 322,25 10,21

Resíduo 11 347,18 31,56

Total 18 2124,75

F(4; 11; 0,05) = 3,36; F(4; 11; 0,01) = 5,67; F(3; 11; 0,05) = 3,59 ; F(3; 11; 0,01) = 6,62

Estatística Experimental

102

Observação: Nessa última análise, o quadrado médio do resíduo está

corretamente estimado, mas aquele correspondente a tratamento está ligeiramente exagerado. Para corrigi-lo, basta subtrair da SQTr a seguinte quantidade:

2)1

ˆ(1

k

YY

k

kU j

ij

Então, temos: 59,35)15

15017,44(

5

15 2

U , logo a SQTr

correta fica igual a SQTr = 1289,00 – 35,59 = 1253,41 e a QMTr = 313,35.

Fc = 9,93. Como o valor de ),:,( 050114c FF a conclusão sobre a presença

de pelo menos um efeito de tratamento não nulo, continua valendo. OBS: Muitas vezes, dispensa-se o uso dessa correção, já que nem

sempre ela altera os resultados. Entretanto, na dúvida, devemos aplicar essa correção.

Fazendo esta mesma análise no MiniTab, com asterisco no lugar da parcela perdida temos o seguinte resultado

General Linear Model: Y versus Bloco; Trat Factor Type Levels Values Bloco fixed 4 1 2 3 4 Trat fixed 5 A B C D E Analysis of Variance for Y, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P Bloco 3 333.40 400.48 133.49 4.23 0.032 Trat 4 1253.42 1253.42 313.35 9.93 0.001 Error 11 347.18 347.18 31.56 Total 18 1934.00

Reparem que a SQTr já esta corrigida, ou seja, quando se usa o

MiniTab ou o SAS não é necessário estimar a parcela e depois substituí-la nos dados e fazer a ANOVA. Nestes programas a correção da SQTr é feita automaticamente. No MiniTab é necessário seguir os seguintes passos:

Stat/ANOVA/General Linear Models e nesta janela colocar os termos do modelo em “Model” na ordem apresentada.

Estatística Experimental

103

Antes de acionar o OK nesta janela vá à janela “General Model – Options” marcar na Sum of Square a opção Adjusted (Type III) e OK

13 Análise de variância de medidas repetidas Um delineamento experimental de medidas repetidas é aquele, no qual

várias medidas são feitas na mesma unidade experimental (geralmente animal), e estas medidas repetidas constituem as repetições. Para ilustrar melhor esta característica vamos considerar o exemplo 2, item 11 da Aula 3 , pg 38. Neste exemplo tínhamos 4 amostras independentes de animais e todos os animais de cada grupo foram alimentados, depois do sorteio, com uma das 4 dietas. Nos delineamentos de medidas repetidas não existe amostras independentes de animais, ao contrário, cada um dos 5 animais terão seus pesos medidos depois que foram submetidos a uma determinada dieta, depois de um certo período de tempo, os mesmos cinco animais terão seus pesos avaliados depois de terem sidos submetidos a outra dieta, e assim sucessivamente, até serem submetidos a todas as dietas. A tabulação dos dados pode ser bem parecida com a representação dos dados do DBC. Neste exemplo podemos ter:

Dietas

Animais 1 2 3 4 Total

1 Y11 Y12 Y13 Y14 Y1+ 2 Y21 Y22 Y23 Y24 Y2+ 3 Y31 Y32 Y33 Y34 Y3+ 4 Y41 Y42 Y43 Y44 Y4+ 5 Y51 Y52 Y53 Y54 Y5+

Total Y+1 Y+2 Y+3 Y+4 Y++

Os resultados dos cálculos da ANOVA de um delineamento de medidas

repetidas são os mesmos de uma análise de um DBC. A grande vantagem deste tipo de delineamento é o seu econômico requerimento de unidades experimentais (animais). Este delineamento tem desvantagens se existe um efeito por causa da seqüência em que os tratamentos são administrados (dietas no presente exemplo) aos animais. Outra desvantagem surge se o tempo entre a aplicação de diferentes tratamentos é insuficiente para evitar a sobreposição de efeitos do tratamento anterior.

Estatística Experimental

104

Exemplo 3 Considere o conjunto de dados abaixo os quais se referem a níveis de concentração de colesterol (mg/dl) em sangue de 7 animais experimentais, depois que foram tratados cada um com uma das três drogas, com suficiente tempo entre as aplicações das drogas para que seu efeito desaparecesse do animal.

Drogas

Animal A B C Total

1 164 152 178 494 2 202 181 222 605 3 143 136 132 411 4 210 194 216 620 5 228 219 245 692 6 173 159 182 514 7 161 157 165 483

Total 1281 1198 1340 3819

A hipótese de interesse é que a média do nível de colesterol no sangue é a mesma independente da droga (tratamento). (Extraído de ZAR, J. H. Biostatistical Analysis, pg. 255, 1999)

diferentesmédiasduasmenospeloH

H

1

3210

:

:

Script no R para obter os resultados do exemplo 3 Analysis of Variance for N_C, using Sequential SS for Tests Source DF Seq SS Adj SS Seq MS F P Animal 6 18731.2 18731.2 3121.9 53.88 0.000 Droga 2 1454.0 1454.0 727.0 12.55 0.001 Error 12 695.3 695.3 57.9 Total 20 20880.6

Conclusão: rejeita-se H0

# removendo todos os objetos definidos anteriormente rm(list=ls(all=TRUE)) # Entrando com os dados pelo comando read.table( ) dados.ex3 <- read.table("ex3dbc.txt",h=T) head(dados.ex3) # anexando o objeto dados.ex3 no caminho de procura attach(dados.ex3) # definindo o objeto animal como um fator animal<-factor(animal) # quadro da anova pela função aov( ) colesterol.av <- aov(colesterol~animal+droga) summary(colesterol.av) model.tables(colesterol.av) residuos<-resid(colesterol.av) residuos qqnorm(resíduos,pch=16,col=1)

Estatística Experimental

105

qqline(residuos,lwd=2,col=2) shapiro.test(residuos) bartlett.test(colesterol~animal+droga)

Utilizando os recursos do pacote agricolae # requerendo o pacote agricolae require(agricolae) colesterol.tu<- HSD.test(colesterol.av ,"droga") colesterol.tu # gráfico de barras das médias com o desvio padrão pelo agricolae bar.err(colesterol.tu ,ylim=c(0,250),std=TRUE,density=10, col="brown",main="Média +/- Desvio Padrão") bar.err(colesterol.tu,ylim=c(0,250),std=FALSE,density=2,col="brown",main="Média +/- erro padrão") # gráfico de barras das médias com o erro padrão pelo agricolae bar.group(colesterol.tu,ylim=c(0,250),std=FALSE,density=2, col="brown", xlab="Drogas",main="Teste de Tukey")

Utilizando os recursos do pacote ExpDes # requerendo o pacote ExpDes require(ExpDes) # anova pelo ExpDes rbd(droga,animal,colesterol,quali=T,mcomp="tukey") # retirando o objeto dados.ex3 do caminho de procura detach(dados.ex3)

Estatística Experimental

106

6º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL

1 - Contagens médias de linfócitos de células de ratos (1000/mm3) foram comparadas dando

uma de duas drogas ou um placebo (controle). Ninhadas de ratos do mesmo sexo foram usadas para formar blocos homogêneos de 3 ratos cada; dentro de cada bloco, 3 tratamentos foram sorteados ao acaso. Parece razoável assumir que os efeitos dos três tratamentos deve ser relativamente constante para vários genótipos de ratos para diferentes ninhadas.

Tratamentos

Blocos

I II III IV V VI VII

Placebo 5,4 4,0 7,0 5,8 3,5 7,6 5,5

Droga 1 6,0 4,8 6,9 6,4 5,5 9,0 6,8

Droga 2 5,1 3,9 6,5 5,6 3,9 7,0 5,4

a) Escrever o modelo matemático deste experimento e estabelecer as hipóteses estatísticas H0 e H1 para testar os efeitos dos tratamentos.

b) Montar o quadro da análise de variância para testar as hipóteses do item a). c) Fazer o gráfico de barras das médias dos tratamentos com o desvio padrão. d) Calcular as médias dos tratamentos e o erro padrão das médias com base na variância

conjunta do experimento (QMR da ANOVA). e) Faça um gráfico dos itens c) e d). f) Verificar pelo teste de Dunnett se os efeitos de cada droga diferem do controle (trat1). g) Calcular os coeficientes de variação (CV) e de determinação (R

2.) do experimento.

2- A Tabela abaixo mostra os dados da produção de leite, de vacas da raça Gir, filhas de 3 touros, na 1ª, 2ª e 3ª parições, em 305 dias de lactação, delineados segundo um DBC. com amostragem na parcela.

Touros Parições (Blocos) Total

I II III

1 1750 1650 1600 2250 2200 2220 2400 2650 2610 19330

2 1250 1150 1120 1750 1600 1350 1800 1900 1710 13630

3 1600 1700 1900 2300 2400 2200 2700 2750 2680 20230

Total 13720 18270 21200 53190

Pede-se: a) Escrever o modelo matemático deste experimento e estabelecer as hipóteses estatísticas H0 e H1 b) Montar o quadro da análise de variância e testar as hipóteses do item a). c) Calcular as médias dos tratamentos e o erro padrão das médias com base na variância comum (QMR da ANOVA). d) Fazer o gráfico de barras das médias dos tratamentos com o erro padrão. e) Verificar, pelo teste de Tukey, se existem diferenças entre as médias dos touros. f) Calcular o coeficiente de variação e de determinação do experimento R

2 do experimento.

3 - Num experimento objetivando verificar a influência da suplementação concentrada de enzimas amilolíticas, celulolíticas e proeolíticas sobre o ganho de peso em ovinos da raça ideal (POLWARTH), criados a pasto, foram utilizados os seguintes tratamentos:

1 - Pasto de Cynodon dactylon + ração concentrada 2 - Pasto de Cynodon dactylon + ração concentrada + BIOVITASE 3 - Pasto de Cynodon dactylon + ração concentrada + PANASE-S 4 - Pasto de Cynodon dactylon ( Testemunha)

O experimento foi em blocos ao acaso, com 5 blocos e 4 tratamentos, e os resultados obtidos para o ganho de peso médio, em kg, durante o experimento foram:

Blocos

Tratamentos I II III IV V

1- Cynodon dactilon (testemunha) 6,10 5,80 3,60 5,30 6,30

2- Ração Concentrada (RC) 10,90 13,75 14,50 11,70 13,10

3- RC + BIOVITASE 11,70 16,28 14,40 15,50 11,60

4- RC + PANASE-S 16,80 14,10 8,60 16,10 14,30

Pede-se:

Estatística Experimental

107

a) Estabelecer as hipóteses estatísticas H0 e H1 b) Montar o quadro da análise de variância e testar as hipóteses do item a). c) Calcular as médias dos tratamentos e erros padrões das médias. d) Use o teste de Dunnett para testar os tratamentos que diferem da testemunha (RC). e) Definir 3 contrastes ortogonais de interesse entre as médias dos tratamentos e testá-los através da análise de variância. (decomposição dos graus de liberdade). f) Calcular os coeficientes de variação e de determinação do experimento. 4 - Num experimento estudou-se o efeito do farelo de arroz desengordurado (FAD) ) como fatores de retardamento da maturidade sexual de frangas. O ensaio, organizado em blocos completos casualizados, abrangeu duas fases distintas e foi constituído de 5 tratamentos e 5 repetições com 8 aves por unidade experimental. A 1ª fase iniciada quando as aves atingiram 9 semanas de idade, teve duração de 12 semanas. As pesagens eram efetuadas com intervalos de duas semanas, e o consumo de ração era registrado também com intervalo de duas semanas. Os tratamentos, na 1ª fase eram formados por rações que continham 0, 15, 30, 45, 60 % de FAD em substituição ao milho. Os resultados obtidos na 1ª fase do ensaio, para conversão alimentar foram os seguintes:

Tratamentos 1º Bloco 2º Bloco 3º Bloco 4º Bloco 5º Bloco

A - 0% de FAD 6,5 6,4 6,2 5,8 7,3

B - 15% de FAD 7,1 7,4 6,9 7,3 7,0

C - 30% de FAD 7,5 8,1 6,7 7,4 7,7

D - 45% de FAD 8,4 8,5 8,7 8,3 7,9

E - 60% de FAD 9,3 9,9 9,5 8,5 8,9

Fazer a análise de variância e caso haja significância entre os tratamentos fazer a decomposição dos graus de liberdade dos tratamentos por meio da técnica dos polinômios ortogonais (regressão linear, quadrática, etc.). Ajuste a equação de regressão linear às médias

dos tratamentos.

5 - No estudo do ganho de peso de porcos guinea, quatro dietas foram testadas. Vinte animais foram usados neste experimento, 5 animais para cada dieta. Entretanto o pesquisador acreditou que alguns fatores ambientais podem afetar o ganho de peso. Não foi possível reunir os 20 animais em uma mesma condição ambiental. Portanto, foram estabelecidos 5 blocos de unidades experimentais sob idênticas condições de temperatura, luz, etc.

Dietas

Blocos 1 2 3 4

1 7,0 5,3 4,9 8,8 2 9,9 5,7 7,6 8,9 3 8,5 4,7 5,5 8,1 4 5,1 3,5 2,8 3,3 5 10,3 7,7 8,4 9,1

a) Estabelecer as hipóteses estatísticas H0 e H1 b) Montar o quadro da análise de variância e testar as hipóteses do item a). c) Fazer o gráfico de barras das médias dos tratamentos com o erro padrão. d) Verificar, pelo teste de Tukey, se existem diferenças entre as médias das dietas. Qual foi a dieta que proporcionou o melhor ganho de peso? e) Calcular o coeficiente de variação e de determinação do experimento R

2 do experimento.

6- Os resultados apresentados pelo programa R a uma análise de dados de um experimento

foram: Response: dados Df Sum Sq Mean Sq F value Pr(>F) blocos 3 37.35 12.45 2.7978 0.08549 . tratamentos 4 2530.20 632.55 142.1461 5.361e-10 *** Residuals 12 53.40 4.45 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Estatística Experimental

108

a) Interprete estes resultados b) As médias dos tratamentos são apresentadas abaixo: Trat A Trat B Trat C Trat D Trat E 12.75 23.50 37.00 45.00 34.50

Analisando os resultados da saída do Teste de Tukey preencha a tabela abaixo com as médias seguidas das letras. $tratamentos diff lwr upr p adj Trat B-Trat A 10.75 5.995488 15.504512 0.0000864 Trat C-Trat A 24.25 19.495488 29.004512 0.0000000 Trat D-Trat A 32.25 27.495488 37.004512 0.0000000 Trat E-Trat A 21.75 16.995488 26.504512 0.0000000 Trat C-Trat B 13.50 8.745488 18.254512 0.0000085 Trat D-Trat B 21.50 16.745488 26.254512 0.0000001 Trat E-Trat B 11.00 6.245488 15.754512 0.0000689 Trat D-Trat C 8.00 3.245488 12.754512 0.0012997 Trat E-Trat C -2.50 -7.254512 2.254512 0.4820549 Trat E-Trat D -10.50 -15.254512 -5.745488 0.0001086

Tratamentos Médias

Estatística Experimental

109

Aula 7 Delineamento Quadrado Latino (DQL). 1 Introdução

No delineamento Quadrado Latino os tratamentos são designados aos blocos de duas maneiras diferentes, geralmente designados por colunas e linhas. Cada coluna e cada linha é um bloco completo de todos os tratamentos. Portanto, em um DQL, três fontes de variação explicáveis são identificáveis: linhas, colunas e tratamentos. Um particular tratamento é designado somente uma vez em cada linha e cada coluna. Geralmente um dos blocos corresponde aos animais e o outro ao período. Cada animal receberá todos os tratamentos em diferentes períodos. O número de tratamentos (k) é igual ao número de linhas e colunas. O número total de observações é igual k2. Se os tratamentos são designados por letras maiúsculas (A, B, C e D, etc.), então exemplos de Quadrados Latinos 3 x 3 e 4 x 4 são:

A C B C A B A B D C C D B A B A C A B C C A B D D B A C C B A B C A B D C A B A C D D C A B A C D B

Considere a seguinte situação (baseado em VIEIRA, 2006, pág. 18): Um veterinário pretende comparar o efeito de três drogas no combate a uma doença em suínos. Os animais disponíveis são, no entanto, diferentes em raças e em pesos. Para fazer o experimento, o veterinário deve, primeiro organizar blocos de animais de mesma raça (em coluna) e depois organizar em peso (em linha). Na Figura abaixo: a raça está representada pela tonalidade da cor preta e o peso pelo tamanho. Então foram construídos blocos em “colunas” e “linhas”

Construído o quadrado latino, sorteiam-se os tratamentos, mas cada

tratamento só deve aparecer uma vez em cada “coluna” e uma vez em cada “linha”. Assim o sorteio dos tratamentos tem duas restrições: “dentro” de linhas e dentro de “colunas”

Os DQL não são comuns na prática devido às restrições do

delineamento. Notem, por exemplo, que linhas, colunas e tratamentos são, necessariamente, iguais em números. Mais ainda, o nº de observações é igual ao quadrado do nº de tratamentos.

Considere este outro exemplo, extraído de Rao, P.V. Statistical research methods in the life science, pg 727: Em um estudo para comparar as tolerâncias de gatos a quatro substâncias cardíacas (A, B, C, D) foi conduzida

Estatística Experimental

110

utilizando-se um DQL, no qual as linhas representavam quatro combinações de dois períodos (A.M. , P.M.) e duas técnicas (I e II) e as colunas representam os dias nos quais as medidas foram feitas. A cada um dos 16 gatos foi administrada uma substância cardíaca a uma taxa fixada e a dose (taxa de infusão x tempo) na qual o efeito especificado foi observado foi anotado. Abaixo temos que mostra as respostas medidas em 10log(dose em μg).

1 2 3 4 ..iY

iY

I,AM )(11 DY

3,26

)(12 BY

4,15

)(13 AY

3,02

)(14 CY

3,67 1Y

14,10 1Y

I,PM )(21 BY

2,73

)(22 DY

3,38

)(23 CY

3,29

)(24 AY

4,50 2Y

13,90 2Y

II,AM )(31 AY

3,45

)(32 CY

4,09

)(33 BY

2,66

)(34 DY

3,51 3Y

13,71

3Y

II,PM )(41 CY

3,20

)(42 AY

3,14

)(43 DY

3,48

)(44 BY

3,40

4Y

13,22 4Y

jY 1Y

12,64 2Y

14,76 3Y

12,45 4Y

15,08 Y

54,93

jY 1Y

2Y

3Y

4Y

Y

Totais dos tratamentos: 11,1414,345,350,402,3)()()()()( 42312413 AYAYAYAYAY

94,1240,366,273,215,4)()()()()( 44332112 BYBYBYBYBY

25,1420,309,429,367,3)()()()()( 41322314 CYCYCYCYCY

63,1348,351,338,326,3)()()()()( 43342211 DYDYDYDYDY

Notação:

iY = soma das observações da i-ésima linha (i = 1, 2,..., k);

iY = soma das observações da j-ésima coluna (j=1,2, ..., k);

)( tY = soma das observações do t-ésimo tratamento

Organização dos arquivos: No excel: ex1.xls No bloco de notas: ex1.txt

Linha coluna trat tx.inf

TI_AM DIA1 D 3.26

TI_AM DIA2 B 4.15

TI_AM DIA3 A 3.02

TI_AM DIA4 C 3.67

TI_PM DIA1 B 2.73

TI_PM DIA2 D 3.38

TI_PM DIA3 C 3.29

TI_PM DIA4 A 4.50

TII_AM DIA1 A 3.45

TII_AM DIA2 C 4.09

TII_AM DIA3 B 2.66

TII_AM DIA4 D 3.51

TII_PM DIA1 C 3.20

TII_PM DIA2 A 3.14

TII_PM DIA3 D 3.48

TII_PM DIA4 B 3.40

linha coluna trat tx.Inf TI_AM DIA1 D 3,26 TI_AM DIA2 B 4,15 TI_AM DIA3 A 3,02 TI_AM DIA4 C 3,67 TI_PM DIA1 B 2,73 TI_PM DIA2 D 3,38 TI_PM DIA3 C 3,29 TI_PM DIA4 A 4,50 TII_AM DIA1 A 3,45 TII_AM DIA2 C 4,09 TII_AM DIA3 B 2,66 TII_AM DIA4 D 3,51 TII_PM DIA1 C 3,20 TII_PM DIA2 A 3,14 TII_PM DIA3 D 3,48 TII_PM DIA4 B 3,40

2 Modelo matemático

Dias

Combinações de tempo e técnicas

Estatística Experimental

111

colunaésimajelinhaésimaina

usadotratamentodoçãoidentificadeindiceoét

kjekiCLY ijtkjiijt

,,,2,1,,2,1

sendo:

.

;0,

;

;

;

;

,

aleatórioerrodoefeitooé

etratamentoésimotdofixoefeitoé

colunaésimajdaefeitoéC

linhaésimaidaefeitooéL

sobservaçõeastodasacomumgeralmédiaé

colunaésimajnae

linhaésimainatratamentoésimokorecebeuqueobservaçãoay

ijt

ttt

j

j

ijk

3 Suposições do modelo Neste modelo, supõem-se que:

);,0( 2

Lj NtesindependensãoL

;),0( 2

Cj NtesindependensãoC

),0( 2 Ntesindependensãoit

jiijt CeL ,, são mutuamente independentes.

4 Hipótese estatística Podemos testar

0:

,0:

1

0

t

t

ostodosnemH

H

, ou

jiparaH

H

ji

t

:

...:

1

210

Geralmente os testes de hipóteses com relação aos efeitos de linhas e colunas não são feitos por dois motivos: primeiro o interesse principal é testar os efeitos de tratamento, e o propósito usual de linhas e colunas é eliminar fontes estranhas de variação.

5 Participação da soma de quadrados Do quadro de representação das observações no DQL, podemos notar os seguintes desvios:

Podemos identificar os seguintes desvios:

yy ijt , como o desvio de uma observação em relação à média

geral;

yy ijt , como o desvio da média do t-ésimo tratamento em

relação à média geral;

yy i , como o desvio da média da i-ésimo linha em relação á

média geral;

yy j como o desvio da média da j-ésima coluna em relação

á média geral; Então, podemos escrever a igualdade:

)2()()()()( . YYYYYYYYYYYYY ijjiijttjiijta

qual representa a “ a variação de uma observação em relação à média geral

Estatística Experimental

112

amostral como uma soma da variação da média da i-ésima linha em relação à média geral, com a variação da média da j-ésima coluna em relação à média geral, com a variação da média da j-ésima coluna em relação à média geral, com a variação da média do k-ésima tratamento em relação à média geral, e com a variação do erro experimental “. Elevando-se ao quadrado os dois membros da identidade acima e somando em relação aos índices i e j, obtemos:

,)2(

)()()()(

1 1 1

2

.

1

2

1

2

1

2

1 1

2

k

i

k

j

k

tijjiijk

k

tk

k

jj

k

ii

k

i

k

jijk

YYYYY

YYYYYYYY

ou seja, a Soma de Quadrados do Total (SQT) é igual à Soma de Quadrados do efeito colocado nas linhas (SQL), mais a Soma de Quadrados do efeito colocado nas colunas (SQC), mais a Soma de Quadrados dos Tratamentos (SQTr), mais a Soma de Quadrados dos resíduos (SQR). Notem que existem k2 observações, então a SQT tem (k2 -1) graus de liberdade. Existe k – linhas, k – colunas e k – tratamentos, tal que cada uma das três soma de quadrados SQL, SQC e SQTr tem k-1 graus de liberdade. Finalmente, os graus de liberdade para SQR pode ser calculado pela diferença entre os graus de liberdade entre a SQT e soma dos graus de liberdade para linhas, colunas e tratamentos. ((k2-1)-(k-1)-k-1)-(k-1)=(k-1)(k-2)).

Assim, os graus de liberdade associados a cada membro da equação acima fica:

Total Linhas Colunas Tratamentos Resíduo ( k2 -1) = (k-1) + (k-1) + (k-1) + (k-1)(k-2)

6 Quadrados médios Dividindo a SQL, SQC, SQTr e SQR pelos correspondentes graus de

liberdade, obtemos, respectivamente o Quadrado Médio das Linhas (QML), o Quadrado Médio das Colunas (QMC) , o Quadrado Médio de Tratamentos (QMTr) e o Quadrado Médio Resíduo (QMR), isto é,

)2)(1(11,

1

kk

SQRQMRe

k

SQTrQMTre

k

SQCQMC

k

SQLQML

7 Estatística e região crítica do teste A estatística para o teste é

QMR

QMTrFc ,

a qual, deve ser próximo de 1 se H0 for verdadeira, enquanto que valores grandes dessa estatística são uma indicação de que H0 é falsa. A teoria nos assegura que Fc tem, sob H0 distribuição F – Snedecor com (k -1) e (k-1)(k-2) graus de liberdade no numerador e no denominador, respectivamente.

Resumidamente, indicamos:

0)),2)(1(,1( ,~ HsobFF kkkc .

Rejeitamos H0 para o nível de significância se

)),)((,( 2k1k1kc FF ,

sendo, )),)((,( 2k1k1kF o quantil de ordem )( 1 da distribuição F-Snedecor

com (k -1) e (k-1)(k-2) graus de liberdade no numerador e no denominador.

Estatística Experimental

113

8 Quadro da análise de variância (ANOVA) Dispomos as expressões necessárias ao teste na Tabela abaixo,

denominada de Quadro de Análise de Variância (ANOVA). Fonte de variação gl SQ QM F

Linhas

k - 1 2

2

1

2 )(

k

Y

k

Yk

i

i

1k

SQL

Colunas

k – 1 2

2

1

2)(

k

Y

k

Yk

j

j

1k

SQC

Tratamentos

k - 1 2

2

1

2 )(

k

Y

r

Yk

t

t

1k

SQTr

QMR

QMTr

Resíduo

(k-1)(k-2)

)2)(1( kk

SQR

TOTAL

K2 – 1

k

i

k

Jijt

k

YY

1 12

22 )(

Pode-se provar que:

2QMRE )( , ou seja, QMR é um estimador não viesado da

variância 2 ;

k

ii

k

rQMTrE

1

2

)1()( , ou seja, QMTr é um estimador não

viesado da variância 2 se a hipótese 0H k210 ...: é

verdadeira.

9 Detalhes computacionais Apresentaremos alguns passos que facilitam os cálculos das somas de

quadrados da ANOVA.

Calcule a correção para a média 2

2

k

yCM

)( ;

Calcule a Soma de Quadrados dos Totais (SQT)

CMySQTk

i

k

jijt

1 1

2 ;

Calcule a Soma de Quadrados Entre os Tratamentos (SQTr)

CMk

YSQTr

k

t

t

1

2

;

Calcule a Soma de Quadrados das Linhas (SQL)

CMk

YSQL

k

j

i

1

2

;

Calcule a Soma de Quadrados de Colunas (SQC)

CMk

YSQC

k

j

j

1

2

;

Estatística Experimental

114

Calcule a Soma de Quadrados Residual (SQR) pela diferença, isto é, SQTrSQCSQLSQTSQR ;

Calcule os Quadrados Médios Entre os Tratamentos (QMTr) e o Quadrado Médio Residual (QMR)

)2)(1(1,

1,

1

kk

SQRQMRe

k

SQTrQMTr

k

SQCQMC

k

SQLQML

Calcule Fc para tratamentos, linhas e colunas, ou seja,

QMR

QMCFe

QMR

QMLF

QMR

QMTrF CLcTr ,

10 Exemplo 1: Vamos considerar os dados do exemplo apresentado no item1. Os cálculos para montar-mos o quadro da ANOVA são:

k = 4, e k2 = N =16. Então

Graus de liberdade:

8242k1ks

e3141kColunas3141kLinhas

3141kTrat151161N1kTotal 2

))(())((Re

,

.;

5816,18816

)94,54( 2

CM

6055,35816,1881871,192

)40,3(...)15,4()26,3( 222

CMSQT

2331,05816,1888147,188

4

)63,13(

4

)25,14(

4

)94,12(

4

)11,14( 2222

CMSQTr

1065,05816,1886881,188

4

)22,13(

4

)71,13(

4

)90,13(

4

)10,14( 2222

CMSQL

4274,15816,1880090,190

4

)08,15(

4

)45,12(

4

)76,14(

4

)64,12( 2222

CMSQC

8384,14274,11065,02331,06055,3 SQCSQLSQTrSQTSQR

3015,06

8094,1

4758,03

4274,1,0355,0

3

1065,0,0771,0

3

2331,0

QMRe

QMCQMLQMTr

5530,13064,0

4758,0

1159,03016,0

0355,02899,0

3064,0

08741,0

QMR

QMCF

QMR

QMLFe

QMR

QMTrF

cC

cLcTr

Organizando estes resultados no Quadro da ANOVA, temos:

Estatística Experimental

115

Fonte de variação gl SQ QM F

Linhas 3 0,1065 0,0355

Colunas 3 1,4274 0,4758

Tratamentos 3 0,2331 0,08741 0,2899

Resíduo 6 1,8384 0,3015

TOTAL 15 3,6055

Das tabelas das distribuições F, temos que

789Fe764F 0106305063 ,, ),,,(),,,( . O valor FcTr = 0,2899 é menor do que estes

valores tabelados, então não rejeitamos a hipótese nula H0 para um nível %,, 5ou050 de probabilidade e concluímos que os dados não evidenciam

uma diferença significativa entre as quatros drogas. Os dados também não evidenciam uma variação significativa entre os efeitos colocados nas linhas (p=0,946) e nas colunas (p=0,290). Seguindo o que alguns pesquisadores sugerem não consideraríamos os efeitos de linhas e colunas em futuros experimentos, tendo em vista que o valor do nível de significância para linhas e colunas é superior a 0,25.

Script no R para a obtenção dos resultados acima # entrando com os dados pelo comando read.table( ) dados.ex1 <- read.table("ex1dql.txt",header=TRUE,dec=",") # imprimindo as 6 primeiras linhas do arquivo head(dados.ex1) # anexando o objeto dados.ex1 no caminho de procura attach(dados. ex1) # estatísticas resumo de cada nível dos tratamentos e.desc<- tapply(tx.inf,trat,summary) e.desc # tornando linha coluna e tratamentos como fatores linha<- factor(linha); coluna<- factor(coluna); trat <- factor(trat) # gráfico Box-plot para cada nível de trat boxplot(tx.inf~trat,col=2,xlab="Tratamentos")

# quadro da anova tx.inf.av<-aov(tx.inf~linha+coluna+trat) summary(tx.inf)

# obtendo o residuo residuo <- resid(tx.inf.av) # teste de normalidade dos resíduos shapiro.test(residuo) # teste de homogeneidade das variâncias bartlett.test(tx.inf~linha+coluna+trat)

Estatística Experimental

116

Utilizando os recursos do pacote ExpDes # requerendo o pacote ExpDes require(ExpDes) # quadro da anova pelo ExpDes latsd(trat,linha,coluna,tx.inf,quali=T) # retirando o objeto dados.ex1 do camnho de procura detach(dados.ex1)

Exemplo 2. Com o objetivo de estudar o efeito da idade da castração no desenvolvimento e produção de suínos, foi utilizado um delineamento em quadrado latino com 4 tratamentos envolvendo a castração aos 7 dias (C); aos 21 dias (D); aos 56 dias (A) e suínos inteiros (B). A variação existente entre as leitegadas foi controlada pelas linhas do quadrado e a variação dos pesos dos leitões dentro das leitegadas foi isolada pelas colunas. Os ganhos de peso, em kg, ao final do experimento (252 dias) estão apresentados no quadro a seguir:

Leitegada Classe de pesos dos leitões dentro das leitegadas

1 2 3 4 Totais 1 93,0 (A) 108,6 (B) 118,9 (C) 102 (D) 412,5 2 115,4 (B) 96,5 (D) 77,9 (A) 120,2 (C) 390,0 3 122,1 (C) 90,9 (A) 116,9 (D) 106,0 (B) 409,9 4 117,6 (D) 124,1 (C) 118,7 (B) 95,6 (A) 448,0

Totais 428,1 414,1 422,4 395,8 1660,4

Quadro da ANOVA

Fonte de variação gl SQ QM F

Leitegadas 3 436,55 49,65 0,72

Classe 3 148,95 145,52 2,11

Tratamentos 3 913,57 304,52 4,42

Resíduo 6 413,00 68,83

TOTAL 15 1912,07

Das tabelas das distribuições F, temos que

789Fe764F 0106305063 ,, ),,,(),,,( . O valor FcTr = 4,42 é menor do que estes

valores tabelados, então não rejeitamos a hipótese nula H0 para um nível %,, 5ou050 de probabilidade e concluímos que a hipótese de que os

efeitos de tratamento são todos nulos não é rejeitada, ou seja, os ganhos de peso dos leitões submetidos às diferentes idades de castração são todos iguais a 103,78.

Script no R para a obtenção destes resultados # leitura dos dados pelo read.table dados.ex2 <- read.table("ex2dql.txt",header=TRUE) # imprimindo as 6 linhas iniciais do arquivo head(dados.ex2) # anexando o objeto dados.ex3 no caminho de procura

Estatística Experimental

117

attach(dados.ex2) # estatísticas resumo dos dados do arquivo dados.ex2 e.desc<- tapply(peso,trat,summary) e.desc # gráfico Box-plot para cada nível de trat boxplot(peso~trat,col=2,xlab="Tratamentos") # fazendo a análise diretamente pelo ExpDes # requerendo o ExpDes require(ExpDes) # quadro da anova latsd(trat,leitegada,classe,peso,quali=T,mcomp="tukey") # retirando o objeto dados.ex2 do caminho de procura detach(dados.ex2) 11 Como contornar o problema do pequeno número de graus de liberdade do resíduo?

Um problema que surge quando usamos o delineamento em quadrado latino com um número pequeno de tratamentos, é que o resíduo passa a ser estimado com um número pequeno de graus de liberdade. No quadro a seguir, apresentamos o número de graus de liberdade do resíduo no DQL para diferentes números de tratamentos:

Número de tratamentos g.l. do resíduo

3 2

4 6

5 12

6 20

7 30

8 42

RESPOSTA: Planejar mais de uma repetição do quadrado latino para

conseguir um número satisfatório de graus de liberdade para o resíduo. Por exemplo, se k = 4 tratamentos e queremos um número de g.l. para o resíduo superior a 12, devemos fazer pelo menos r = 2 repetições do Q.L. original.

Solução 1: usar as mesmas linhas e mesmas colunas; QL1 C1 C2 C3 C4

QL2 C1 C2 C3 C4

L1 A B C D L1 D A B C

L2 B C D A L2 C D A B

L3 C D A B L3 B C D A

L4 D A B C L4 A B C D

Quadro da ANOVA resultante

Estatística Experimental

118

Causas de variação gl

QL r – 1 = 1

Tratamentos k – 1 = 3

Linhas k – 1 = 3

Colunas k – 1 = 3

Resíduo (k – 1)[ r (k + 1) – 3] = 21

Total r k2 – 1 = 31

Solução 2: usar as mesmas linhas com as colunas diferentes (ou

mesmas colunas com linhas diferentes); QL1 C1 C2 C3 C4

QL2 C5 C6 C7 C8

L1 A B C D L1 D A B C

L2 B C D A L2 C D A B

L3 C D A B L3 B C D A

L4 D A B C L4 A B C D

Quadro da ANOVA resultante

Causas de variação gl

QL r – 1 = 1

Tratamentos k – 1 = 3

Linhas k – 1 = 3

Colunas (QL) r ( k – 1 ) = 6

Resíduo (k – 1)(r k – 2 )= 18

Total r k2 – 1 = 31

Solução 3: usar linhas e colunas diferentes.

QL1 C1 C2 C3 C4

QL2 C5 C6 C7 C8

L1 A B C D L5 D A B C

L2 B C D A L6 C D A B

L3 C D A B L7 B C D A

L4 D A B C L8 A B C D

Quadro da ANOVA resultante

Causas de variação gl

QL r – 1 = 1

Tratamentos k – 1 = 3

Linhas (QL)* r ( k - 1) = 6

Colunas (QL)** r ( k - 1) = 6

Resíduo (k – 1) [ k (k – 1) –1]=15

Total r k2 – 1 = 31

(*) lê-se “Efeito de linhas dentro de quadrado latino” (**) lê-se “Efeito de colunas dentro de quadrado latino”

Suponha que um experimentador esteja interessado em estudar os

efeitos da atividade da estimulação hormonal folicular (follicle-stimulation hormone - FSH). Em vacas é medido em bio ensaios pesando-se o ovário (mg) de ratos imaturos. Duas variáveis conhecidas que influenciam no peso de ovários de ratos são: a constituição genética e o peso corporal. Acredita-se que o peso corporal é independente das diferenças genéticas, assim o delineamento quadrado latino (DQL) é adequado. Dois quadrados latinos 4 x 4 foram usados com as linhas = ninhadas de ratos e colunas = classes de peso corporal. O pesquisador considerou a diferença nos pesos corporais nos dois

Estatística Experimental

119

quadrados para preservar os graus de liberdade do erro experimental, dado que a amplitude do peso corporal era consistente de ninhada para ninhada, ou seja, o pesquisador repetiu o experimento considerando as mesmas classes de peso corporal.

(Solução 2).

QL1 C1 C2 C3 C4 Totais

QL2 C1 C2 C3 C4 Totais

L1 (D) 44 (C) 39 (B) 52 (A) 73 208 L5 (B) 51 (C) 74 (A) 74 (D) 82 281

L2 (B) 26 (A) 45 (D) 49 (C) 58 178 L6 (D) 62 (A) 74 (C) 75 (B) 79 290

L3 (C) 67 (D) 71 (A) 81 (B) 76 295 L7 (A) 71 (D) 67 (B) 60 (C) 74 272

L4 (A) 77 (B) 74 (C) 88 (D) 100 339 L8 (C) 49 (B) 47 (D) 58 (A) 68 222

Totais 214 229 270 307 1020 233 251 267 303 1065

Totais dos tratamentos: 563 (A), 465 (B), 524 (C), 533 (D) Cálculos:

69489132

10651020

4

222178208SQL

2222

,)(...

;

;,)()(...)(

09181932

10651020

8

303307233214SQC

222

;,)(...

5963132

10651020

8

533563SQTr

222

;,)(

... 22778832

106510206844SQT

222

;,56382SQLSQCSQTrSQTSQR

O quadro da ANOVA fica Causas de variação gl SQ QM F P

QL 1 63,28 63,28

Tratamentos 3 631,59 210,53 9,91 0,0004

Linhas (QL) 6 4891,69 815,28 38,26

Colunas 3 1819,09 606,36 28,53

Resíduo 18 292 16,22

Total 31 7730

Das tabelas das distribuições F, temos que

095Fe163F 010186050183 ,, ),,,(),,,( . O valor Fctr = 9,91 é maior que estes

valores tabelados, então rejeitamos a hipótese nula H0 para um nível %,, 1ou010 de probabilidade e concluímos que a hipótese de que os

efeitos de tratamento são todos nulos é rejeitada, ou seja, nos pesos dos ovários de ratos imaturos (bio-ensaio para vacas) existe pelo menos dois tratamentos que diferem entre si quanto ao peso de ovários.

Podemos usar o teste de Tukey para compararmos as médias dos tratamentos (note que temos 4 tratamentos e cada um deles aparece 8 vezes). Então,

51,68

25,21997,3... )05,0,18,4(

rk

QMRqsmd

Estatística Experimental

120

Drogas Peso médio*

(mg)

A 70,37 a

D 66,63 a

C 65,50 a

B 58,13 b (* Médias seguidas pelas mesmas letras na coluna não diferem entre si pelo teste de Tukey a 5%).

Com base nos resultados apresentados na tabela anterior pode-se afirmar que os pesos de ovários tratados com as drogas A, D e C não diferem entre si e os pesos dos ovários tratados com as drogas C e B também não diferem entre si. As diferenças nos pesos de ovários estão entre as drogas A, D e C quando comparadas, individualmente, com a droga B.

Organizando o arquivo de dados no Excel e no bloco de notas Arquivo de dados .xls (peso.xls) Arquivo de dados . txt (peso.txt)

ql linha coluna trat put

q1 l1 c1 D 44

q1 l2 c1 B 26

q1 l3 c1 C 67

q1 l4 c1 A 77

q1 l1 c2 C 39

q1 l2 c2 A 45

q1 l3 c2 D 71

q1 l4 c2 B 74

q1 l1 c3 B 52

q1 l2 c3 D 49

q1 l3 c3 A 81

q1 l4 c3 C 88

q1 l1 c4 A 73

q1 l2 c4 C 58

q1 l3 c4 B 76

q1 l4 c4 D 100

q2 l5 c1 B 51

q2 l6 c1 D 62

q2 l7 c1 A 71

q2 l8 c1 C 49

q2 l5 c2 C 74

q2 l6 c2 A 74

q2 l7 c2 D 67

q2 l8 c2 B 47

q2 l5 c3 A 74

q2 l6 c3 C 75

q2 l7 c3 B 60

q2 l8 c3 D 58

q2 l5 c4 D 82

q2 l6 c4 B 79

q2 l7 c4 C 74

q2 l8 c4 A 68

ql linha coluna trat put q1 l1 c1 D 44 q1 l2 c1 B 26 q1 l3 c1 C 67 q1 l4 c1 A 77 q1 l1 c2 C 39 q1 l2 c2 A 45 q1 l3 c2 D 71 q1 l4 c2 B 74 q1 l1 c3 B 52 q1 l2 c3 D 49 q1 l3 c3 A 81 q1 l4 c3 C 88 q1 l1 c4 A 73 q1 l2 c4 C 58 q1 l3 c4 B 76 q1 l4 c4 D 100 q2 l5 c1 B 51 q2 l6 c1 D 62 q2 l7 c1 A 71 q2 l8 c1 C 49 q2 l5 c2 C 74 q2 l6 c2 A 74 q2 l7 c2 D 67 q2 l8 c2 B 47 q2 l5 c3 A 74 q2 l6 c3 C 75 q2 l7 c3 B 60 q2 l8 c3 D 58 q2 l5 c4 D 82 q2 l6 c4 B 79 q2 l7 c4 C 74 q2 l8 c4 A 68

Script no R para a obgtenção dos resultados acima # leitura dos dados pelo read.table dados.ex3 <- read.table("ex2dql.txt",header=TRUE) # imprimindo as 6 linhas iniciais do arquivo head(dados.ex3) # anexando o objeto dados.ex3 no caminho de procura

Estatística Experimental

121

attach(dados.ex3) # gráfico Box-plot para cada nível de trat boxplot(peso~trat,col=2,xlab="Tratamentos") # quadro da anova put.av <-aov(put~ql+linha+coluna+trat) anova(put.av) # usando os recursos do pacote agricolae require(agricolae) put.tu <-HSD.test(put.av,"trat") # gráfico de barras com as letras do teste de Tukey bar.group(put.tu,ylim=c(0,90),density=20, col="brown", xlab="Tratamentos",ylab="Peso do Utero", main="Teste de Tukey") # retirando o objeto dados.ex3 do caminho de procura detach(dados.ex3) 12 Casualização dos tratamentos

Suponha que queremos dispor os tratamentos A, B, C, e D sobre um quadrado latino 4 x 4

escolhemos aleatoriamente um dos quadrados padrões de tamanho 4. suponha

1 2 3 4

1 A B C D

2 B C D A

3 C D A B

4 D A B C

selecionemos uma das permutações de 1, 2, 3, e 4. suponha 2, 4, 1, 3. então

1 2 3 4

2 B C D A

4 D A B C

1 A B C D

3 C D A B

selecionemos uma outra das permutações de 1, 2, 3, e 4. suponha 1, 3, 4, 2. então

1 3 4 2

2 B D A C

4 D B C A

1 A C D B

3 C A B D

Este é o delineamento escolhido.

13 Exemplos em qua as unidades experimentais são animais

Estatística Experimental

122

Neste tipo de experimento os próprios animais servem como um critério de classificação (linhas) e o tempo (colunas) é o outro, ou seja, medidas repetidas não aleatórias são obtidas de cada animal (pessoa) distribuídos a uma seqüência de tratamentos. Exemplo 4 O objetivo deste experimento foi testar o efeito de quatro diferentes suplementos (A, B, C, D) adicionados ao feno na engorda de novilhos. O experimento foi delineado em um experimento Quadrado Latino com quatro animais em quatro períodos de 20 dias. As ovelhas foram mantidas isoladas individualmente. Cada período consistia de 10 dias de adaptação e de 10 de medidas. Os dados apresentados abaixo são as médias de 10 dias.

Novilhos

Período N1 N2 N3 N4

1 10,0 (B) 10,2 (C) 8,5 (D) 11,8 (A)

2 9,0 (C) 11,3 (A) 11,2 (B) 11,4 (C)

3 11,1 (C) 11,2 (B) 12,8 (A) 11,7 (D)

4 10,8 (A) 11,0(D) 11,0 (C) 11,0 (B)

Script no R para resolver este exemplo # leitura dos dados pelo read.table dados.ex4 <- read.table("ex4dql.txt",header=TRUE) # imprimindo as 6 linhas iniciais do arquivo head(dados.ex4) # anexando o objeto dados.ex4 no caminho de procura attach(dados.ex4) # estatísticas resumo dos tratamentos do arquivo dados.ex4 e.desc<- tapply(peso,trat,summary) e.desc # gráfico Box-plot para cada nível de trat boxplot(peso~trat,col=2,xlab="Tratamentos") # fazendo a análise diretamente pelo ExpDes # requerendo o ExpDes require(ExpDes) # quadro da anova latsd(trat,periodo,novilho,peso,quali=T,mcomp="tukey") # retirando o objeto dados.ex4 do caminho de procura detach(dados.ex4)

RESUMO:

Estatística Experimental

123

Estatística Experimental

124

7º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL

1) Nos experimentos que tratam da produção de vacas leiteiras, a enorme variação entre os indivíduos exige um grande número de animais para a avaliação de diferenças moderadas. Qualquer esforço de aplicar vários tratamentos sucessivamente numa mesma vaca se complica pela diminuição do fluxo de leite, pela forma da curva de lactação e por uma correlação entre os erros eijk. Estas dificuldades são controladas com o uso de vários pares de quadrados latinos ortogonais onde as colunas representam as vacas e as linhas os períodos sucessivos da lactação, e os tratamentos são aplicados as vacas nos vários estágios. Num experimento procurou-se verificar o efeito de diferentes tipos de tratamentos, e é apresentado somente um quadrado latino, sem nos preocuparmos com os efeitos correlacionados. Os tratamentos (1,0 kg para cada 3,0 kg de leite produzido) foram os seguintes: A = Ração comum B = 75% de ração comum + 25% de rolão de milho. C = 50% de ração comum + 50% de rolão de milho. D = 75% de ração comum + 25% de farelo de soja. E = 25% de ração comum + 75% de farelo de soja. Os valores da tabela correspondem a produção de leite (kg) por um período de seis semanas.

Linhas Colunas (Vacas) Total

(Período) 1 2 3 4 5

1 B 318 E 416 A 420 C 424 D 330 1908

2 D 325 A 435 E 418 B 438 C 333 1949

3 E 342 B 441 C 395 D 418 A 380 1976

4 A 353 C 403 D 410 E 395 B 375 1936

5 C 310 D 381 B 422 A 432 E 314 1859

Total 1648 2076 2065 2107 1732 9628

a) Formule as hipóteses estatísticas para os tratamentos e monte o quadro da análise de variância de acordo com um delineamento quadrado latino e conclua b) Aplique o teste de Tukey para localizar as diferenças entre as médias dos tratamentos. Represente as diferenças com as médias (média±se), seguidas de letras. d) Teste a normalidade dos erros e a homogeneidade das variâncias dos tratamentos. e) Defina os contrastes abaixo e teste-os através da técnica de decomposição dos graus de liberdade dos tratamentos (teste F planejado) e complemente o quadro da anova do item b) com estes contrastes:

c1) Existe efeito dos complementos adicionados à ração comum?; c2) Qual complemento adicionado à ração comum é melhor: rolão de milho ou farelo de

soja?; c3) Qual percentual de rolão de milho é melhor ?; c4) Qual percentual de farelo de soja é melhor ?;

f) Calcular e interpretar os coeficiente de variação (CV) do experimento e o de determinação R2

do experimento. g) Com base nestas observações e nos resultados do item a) a utilização do delineamento em DQL é plenamente justificada?

Estatística Experimental

125

2) Avaliação do efeito de anestésicos sobre o metabolismo animal é imprescindível ao cirurgião. Neste experimento são considerados 5 anestésicos e analisar variáveis como: frequência cardíaca,respiratória, pressão sanguínea, tempo efetivo de anestesia. Estas variáveis são muito instáveis com c.v. > 35,0 %. Existe uma reação muito diferente de animal para animal o que exigiria um número muito grande destes ( de 13 a 49 animais) para cada anestésico. Por outro lado estas respostas são de fluxo contínuo. Podemos testar todos os anestésicos, em ocasiões diferentes com intervalos de 2 a 3 dias, no mesmo animal. Se um animal recebe todos os anestésicos, em sequência controlada, todos os demais deverão também recebê-los, mas cada um dos cachorros deverá estar submetido a um anestésico diferente, de modo que, em um mesmo dia, todos os cães e todos os anestésicos estejam sendo testados. Com este procedimento, o eventual efeito de dia poderá estar controlado. A maneira mais simples de se controlar o efeito de dia de experimentação (ou período) e o efeito de cães, é o efeito de controle local (blocos). Uma solução prática que leva em conta os dois tipos de blocagem (período e animal) é o croqui do delineamento quadrado latino (DQL) onde as letras representam um anestésico específico com os seguintes resultados sobre tempo efetivo de anestesia:

Período

Animal I II III IV

1 A(4,92) E(4,77) B(7,29) D(9,99) C(6,93)

2 D(4,88) B(8,53) A(8,29) C(8,95) E(8,51)

3 C(7,32) A(6,16) E(8,50) B(5,83) D(7,08)

4 E(6,67) C(5,00) D(5,40) A(7,54) B(9,62)

5 B(5,40) D(7,15) C(8,95) E(7,85) A(9,68)

Aplique os mesmos itens da questão anterior.

Estatística Experimental

126

Aula 8 Experimentos fatoriais 1 Introdução

Nos experimentos mais simples comparamos tratamentos ou níveis de um único fator, considerando que todos os demais fatores que possam interferir nos resultados obtidos se mantenham constantes. Por exemplo: quando comparamos tipos de drogas em animais experimentais, os demais fatores, como raça, idade, sexo etc., se mantêm constantes, isto é, devem ser os mesmos para todas as drogas estudadas. Entretanto, existem diversos casos em que vários fatores devem ser estudados simultaneamente. Nesses casos, utilizamo-nos dos experimentos fatoriais, que “são aqueles nos quais são estudados, ao mesmo tempo, os efeitos de dois ou mais tipos de fatores ou tratamentos”. Entenda-se por fator “uma variável independente cujos valores (níveis do fator) são controlados pelo experimentador”. Cada subdivisão de um fator é denominada de nível do fator e os tratamentos nos experimentos fatoriais consistem de todas as combinações possíveis entre os diversos fatores nos seus diferentes níveis.

Por exemplo: num experimento fatorial podemos combinar 2 doses de um antibiótico com 3 diferentes níveis de vitamina B12. Neste caso teremos um fatorial 2 x 3, com os fatores Antibióticos (A) e Vitamina (V), que ocorrem em 2 níveis (A1 e A2) e 3 níveis (V1, V2 e V3), respectivamente, e os 2 x 3 = 6 tratamentos são:

A1V1 A1V2 A1V3

A2V1 A2V2 A2V3 Outro exemplo: num experimento fatorial 3 x 2 podemos combinar 3

Doses de uma droga (D1, D2 e D3), 2 Idades (I1 e I2) e teremos 3x2 = 6 tratamentos, que resultam de todas as combinações possíveis dos níveis dos 3 fatores, ou seja,

D1I1 D1I2 D2I1 D2I2 D3I1 D3I2

Os experimentos fatoriais não constituem um delineamento experimental e sim um esquema orientado de desdobramento de graus de liberdade de tratamentos e podem ser instalados em qualquer um dos delineamentos experimentais já estudados (DIC, DBC e DQL, por exemplo).

Em um experimento fatorial nos podemos estudar não somente os efeitos dos fatores individuais, mas também, se o experimento foi bem conduzido, a interação entre os fatores. Para ilustrar o conceito de interação vamos considerar os seguintes exemplos:

Suponha que as médias dos 3 x 2 = 6 tratamentos deste último exemplo são apresentadas na tabela abaixo:

Fator B - Idade

Fator A-(Dose da Droga) I0 I1

D0 5 10

D1 10 15

D2 15 25

Estatística Experimental

127

Os seguintes aspectos importantes dos dados na Tabela acima devem

ser destacados:

Para ambos os níveis do fator B, a diferença entre as médias para quaisquer níveis do fator A é a mesma;

Para todos os níveis do fator A, a diferença entre as médias para os dois níveis de B é a mesma;

Uma terceira característica é notada por meio do gráfico. Notamos que as curvas correspondentes aos diferentes níveis de um fator são todas paralelas.

Quando os dados da população possuem estas três características listadas acima, dizemos que não existe interação presente entre os fatores. A presença de interação entre os fatores pode afetar as características dos dados de várias formas dependendo da natureza da interação. Vamos ilustrar o efeito de um tipo de interação modificando os dados da tabela apresentada anteriormente

Fator B: Idade

Fator A: Dose da Droga I0 I1

D0 5 15

D1 10 10

D2 20 5

Os seguintes aspectos importantes dos dados na Tabela acima devem ser destacados:

A diferença entre as médias para qualquer dos dois níveis de A não é a mesma para ambos os níveis de B;

A diferença entre as médias para ambos os níveis do fator B não é o mesmo nos níveis do fator A;

As curvas dos fatores não são paralelas, como é mostrado nos gráficos abaixo;

Estatística Experimental

128

Quando os dados da população exibem as características acima, dizemos que existe interação entre os dois fatores. Enfatizamos que o tipo de interação ilustrada acima é somente uma das dos muitos tipos de interação que podem ocorrer entre dois fatores.

Em resumo, podemos afirmar que “existe interação entre dois fatores se uma modificação em um dos fatores produz uma modificação na resposta em um dos níveis do outro fator diferente dos produzidos nos outros níveis deste fator”.

As vantagens de um experimento fatorial são:

A interação dos fatores pode ser estudada;

Existe uma economia de tempo e de esforço. Nos experimentos fatoriais todas as observações podem ser usadas para estudar o efeito de cada um dos fatores investigados. A alternativa, quando dois fatores são investigados, seria o de conduzir dois diferentes experimentos, cada um para estudar cada um dos dois fatores. Se isto é feito, as observações somente produzirão informações sobre um dos fatores, e o outro experimento somente fornecerá informação sobre o outro fator. Para se obter o nível de precisão dos experimentos fatoriais, mais unidades experimentais seriam necessárias se os fatores fossem estudados por meio de dois experimentos. Isto mostra que 1 experimento com dois fatores é mais econômico que 2 experimentos com 1 fator cada um.

Visto que os vários fatores são combinados em um experimento, os resultados têm uma grande amplitude de aplicação.

2 Definições iniciais

Vamos considerar um experimento fatorial 2x2, com os fatores Antibiótico (A) e Vitamina B12 (B) nos níveis: a0 (sem antibiótico) e a1 (com antibiótico); b0 (sem Vitamina B12) e b1 (com vitamina B12), respectivamente, adicionados a uma dieta básica e os seguintes valores médios de ganho de peso (g) para os 2x2 = 4 tratamentos:

Fator B: Vitamina B12

Fator A: Dose do antibiótico b0 b1 Médias

a0 14 23 18,5

a1 32 53 42,5

Médias 23,0 38,0 30,5

A representação gráfica fica:

Definições:

Estatística Experimental

129

Efeito simples de um fator: como a medida da variação que ocorre com a característica em estudo (ganho de peso, neste exemplo) correspondente às variações nos níveis desse fator, em cada um dos níveis do outro fator.

Efeito simples do antibiótico no nível 0 de vitamina B12 : 1814320001)( 0

babaA bdedentro

Efeito simples do antibiótico no nível 1 de vitamina B12: 3023531011)( 1

babaA bdedentro

Efeito simples da vitamina B12 no nível 0 de antibiótico : 1914230010)( 0

babaB adedentro

Efeito simples da vitamina B12 no nível 1 de antibiótico : 2132530011)( 1

babaB adedentro

Efeito principal de um fator: é uma medida da variação que ocorre com a característica em estudo, correspondente às variações nos níveis desse fator, em média, de todos os níveis do outro fator.

152

219

2

BBBdeprincipalEfeito

242

3018

2

AAAdeprincipalEfeito

10

10

adedentroadedentro

bdedentrobdedentro

)()(

)()(

Efeito da interação entre os dois fatores: é uma medida da variação média que ocorre com a característica em estudo, correspondente às variações nos níveis de um fator, ao passar de um nível a outro do outro fator.

,62

921

2int

,,62

1830

2int

)()(

)()(

01

01

adedentroadedentro

bdedentrobdedentro

BBAxBdeeraçãodaEfeito

aindaouAA

BxAeraçãodaEfeito

isto é, tanto faz calcular a interação A x B como a interação B x A As principais desvantagens dos experimentos fatoriais são:

O número de tratamentos aumenta muito com o aumento do número de níveis e de fatores, tornando praticamente impossível distribuí-los em blocos casualizados, devido à exigência de homogeneidade das parcelas dentro de cada bloco.

A análise estatística é mais trabalhosa (efeitos principais e interação de todos os fatores) e a interpretação dos resultados se torna mais difícil à medida que aumentamos o número de níveis e de fatores no experimento.

3 O modelo matemático

O modelo de um experimento fatorial com dois fatores, num delineamento inteiramente casualizado com r repetições, pode ser escrito como:

ijkijjiijky )(

Sendo:

Estatística Experimental

130

;

fatordonível

ésimojoefatordonívelésimoiorecebeuquerespostaésimakaéyikj

;)(tan sobservaçõeastodasacomummédiateconsumaé

;..,., a1icomfatordonívelésimoidoefeitooéi

;...,,1 bjcomfatordonívelésimojdoefeitooéj

;

int

fatordonívelésimoj

doefeitoocomfatordonívelésimoidoeraçãodaefeitooéij

r1kcomyobservaçãoàassociadoerimentalerrooé ijkijk ...,,exp

4 Suposições do modelo

As suposições associadas ao modelo;

As observações de cada célula ab constituem uma amostra aleatória de tamanho r retirada de uma população definida pela particular combinação dos níveis dos dois fatores;

Cada uma das ab populações é normalmente distribuída;

Todas as populações têm a mesma variância;

),(~ 2

ijk oN ;

.0)()(0

)(,

1111

b

jij

a

iij

b

jj

a

ii

ijji

e

condiçõesassatisfazemeparâmetrosose

Vale observar que “a” é o número de níveis do fator A, “b” é o número de níveis do fator B e “r” é o número de repetições de cada um dos “ab” tratamentos. No total temos “abr” unidades experimentais.

5 Hipóteses estatísticas

As seguintes hipóteses podem ser testadas nos experimentos fatoriais.

A hipótese de que não existe ou existe interação AB é equivalente às hipóteses

b1jea1icom0Hvs0H ijAB1ijAB0 ...,,...,,)(:)(: ;

De maneira análoga as hipóteses de que não existe efeito principal do fator A e B é a mesma que as hipóteses

b1jcom0Hvs0H

a1icom0Hvs0H

jB1jB0

iA1iA0

...,,::

...,,::

,

respectivamente. 6 Detalhes computacionais

Apresentaremos alguns passos que facilitam os cálculos das somas de quadrados da ANOVA.

O quadro abaixo mostra um possível arranjo dos dados de um experimento com os tratamentos em um arranjo fatorial 2 x 2

Estatística Experimental

131

a1 a2

b1 b2 b1 b2

111y 121y 211y

221y

112y 122y

212y 222y

.

.

.

.

.

.

. . .

.

. .

r11y r12y

r21y r22y

Pode-se montar o seguinte quadro auxiliar dos totais

(r) b1 b2 Totais

a1 11Y 12Y 1Y

a2 21Y 22Y 2Y

TOTAL 1Y

2Y Y

Assim os cálculos do quadro da análise de variância são dados pelas

seguintes expressões:

Soma de Quadrados do Total (SQT)

;,)(

,)(

2be2asendoabr

YCMsendo

abr

YYSQT

22r

1k

a

1i

b

1j

2

ijk

Soma de Quadrados do fator A, SQ(A) CMYbr

ASQa

i

i

1

21)( ;

Soma de Quadrados do fator, B SQ(B) CMYar

BSQb

j

j

1

21)( ;

Soma de Quadrados da interação AxB, SQ(AxB)=SQ(A,B)-SQ(A)-

SQ(B) ou CMYr

1AxBSQ

a

1i

b

11j

2

ij

)( , sendo a SQ(A,B) a soma de

quadrado conjunta, que nos fatoriais com dois fatores é igual à SQTr;

Soma de Quadrados do Resíduo (SQR) SQR=SQT-SQ(A)-SQ(B)-

SQ(AxB) ou

r

1k

2

ij

r

1k

a

1i

b

1j

2

ijk YYSQR

7 Quadro da anova Calculadas as SQ podemos montar o seguinte Quadro da ANOVA: Fonte de Variação g.l. SQ QM F

Fator A a-1 SQ(A) QM(A)=SQ(A)/(a-1) QM(A)/QMR

Fator B b-1 SQ(B) QM(B)=SQ(B)/(b-1) QM(B)/QMR

Int A xB (a-1)(b-1) SQ(AxB) QM(A)=SQ(AxB)/(a-1)(b-1) QM(AxB)/QMR

Tratamentos ab-1 SQTr QMTr=SQTr/(ab-1) QMTr/QMR

Resíduo ab(r-1) SQR QMR+SQR/ab(r-1)

TOTAL abr-1 SQT

8 Estatística e região crítica do teste

Estatística Experimental

132

As estatísticas para os testes F da ANOVA são

QMR

AxBQMFe

QMR

BQMF

QMR

AQMF cABcBcA

)()(,

)( ,

a qual, deve ser próximo de 1 se H0 for verdadeira, enquanto que valores grandes dessa estatística são uma indicação de que H0 é falsa. A teoria nos assegura que FcA tem, sob H0 distribuição F – Snedecor com (a -1) e ab(r-1)) graus de liberdade no numerador e no denominador, respectivamente. Resumidamente, indicamos:

01rab1acA HsobFF ,~ )),(,( .

Rejeitamos H0 para o nível de significância se

)),(,( 1rab1acA FF ,

sendo, )),(,( 1rab1aF o quantil de ordem )( 1 da distribuição F-Snedecor

com (a -1) e ab(r-1) graus de liberdade no numerador e no denominador. De modo análogo temos FcB . Para a interação A x B a

01rab1b1acAB HsobFF ,~ )),(,))(((

e rejeitamos H0 para o nível de significância se

,)),(,))((( 1rab1b1acAB FF ,

sendo, )),(,))((( 1rab1b1aF o quantil de ordem )( 1 da distribuição F-

Snedecor com (a -1)(b-1) e ab(r-1) graus de liberdade no numerador e no denominador respectivamente.

9 Exemplo 1 Considere o esquema fatorial 2 x 2 ( dois níveis de antibiótico, dois níveis de vitamina B12) para estudar o aumento de peso (Kg) diário em suínos.

a0 – sem antibiótico; a1 – com 40 g de antibiótico

b0 – sem vitamina B12 ; b1 – com 5 mg de vitamina B12

Repetição

a0 a1

b0 b1 b0 b1

1 1,30 1,26 1,05 1,52

2 1,19 1,21 1,00 1,56

3 1,08 1,19 1,05 1,55

Totais 3,57 3,66 3,10 4,63

Formato do arquivo .txt Formato no Excel anti vitb12 trat g.peso ao b0 t1 1.30 ao b0 t1 1.19 ao b0 t1 1.08 ao b1 t2 1.26 ao b1 t2 1.21 ao b1 t2 1.19 a1 b0 t3 1.05 a1 b0 t3 1.00 a1 b0 t3 1.05 a1 b1 t4 1.52 a1 b1 t4 1.56 a1 b1 t4 1.55

anti vitb12 trat g.peso

ao b0 t1 1.30

ao b0 t1 1.19

ao b0 t1 1.08

ao b1 t2 1.26

ao b1 t2 1.21

ao b1 t2 1.19

a1 b0 t3 1.05

a1 b0 t3 1.00

a1 b0 t3 1.05

a1 b1 t4 1.52

a1 b1 t4 1.56

a1 b1 t4 1.55

Notem que neste caso o delineamento experimental foi o inteiramente casualizado com os tratamentos num esquema fatorial 2 x 2, com 3 repetições

Estatística Experimental

133

Outra forma de apresentação dos dados Trat. Repetição Totais

a0b0 1,30 1,19 1,08 3,57 a0b1 1,26 1,21 1,19 3,66 a1b0 1,05 1,00 1,05 3,10 a2b2 1,52 1,56 1,55 4,63

Calculo das Soma de Quadrados:

e então, podemos construir um primeiro quadro de análise de variância:

Fonte de variação gl SQ QM F

Tratamentos 3 0,4124 0,1398 38,13

Resíduo 8 0,0293 0,003667

TOTAL 11 0,4417

Como 597F 01083 ,).;,( podemos concluir que pelo menos duas médias

de tratamentos diferem significativamente (p<0,01) entre si quanto ao ganho de peso diário de suínos. A continuação da análise pode envolver a comparação das médias dos tratamentos por meio de um dos procedimentos de comparações múltiplas conhecidos, como os testes de Tukey, Duncan, t-Student, Scheffé etc.

Uma alternativa de análise mais simples e mais informativa, está baseada no esquema fatorial dos tratamentos. Utilizando o quadro com os totais das combinações dos níveis dos fatores A e B e as fórmulas apresentadas anteriormente, podemos construir um novo quadro de análise de variância que permitirá testar se existe interação entre os dois fatores e se cada um dos fatores tem efeito significativo sobre o desenvolvimento dos suínos.

Quadro auxiliar com os totais das combinações dos níveis de antibióticos (a0, a1)e vitamina B12

b0 b1 Totais

a0 3.57 3,66 7,23

a1 3,10 4,63 7,73

Totais 6,67 8,29 14,96

Assim,

.1728,02187,00208,04124,0)(

;2187,0)3(4

96,14

)3(2

29,8

)3(2

67,6)(

;0208,0)3.(4

96,14

)3.(2

73,7

)3.(2

23,7)(

22

222

AxBSQ

BSQ

ASQ

Notem que SQTr = SQ(A) + SQ(B) + SQ(AxB) e que as somas de quadrados associadas ao total e ao resíduo permanecem inalteradas.

O novo quadro da ANOVA fica:

,,,,

;,))()((

),(,,,,

;,),(

))()((

),...,(),...,(

029304124044180SQTrSQTSQR

41240322

9614

3

634

3

103

3

613

3

573SQTr

4417012

9614

322

551301551301SQT

22222

2222

Estatística Experimental

134

Fonte de variação gl SQ QM F

Antibótico (A) 1 0,0208 0,0208 5,68

Vitamina B12 (B) 1 0,2187 0,2187 59,65

Int. AxB 1 0,1728 0,1728 47,13

Tratamentos (3) 0,4124 0,137 37,33

Resíduo 8 0,0293 0,00367

TOTAL 11 0,4417

Da tabela apropriada, temos F(3, 8; 0,01) = 7,59; F(1, 8, 0,05) = 5,32 ; F(1, 8 ;

0,01) = 11,26 Comparando os valores calculados das estatísticas F, podemos concluir que:

o teste para a interação AxB foi significativo (p < 0,01), indicando que o efeito da vitamina B12 na presença ou ausência de antibiótico é significativamente diferente.

Como a interação AxB resultou significativa (veja o gráfico apresentado

acima), as interpretações da significância dos testes dos efeitos simples de Antibiótico (A) e de Vitamina B12 (B) perdem o significado. Precisamos estudar a interação fazendo os seguintes desdobramentos:

a) Desdobramento da interação AxB para estudar o comportamento dos fator A dentro de cada nível de vitamina B12 (b0 e b1) :

Assim, monta-se a seguinte análise de variância do desdobramento dos

graus de liberdade da interação A x B para se estudar o efeito do antibiótico no ganho de peso diário de suínos na ausência e na presença da vitamina B12.

1568,0)3(2

)29,8()63,466,3(

3

1

)(2)(

1)(

,0368,0)3(2

)67,6()10,357,3(

3

1

)(2)(

1)(

222

2

22

22

2

12

222

2

12

21

2

11

1

0

r

YYY

rASQ

r

YYY

rASQ

bdedentro

bdedentro

Estatística Experimental

135

F.V. G.L. S.Q. Q.M. F Pr.Fc

0bdedentroA 1 0,0368 0,0368 10,04 0.0132

1bdedentroA 1 0,1568 0,1568 42,76 2e-04

Residuo 8 0,0293 0,00367

A linha do resíduo é a mesma da ANOVA anterior. Comparando os valores calculados da estatística F com o valor tabelado

311Fe325F 0108105081 ,, ),;,(),;,( , conclui-se que o efeito do fator antibiótico no

peso diário de suínos no nível b0 de vitamina B12 é significativo (p<0,05) e significativo (p<0,01) no nível b1 da vitamina B12. Ou então, que:

Quando se utiliza a dose b0 de vitamina B12 existe uma diferença no peso diário dos suínos. A estimativa desta diferença é dado por

KgbabaA bdedentro 16,019,103,10001)( 0 , e ela é

significativa pelo teste F da ANOVA do desdobramento, indicando que somente o efeito do antibiótico prejudica o peso diário dos suínos, em média de 0,16 kg.

Quando se utiliza a dose b1 de vitamina B12 existe uma diferença no peso diário dos suínos. A estimativa desta diferença é dada por

KgbabaA bdedentro 32,022,154,11011)( 1

é significativa pelo teste F da ANOVA do desdobramento, indicando que a combinação dos níveis a1 do antibiótico e b1 da vitamina B12, favorece em média 0,32 kg o peso diário dos suínos.

b) Desdobramento da interação AxB para estudar o comportamento dos fator B dentro de cada nível de antibiótico A (a0 e a1) (como exercício preencher os espaços)

2

2

12

12

2

11adedentro

3

1

r2

YYY

r

1BSQ

0

)()(

)()()(

2

2

22

22

2

21adedentro

3

1

r2

YYY

r

1BSQ

1

)()(

)()()(

Assim, monta-se a seguinte análise de variância do desdobramento dos graus de liberdade da interação A x B para se estudar o efeito da vitamina B12

no ganho de peso diário de suínos na ausência e na presença de antibiótico: F.V. G.L. S.Q. Q.M. F

0adedentroB 1 0,00135 0,00135 0,3682

1adedentroB 1 0,39015 0,39015 106,4045

Residuo 8 0,0293 0,00367

(Concluir como no desdobramento anterior) Podemos comparar as médias de peso diário de suínos dos antibióticos,

para cada uma dos níveis de vitamina B12, utilizando o Teste de Tukey (5%). Para tanto, calculamos:

Estatística Experimental

136

114003

0,00367 263

3

QMRq

r

QMRqdms 05082050resíduodogla ,,),;,(),:,(

Quadro auxiliar com as médias dos antibióticos para cada um dos níveis da vitamina B12,

b0 b1

a0 1,19 A 1,22 A

a1 1,03 B 1,54 B Obs.: médias seguidas pelas mesmas letras maiúsculas, nas colunas, não diferem entre si a 5% de probabilidade, pelo Teste de Tukey

(fazer como exercício o teste de Tukey a 5%, para as linhas) Notação geral dos totais de um esquema fatorial 2 x 2 organizados em

uma tabela 2x2, do tipo:

(r) b0 b1 Totais

a0 11Y 12Y 1Y

a1 21Y 22Y 2Y

TOTAL 1Y

2Y Y

As fórmulas das Somas de Quadrados podem ser escritas de uma forma geral:

)()()(

;))()((

)()()(

))()((

)()()(

;))()((

)()(

))()(()...(

BSQASQSQTrBxASQ

rba

YYY

r2

1BSQ

rba

YYY

r2

1ASQ

rba

YYYYY

r

1SQTr

rba

YYYSQT

22

2

2

1

22

2

2

1

22

22

2

21

2

12

2

11

22

222

2

111

Script no r para obter os resultados acima # entrada dos dados pelo comando read.table( ) dados.ex1 <- read.table("ex1fat.txt", header=T) # imprimindo as 6 primeiras linhas do arquivo dados.ex1 head(dados.ex1) # anexando o objeto dados.ex1 no caminho de procura attach(dados.ex1) # calculo das interações - Quadros dos totais int.total <- tapply(g.peso, list(anti, vitb12), sum) int.total # calculo dos totais marginais do fator vitamina B12 total.vitb12<- tapply(g.peso,vitb12,sum) total.vitb12 # calculo dos totais marginais do fator antibiótico total.anti<- tapply(g.peso,anti,sum)

Estatística Experimental

137

total.anti # calculo das interações - Quadros das médias int.media <- tapply(g.peso, list(anti, vitb12), mean) int.media # calculo das médias marginais do fator vitamina B12 media.vitb12<- tapply(g.peso,vitb12,mean)# calculo das médias do fator vitamina b12ibiótico media.vitb12 # calculo das médias marginais do fator antibiótico media.anti<- tapply(g.peso,anti,mean)# calculo das médias do fator vitb12 media.anti # anova sem o desdobramento do fatorial gpeso.av <- aov(g.peso~trat) summary(gpeso.av) # quadro da anova no esquema fatorial gpesofat.av <- aov(g.peso~anti+vitb12+anti*vitb12) summary(gpesofat.av) # gráfico da interação interaction.plot(vitb12, anti, g.peso,col=2,lwd=2, ylab="médias",xlab="Vitamina B12", main="Gráfico da Interação") # requerendo o pacote ExpDes require(ExpDes) fat2.crd(anti, vitb12, g.peso, quali = c(TRUE, TRUE), mcomp = "tukey", fac.names = c("Antibiótico", "Vitamina B12")) # dms do teste de tukey para antibiótico dentro de cada nível da vitamina dms<- qtukey(0.95,2,8)*sqrt(anova(gpesofat.av)[4,3]/3) dms # retirando o objeto dados.ex1 do caminho de procura detach(dados.ex1)

Estatística Experimental

138

8º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL

1) Num experimento fatorial 22 ou 2 x 2, no delineamento inteiramente casualizado, com 6

repetições, foram estudadas as influências de 2 fatores (A: Antibiótico e B: Vitamina B12) sobre o ganho de peso diário em suínos. Os tratamentos utilizados foram:

1- a0v0 - Testemunha = sem antibiótico e sem vitamina B12

2- a1v0 - 40

g de antibiótico 3- a0v1 - 5 mg de vitamina B12 4- a1v1 - 40 g de antibiótico + 5 mg de vitamina B12.

Os resultados do ganho de peso diários, em gramas, foram os seguintes:

Tratamentos 1ª Rep. 2ª Rep. 3ª Rep. 4ª Rep. 5ª Rep. 6ª Rep.

a0v0 590 540 491 532 545 544 a1v0 476 454 476 481 464 463 a0v1 572 549 540 558 563 562 a1v1 690 708 703 712 691 721

Usando o programa R, pede-se: a) Escreva o modelo matemático deste experimento. Quadro dos Totais Quadro das Médias

b0 b1 Totais b0 b1 Médias

a0 a0

a1 a1

Totais Médias

b) Formule as hipóteses estatísticas para os fatores do fatorial e monte o quadro da análise de variância com desdobramento dos graus de liberdade dos tratamentos de acordo com o esquema fatorial 2 x 2 e preencha os espaços das fórmulas abaixo:

22

22

1i

2

j

6

1k

ijk

abr

Y

abr

y

CM)...()(

abr

yySQT

2r

1k

a

1i

b

1j

2

ijk

)(

222

i CMybr

1ASQ )()()(

Estatística Experimental

139

222 )()(1

)( CMyar

BSQ j

22

2

22

2

21

2

12

2

11

...)(

)(1

),()()(

CMyyyr

SQTr

sendoBSQASQSQTrBxASQ

)(AxBSQSQBSQASQTSQR

)1)(1(

)()(;

1;

1

ba

AxBSQAxBQM

b

SQBQMB

a

SQAQMA

pdevalorQMR

QMAF

ababr

SQRQMR

A

pdevalorQMR

QMBFB

pdevalorQMR

AxBQMFAB

)(

Complete o quadro da anova abaixo:

F. V. gl SQ QM F p

Antibótico (A)

Vitamina B12 (B)

Int. AxB

Tratamentos

Resíduo

TOTAL

Conclusões:

Estatística Experimental

140

c) Caso a interação seja significativa, fazer o desdobramento da interação, estimando testando os efeitos simples dos efeitos dos antibióticos dentro de vitaminas e da vitamina dentro de antibióticos (teste da análise de variância), ou seja, preencha as fórmulas abaixo e o quadro da anova

F.V. G.L. S.Q. Q.M. F p

0bdedentroA

1bdedentroA

Resíduo

Conclusões:

Escrever as fórmulas para o desdobramento de Bdentro de ao e Bdentro de a1, monte o quadro da anova abaixo

2

2

12

12

2

11

)()(

)()(

1)(

0 ra

yyy

rBSQ adedentro

2

2

12

22

2

211

)()(

)()(

1)(

ra

yyy

rBSQ adedentro

)(

)()()(

)()(

1)(

222

2

12

21

2

110 rb

yyy

rASQ bdedentro

)(

)()(

)()()(

)(

22

2

22

22

2

12bdedentro

2

1 r2

yyy

r

1ASQ

Estatística Experimental

141

F.V. G.L. S.Q. Q.M. F p

0adedentroB

1adedentroB

Residuo

Conclusões:

d) Ainda com relação ao item c), dê uma estimativa dos efeitos simples de antibióticos e de vitaminas e conclua se eles são significativos. Aplique o teste de Tukey para localizar as diferenças entre as médias dos antibióticos dentro de vitaminas e das médias das vitaminas dentro de antibióticos Represente as diferenças com as médias, seguidas de letras. Tire as conclusões práticas para este ensaio. Esboce o gráfico da interação.

r

QMRqdms resíduodogla )05,0:,(

b0 b1 Médias

a0

a1

Médias

Conclusões:

d) Dê uma estimativa dos efeitos simples de antibióticos e de vitaminas.

e) Teste a normalidade dos erros e a homogeneidade das variâncias dos tratamentos.

Estatística Experimental

142

g) Calcular os coeficientes de determinação (R2) e o de variação do experimento (CV).

(escrever um script no R para resolver esta questão) 2) Num experimento fatorial 2 x 4 , no delineamento em blocos casualizados, com 2 repetições (2 Blocos), foram estudadas as influências da primeira alimentação de colostro no nível de imunoglobulina em vacas leiteiras. O fator A foi a quantidade de comida (0,5 e 1,5 kg) e o fator B foi o tempo da primeira alimentação (1, 2, 6, ou 12 horas depois do nascimento). Os valores observados são unidades de “turbidimetric” relativas ao sulfato de bário padrão de 20 quando o sangue foi amostrado 48 horas após o nascimento. O colostro foi misturado para eliminar a variação entre as vacas.

Tempo da 1ª alimentação

Bloco Quantidade de comida

(kg)

1

2

6

12

I 0,5 7,9 10,2 6,1 2,3

1,5 11,7 10,7 9,9 5,4

II 0,5 9,5 6,0 7,8 7,1

1,5 15,0 11,7 9,4 7,2

Responder aos mesmos itens do exercício 1) (Atenção este é um fatorial 2 x 3)

3) Um experimento foi realizado para estudar a influência no tempo de hemorragia do período, fator A, e um composto estrogênio, fator B , em plasma de sangue em ovelhas. Cinco ovelhas foram sorteadas para cada um dos quatros tratamentos: a1b1 – de manhã e sem estrogênio; a1b2 – de manhã com estrogênio; a2b1 – de tarde e sem estrogênio; a2b2 – de tarde com estrogênio

Tratamentos Rep. 1 Rep. 2 Rep. 3 Rep. 4 Rep. 5

a0 b0 8,53 20,53 12,53 14,00 10,80 a0 b1 17,53 21,07 20,80 17,33 20,07 a1 b0 39,14 26,20 31,33 45,80 40,20 a1 b1 32,00 23,80 28,87 25,06 29,33

Responder aos mesmos itens do ecercício 1) 4) Um experimento para verificar o peso aos 180 dias de suínos com as raças Landrace e Large White, utilizou-se de 480 suínos, machos e fêmeas, sendo estes distribuídos em três suínoculturas. a) Quais os fatores que podem influenciar a resposta medida. b) Estabeleça um modelo matemático para o experimento. c) Faça um esquema da análise de variância (F.V. e g.l.) para o experimento. 5) Em um experimento realizado na Fazenda Experimental Iguatemi da Fundação Universidade Estadual de Maringá, para verificar o efeito de diferentes tipos de instalações durante o inverno e verão sobre o ganho de peso e conversão alimentar de coelhos da raça Nova Zelândia, aos 40 e 70 dias de idade, foram utilizados 3 tipos de instalações, gaiolas ao ar livre, gaiolas de arame galvanizado em galpão aberto e gaiolas de arame galvanizado em galpão fechado. Utilizou-se 178 animais machos e fêmeas para a obtenção dos dados. a) Quais os fatores que podem influenciar a resposta medida. b) Estabeleça um modelo matemático para o experimento. c) Faça um esquema de análise de variância para o experimento.

Estatística Experimental

143

Aula 9 Experimentos fatoriais: analisando um fatorial A x B O método de análise de um experimento fatorial 2 x 2 pode, de uma

maneira geral, ser estendido a qualquer experimento fatorial A x B. A estratégia para analisar um experimento fatorial a x b é a mesma utilizada para os experimentos fatoriais 2 x 2.

teste a interação entre os dois fatores.

se a interação é significativa, então analisamos os efeitos simples dos dois fatores.

se a interação é não significativa, então analisamos os efeitos principais de cada fator

Exemplo 1 Casualização dos tratamentos de um esquema fatorial 2 x 3 em DBC com 4 repetições:

Tratamentos

b1 a1b1

a1 b2 a1b2

b3 a1b3

b1 a2b1

a2 b2 a2b2

b3 a2b3

Com o seguinte esquema da ANOVA

Fonte de Variação g l

Fator A a - 1 Fator B b - 1 Int. A x B (a – 1)(b – 1)

Tratamentos ab - 1 Blocos r -1 Resíduo (ab -1)(r – 1)

Total abr - 1

De uma maneira geral as somas de quadrados são dadas por:

)()()(),()(),()(

;...)(

;...)(

;...

)...(

2

.

22

2

2

1

222

2

2

1

222

12

2

11

222

111

BSQASQSQTrAxBSQouBSQASQBASQAxBSQ

abr

Y

ar

Y

ar

Y

ar

YBSQ

abr

Y

br

Y

br

Y

br

YASQ

abr

Y

r

Y

r

Y

r

YSQTr

abr

YYYSQT

j

i

ab

abk

Bloco I Bloco II Bloco III Bloco IV

a2b1 a2b3 a1b2 a1b1

a1b2 a2b2 a2b1 a1b3

a2b2 a1b1 a2b2 a2b1

a2b3 a2b1 a1b3 a2b2

a1b1 a1b2 a2b3 a1b2

a1b3 a1b3 a1b1 a2b3

Estatística Experimental

144

Como dissemos na aula passada: nos fatoriais A x B a Soma de Quadrados Conjunta SQ(A,B) é igual à Soma de Quadrados dos Tratamentos SQTr.

Quadro da ANOVA no DIC F.V. G.L. S.Q. Q.M. F

A a-1 S.Q.(A) Q.M.(A) FA

B b-1 S.Q.(B) Q.M.(B) FB

Interação A x B (a-1)(b-1) S.Q.(AB) Q.M.(AB) FAB

Tratamentos ab-1 S.Q. Trat. Q.M. Trat. FTr

Resíduo ab (r-1) S.Q. Res. Q.M. Res.

Total abr-1 S.Q. Total

Exemplo 1. Fatorial 2 x 3 (com interação não significativa): O crescimento do conteúdo de água em tecidos de lesmas sob 6

diferentes condições experimentais foi avaliada. As 6 condições foram obtidas combinado-se os dois níveis de temperatura (fator A) com três níveis de umidade (fator B) com. Foram feitas 4 repetições para cada combinação de tratamento. Os resultados, em porcentagem, foram :

Fator A (Temperatura ºC)

Fator B – Umidade (%)

45 75 100

20

76 64 72 82 100 96 79 71 86 86 92 100

30

72 72 72 75 100 94 64 70 82 84 98 99

Formato no Excel (.xls) Formato no Bloco de notas (.txt)

Temp umi trat ca

20 45 t1 76

20 45 t1 64

20 45 t1 79

20 45 t1 71

20 75 t2 72

20 75 t2 82

20 75 t2 86

20 75 t2 86

20 100 t3 100

20 100 t3 96

20 100 t3 92

20 100 t3 100

30 45 t4 72

30 45 t4 72

30 45 t4 64

30 45 t4 70

30 75 t5 72

30 75 t5 75

30 75 t5 82

30 75 t5 84

30 100 t6 100

30 100 t6 94

30 100 t6 98

30 100 t6 99

temp umi trat ca 20 45 t1 76 20 45 t1 64 20 45 t1 79 20 45 t1 71 20 75 t2 72 20 75 t2 82 20 75 t2 86 20 75 t2 86 20 100 t3 100 20 100 t3 96 20 100 t3 92 20 100 t3 100 30 45 t4 72 30 45 t4 72 30 45 t4 64 30 45 t4 70 30 75 t5 72 30 75 t5 75 30 75 t5 82 30 75 t5 84 30 100 t6 100 30 100 t6 94 30 100 t6 98 30 100 t6 99

Os totais das 4 repetições para o fatorial A x B = (2)(3)= 6 tratamentos

são os seguintes:

Estatística Experimental

145

(4) Níveis de A

(Temperatura ºC))

Níveis de B (Umidade (%))

b1 = 45 % b2 = 75 % b3 = 100 % Total

a1 = 20 ºC 290 326 388 1004

a2 = 30 ºC 278 313 391 982

Total 568 639 779 1986

Cálculos das soma de quadrados:

08,2075,288117,200,2922

)()()*(

;75,2881)4)(3)(2(

1986

)4)(2(

779...

)4)(2(

568)(

;17,20)4)(3)(2(

1986

)4)(3(

982

)4)(3(

1004)(

;0,2922)4)(3)(2(

1986

4

491...

4

326

4

290

5,3386)4)(3)(2(

1986)99...76(

222

222

2222

222

BSQASQSQTrBASQ

BSQ

ASQ

SQTr

SQT

Quadro da anova F.V. G.L. S.Q. Q.M. F Pr>(Fc)

Temperatura (A) 1 20,17 20,17 0,78ns

0.388 Umidade (B) 2 2881,75 1440,88 55,85

** 1.91e-08

Interação A x B 2 20,08 10,04 0,39ns

0.683

Tratamentos (5) 2922,0 584,40 22,65*

3.48e-07 Resíduo 18 464,5 25,81

Total 23 3386,5

F(1, 18; 0,05) = 4,41 ; F(1, 18, 0,01)= 8,29; F(2, 18; 0,05)= 3,55; F(2, 18, 0,01)= 6,01 F(5, 18; 0,05) = 2,77; F(5, 18, 0,01)= 4,25

Do quadro acima, observamos que o teste da interação entre a temperatura e umidade não é significativa (p>0,05), e concluímos que os dados não suportam a hipótese de uma interação entre temperatura e umidade. Dado que a interação não foi significativa, a análise prossegue analisando-se os efeitos principais da temperatura e da umidade isoladamente. Isto pode ser feito analisando-se os dois tipos de diferenças:

as diferenças entre os conteúdos médios da água nos tecidos nos dois níveis de A (temperatura).

as diferenças entre os conteúdos médios da água nos tecidos nos três níveis de B (umidade).

O teste F para o efeito principal A é não significativo (p>0,05), e portanto não existe evidências suficientes para concluir que os valores médios do conteúdo da água nos tecidos são diferentes nos dois níveis de temperatura, entretanto, o teste F para o efeito principal da umidade é altamente significativo (p<0,01), o que implica que os dados suportam a conclusão de que os valores médios do conteúdo da água nos tecidos não são os mesmos nos três níveis da umidade.

Isto pode ser visualizado na tabela de médias abaixo (última linha):

Estatística Experimental

146

Quadro de médias dos tratamentos (4)

(Temperatura ºC))

Níveis de B ( Umidade (%) )

b1 = 45 % b2 = 75 % b3 = 100 % Médias

a1 = 20 ºC 72,50 81,50 97,00 83,67 A

a2 = 30 ºC 69,50 78,25 97,75 81,83 A

Médias 71,00 c 79,88 b 97,38 a 82,75

Médias com a mesma letra maiúscula nas colunas não diferem entre si pelo teste de Tukey a 5% Médias com a mesma letra minúscula nas linhas não diferem entre si pelo teste de Tukey a 5%

Fazendo o gráfico da interação (níveis de b no eixo x e níveis de a em y)

Cálculos do teste de Tukey:

para o efeito principal A (temperatura):

36412

8125972dms

972q

A

050182

,,

,

,),;,(

para o efeito principal de B (Umidade):

4868

81259o63dms

6093q

B

050183

,,

,

,),;,(

Gráfico das médias dos tratamentos

Interação A x B

Umidade (%)

Média observa

da do conteúdo

da água (%)

66

72

78

84

90

96

102

45 75 100

20 º C

30 º

Média

O gráfico das médias dos tratamentos fornece um conveniente método

de mostrar os resultados. As linhas sólidas no gráfico da interação são

Estatística Experimental

147

praticamente paralelas, isto confirma o resultado do teste F para a interação entre temperatura e umidade. Mais ainda, a proximidade das duas linhas sólidas indica que as diferenças entre as respostas médias observadas nas duas temperaturas são não significativas; esta conclusão é confirmada pelo teste F do efeito principal da temperatura. Uma checagem gráfica para presença do efeito principal da umidade é dada pela orientação da linha pontilhada. Se o efeito principal de tal efeito não estivesse presente, então a linha pontilhada deveria estar paralela ao eixo x. O gráfico mostra que não é este o caso. O teste F para o efeito principal de B (umidade) suporta esta conclusão.

Outra forma de explicar a significância do fator B é por meio da regressão polinomial, ou seja, as diferenças entre as médias do fator umidade são explicadas por equação do segundo grau

Gráfico das médias do fator B

Equação ajustada

y=82.471-0.585*x+0.007*x2+eps

Umidade (%)

Médias dos con

teúdo da água

(%)

68

72

76

80

84

88

92

96

100

40 45 50 55 60 65 70 75 80 85 90 95 100 105

Script no R para obter os resultados do exemplo 1

# entrada dos dados pelo comando read.table( ) dados.ex1_9 <- read.table("ex1fat_9.txt", header=T) # imprimindo as 6 primeiras linhas do arquivo dados.ex1_9 head(dados.ex1_9) # anexando o objeto dados.ex1_9 no caminho de procura attach(dados.ex1_9) # calculo das interações - Quadros dos totais int.total <- tapply(ca, list(temp, umi), sum) int.total # calculo dos totais marginais do fator temperatura total.temp<- tapply(ca,temp,sum) total.temp # calculo dos totais marginais do fator umidade total.umi<- tapply(ca,umi,sum) total.umi # calculo das interações - Quadros das médias int.media <- tapply(ca, list(temp, umi), mean)

Estatística Experimental

148

int.media # calculo das médias marginais do fator temp media.temp<- tapply(ca,temp,mean) media.temp # calculo das médias marginais do fator antibiótico media.umi<- tapply(ca,umi,mean) media.umi # anova sem o desdobramento do fatorial ca.av <- aov(ca~trat) summary(ca.av) # quadro da anova no esquema fatorial cafat.av <- aov(ca~factor(temp)+factor(umi)+factor(temp)*factor(umi)) summary(cafat.av) # gráfico da interação interaction.plot(umi, temp, ca,col=2,lwd=2, ylab="médias de ca",xlab="níveis da umidade", main="Gráfico da Interação") # requerendo o pacote ExpDes require(ExpDes) fat2.crd(factor(temp), factor(umi), ca, quali = c(TRUE, TRUE), mcomp = "tukey", fac.names = c("Temperatura", "Umidade")) # dms do teste de tukey para fator temperatura dmsa<- qtukey(0.95,2,18)*sqrt(anova(cafat.av)[4,3]/12) dmsa # dms do teste de tukey para fator umidade dmsb<- qtukey(0.95,3,18)*sqrt(anova(cafat.av)[4,3]/8) dmsb # Regressão Linear # Definição de x e y x <- c(45,75,100) ca.media <- tapply(ca,umi,mean) #c(71.0, 79.88, 97.38) ca.media #ajuste da equação linear reg.lin <- lm(ca.media~um ) reg.lin plot(um,ca.media,pch=16,xlab="umidade") abline(reg.lin,col=2,lwd=2) # análise de variância para testar se o coef angular é significativo anova(reg.lin)

Estatística Experimental

149

# ajuste de uma equação quadrática reg.quad <- lm(ca.media ~ um + I(um^2)) reg.quad # desenhando a curva ajustada e adicionado ao gráfico curve(82.488636 -0.585985*x+0.007348*x*x, 40,100, lwd=2,col=4,add=T) # retirando o objeto dados.ex1_9 do caminho de procura detach(dados.ex1_9) Exemplo 2: Análise e interpretação de um experimento fatorial com três fatores Esquema fatorial 2 x 2 x 2 = 23 em um delineamento em blocos casualizados (DBC)para estudar a produção de leite de vacas holandezas arranjadas em 6 lotes com a mesma idade.

idade) de classes 6 ( Blocos 6

B vitamina de mg 5 : c2

B vitamina de mg 0 : c1

milho de rolão de kg 1,0 : b2

milho de rolão de kg 0,5 : b1

B tipo ração de kg 0,5 : a2

Atipo ração de kg 0,5 : a1

:.

12

12

2222

1221

2

2122

1221

1

2

2212

1211

2

2112

1111

1

1

cbac

cbacb

cbac

cbacb

a

cbac

cbacb

cbac

cbacb

a

sendoTrat

Dados Níveis dos

fatores BLOCOS

A B C I II III IV V VI Total

1 1 1 3,029 3,857 2,448 2,448 3,543 4,314 19,639 1 1 2 2,438 3,086 3,771 4,657 1,962 3,210 19,124 1 2 1 3,448 3,600 3,895 4,267 3,086 3,657 21,953 1 2 2 3,533 5,048 3,467 4,095 1,876 2,895 20,914 2 1 1 3,362 3,714 3,429 3,190 2,686 4,038 20,419 2 1 2 4,905 6,295 4,924 4,952 5,381 5,543 32,000 2 2 1 4,171 3,114 4,124 3,981 3,038 3,590 22,018 2 2 2 4,476 4,752 4,848 4,676 6,829 3,771 29,352

Total 29,362 33,466 30,906 32,266 28,401 31,018 185,419

Para calcular as somas de quadrados dos efeitos A, B e C, inicialmente devemos organizar quadros auxiliares, que relacionam os níveis dos fatores 2 a 2, o que dá 3 quadros A com B, A com C e B com C.

Exemplo: Quadro I (A x B) totais de : a1b1 = a1b1c1 + a1b1c2 = 19,639 + 19,124 = 38,763 a1b2 = a1b2c1 + a1b2c2 = 21,953 + 20,914 = 42,867 a2b1 = a2b1c1 + a2b1c2 = 20,419 + 32,000 = 52,419 a2b2 = a2b2c1 + a2b2c2 = 22,018 + 29,352 = 51,370 Quadro I (totais da interação A x B)

Estatística Experimental

150

(12) Níveis de A

(Qtde de ração)

Níveis de B (Rolão de milho kg)

b1 = 0,5 kg b2 = 1,0 kg Total

a1 = 0,5 kg de A 38,763 42,867 81,630

a2 = 0,5 kg de B 52,419 51,370 103,789

Total 91,182 94,237 185,419

Quadro II (totais da interação A x C)

(12) Níveis de A

(Qtde de ração)

Níveis de C (Dose de vit. B12 mg)

c1 = 0,0 mg c2 = 5,0 mg Total

a1 = 0,5 kg de A 41,592 40,038 81,630

a2 = 0,5 kg de B 42,437 61,352 103,789

Total 84,029 101,390 185,419

Quadro III (totais da interação B x C)

(12) Níveis de B

Níveis de C (Dose de vit. B12 mg)

c1 = 0,0 mg c2 = 5,0 mg Total

b1 = 0,5 kg 40,058 51,124 91,182 b2 = 1,0 kg 43,971 50,266 94,237

Total 84,029 101,390 185,419

Somas de quadrados da ANOVA preliminar:

;,))()()((

,

))((

,

))((

,)(

;,))()()((

,

))((

,

))((

,)(

;,))()()(())((

,

))((

,)(

,

;,

))()()((

,),...,(

;,))()()((

,,...

,

;,))()()((

,),...,(

27966222

419185

122

390101

122

02984CSQ

19406222

419185

122

23794

122

18291BSQ

230106222

185419

122

789103

122

63081ASQ

96320SQBlSQTrSQTSQR

1342

6222

4191850183136229

8

1SQBl

748266222

419185

6

35229

6

45919SQTr

845496222

41918531440293SQT

222

222

222

222

222

222

Para o cálculo das soma de quadrados das interações precisamos calcular as somas de quadrados conjuntas. Para a interação AxB, temos:

568019402301019210BSQASQBASQAxBQS

992106222

4191853705176338

12

1BASQ

222

,,,,)()(),()(.

,))()()((

,),...,(),(

Para a interação AxC, temos:

Estatística Experimental

151

729,8279,6230,10238,25)(

358,25)6)(2)(2)(2(

419,185)352,61...592,41(

12

1),(

222

AxCSQ

CASQ

Para a interação BxC, temos:

4750279619409486BxCSQ

94866222

4191852665005840

12

1CBSQ

222

,,,,)(

,))()()((

,),...,(),(

2890BxCSQAxCSQAxBSQ

CSQBSQASQSQTrAxBxCSQ

,)()()(

)()()()(

Fonte de variação Gl S.Q. Q.M. F

Ração (A) 1 10,230 10,230 17,078**

Rolão (B) 1 0,194 0,194 0,324ns

Vitamina B12 (C) 1 6,279 6,279 10,482**

Int.( AxB) 1 0,568 0,568 0,948ns

Int. (AxC) 1 8,729 8,729 14,573**

Int. ( BxC) 1 0,475 0,475 0,793ns

Int. (AxBxC) 1 0,289 0,289 0,482ns

Tratamentos (7) 26,748 3,821 6,380**

Blocos 5 2,134 0,427 0,713ns

Resíduo 35 20,963 0,599

Total 47 48,845

F(5, 35; 0,05) = 2,49 F(3, 35; 0,01) = 3,61 F(1, 35; 0,05) = 4,13 F(1, 35; 0,01) = 7,44

Conclusões:

a interação AxBxC é não significativa (p>0,05), indicando a possibilidade de independência entre os fatores conjuntamente.

os testes F das interações duplas indicam que somente a interação AxC é significativa (p<0,01), ou seja, os dados suportam uma conclusão de que os tipos de rações interagem com a dose de vitamina B12 na produção de leite.

Desdobramento da interação AxC: estudo dos efeitos simples do fator

ração (A) nos níveis das doses de vitamina B12 (C)

Cálculo da SQ do efeito da ração na ausência da vitamina B12

030024

029844374259241

12

1ASQ

222

Cdentro 1,

,),,()(

Cálculo da SQ do efeito da ração na presença da vitamina B12

9291824

3901013526103840

12

1ASQ

222

Cdedentro 2,

,),,()(

Quadro da ANOVA do desdobramento: Fonte de variação gl. SQ QM F

1CdedentroA 1 0,030 0,030 0,0497*

2deCdentroA 1 18,929 18,929 31,601**

Resíduo 35 20,963 0,599

Estatística Experimental

152

Conclusão: as rações produzem efeito significativo (p<0,05) na ausência da vitamina B12, enquanto que na presença da vitamina B12 as rações têm efeito significativo (p<0,01) diferenciado.

Desdobramento da interação AxC: estudo dos efeitos simples do fator vitamina (C) nos níveis das Rações (A)

Cálculo da SQ do efeito da vitamina no nível a1 da ração

1026,024

029,84)038,40592,41(

12

1)(

222

1 adentroCSQ

Cálculo da SQ do efeito da vitamina no nível a2 da ração

9074,1424

789,103)352,61437,42(

12

1)(

222

2adedentroCSQ

Quadro da ANOVA do desdobramento: Fonte de variação gl. SQ QM F

1adedentroC 1 0,1006 0,1006 0,168NS

2deadentroC 1 14,9074 14,9074 24,88**

Resíduo 35 20,963 0,599

Conclusão: as vitaminas não produzem efeito significativo (p>0,05) na ração tipo A, enquanto que na ração tipo B a vitamina B12 tem efeito significativo (p<0,01) diferenciado.

Exemplo 4 Análise de um fatorial 3 x 4 : experimento sobre a qualidade do ovo, em unidades Haugh, segundo 3 embalagens e 4 tempos de armazenamento de estocagem.

Embalagem Tempo Blocos

Ai Bj I II III IV

1 1 66 52 57 68 1 2 47 47 32 43 1 3 43 50 39 40 1 4 20 23 43 41 2 1 81 68 60 55 2 2 62 34 44 45 2 3 43 41 47 54 2 4 51 32 29 34 3 1 81 82 80 78 3 2 84 68 66 65 3 3 58 43 37 57 3 4 75 45 59 48

Quadro da anova F.V. G.L. S.Q. Q.M. F

Embalagem (A) 2 3427,125 1713,562 24,586**

Tempo (B) 3 5186,229 1728,748 24,803**

Interação A x B 6 768,708 128,118 1,838ns

Tratamentos (11) 9382,06 852,91 12,24**

Blocos 3 829,729 276,576 3,968*

Resíduo 33 2300,021 69,697

Total 47 12511,812

Conclusões:

o efeito da interação A x B é não significativo (p>0,05), ou seja, existe uma independência entre os fatores.

efeito do fator embalagem (A) é significativo (p<0,05).

Estatística Experimental

153

efeito do fator tempo (B) é significativo (p<0,05). Teste de Tukey para o fator A

28716

69769493dms

493q

A

050333

,,

,

,),,,(

Teste de Tukey para o fator B

28912

69769853dms

853q

B

050334

,,

,

,),,,(

Quadro dos valores médios observados

(4) B1 B2 B3 B4 iY

A1 60,75 42,25 43,00 31,75 44,44 B A2 66,00 46,25 46,25 36,50 48,75 B A3 80,25 70,75 48,75 56,75 64,12 A

jY 69,00 a 53,08 b 46,00 bc 41,67 c 52,44

Médias com a mesma letra minúscula nas linhas não diferem entre si pelo teste de Tukey a 5% Médias com a mesma letra maiúscula nas colunas não diferem entre si pelo teste de Tukey a 5%

Exemplo 5 Em um experimento de substituição do farelo de soja pelo farelo de girassol na ração de suínos, montou-se um experimento fatorial 2x5, com os fatores Sexo (machos e fêmeas) e Ração com substituição de farelo de soja por farelo de girassol (0%, 25%, 50%, 75% e 100%), utilizando-se 30 suínos (15 machos e 15 fêmeas) castrados da raça Duroc-Jersey, num delineamento em blocos casualizados com 3 repetições, de acordo com os grupos de pesos iniciais. Os resultados de ganho de peso dos animais aos 112 dias de experimento estão apresentados na tabela a seguir:

Bloco

Machos Fêmeas

G0 G25 G50 G75 G100 G0 G25 G50 G75 G100

1 85,0 94,5 99,5 93,0 83,0 77,9 71,5 67,5 71,5 89,5

2 86,0 96,0 98,0 96,0 80,0 83,2 73,5 63,5 70,8 91,8

3 84,0 95,8 104,0 90,5 78,5 83,5 70,5 65,0 72,5 92,9

Total 255,0 286,3 301,5 279,5 241,5 244,6 215,5 196,0 214,8 274,2

Pede-se:

Montar o esquema da Análise de Variância e fazer os testes convenientes;

Comparar as médias dos níveis do fator G dentro de cada um dos níveis do fator S;

Construir gráficos para estudar o comportamento das respostas médias dos níveis de G para cada um dos níveis de S.

Estatística Experimental

154

Quadros auxiliares

Sexo Ração

Total G0 G25 G50 G75 G100

1 255,0 286,3 301,5 279,5 241,5 1363,8

2 244,6 215,5 196,0 214,8 274,2 1145,1

Total 499,6 501,8 497,5 494,3 515,7 2508,9

Bloco B1 B2 B3 Total

Total 832,9 838,8 837,2 2508,9

(Resolver os exemplos 4) e 5) no R)

Estatística Experimental

155

9º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL

1) Num experimento fatorial 32 = 3 x 3, com os fatores A e B, no delineamento em blocos ao

acaso, com 4 repetições, para se estudar uma determinada característica, foram obtidos os seguintes resultados

Tratamentos 1º Bloco 2º Bloco 3º Bloco 4º Bloco

a0b0 25,3 24,2 24,3 33.0

a0 b1 31,6 29,7 30,6 32,2

a0 b2 19,7 18,2 16,0 17,0

a1 b0 24,7 34,7 28,9 27,6

a1 b1 28,4 44,4 41,1 38,4

a1 b2 30,8 42,4 33,6 35,1

a2 b0 37,2 47,6 38,6 40,6

a2 b1 42,6 45,8 38,4 43,4

a2 b2 56,0 58,8 57,0 55,0

Os resultados da análise de variância preliminar foram: FV G.L. S. Q. Q. M. F P

Blocos 3 150,3 50,1 4,2 0,016

Tratamentos 8 3967,3 495,9 41,8 0,000

Resíduo 24 284,3 11,8

Total 35 4401,9

a) Checar os resultados do quadro da ANOVA acima e concluir, em seguida fazer a análise de

variância com o desdobramento dos graus de liberdade de tratamentos, segundo o esquema fatorial e concluir.

b) No desdobramento da interação fazer a análise de variância do desdobramento e aplicar o teste de Tukey (5%) valores médios do fator A nos níveis do fator B e vice versa.

c) Calcular os coeficientes de determinação e de variação do experimento. 2) Um experimento fatorial 2 x 5, com os fatores Sexo (A) e Ração (B) , em um delineamento em blocos ao acaso, com 3 repetições, foi realizado para se estudar a “Substituição do farelo de soja pelo farelo de girassol em ração de suínos” (Kronka,1969)- BIA, n.26 pg 147-154. Os dados abaixo referem-se ao ganho de peso (kg) em 112 dias de experimento. Descrição dos fatores : Sexo a1 : Machos; a2 : Fêmeas Rações: b1 : Ração Básica (RB) + farelo de soja (100%); b2 : RB + farelo de soja (75%) + farelo de girassol (25%); b3 : RB + farelo de soja (50%) + farelo de girassol (50%); b4 : RB + farelo de soja (25%) + farelo de girassol (75%); b5 : RB + farelo de girassol (100%);

Tratamentos 1º Bloco 2º Bloco 3º Bloco

a1 b1 95,0 86,0 94,0 a1 b2 91.5 99,0 94,0 a1 b3 94,5 93,0 94,0 a1 b4 89,0 86,0 90,5 a1 b5 93,0 80,0 78,0 a2 b1 87,0 79,0 84,0 a2 b2 91,0 93,5 103,5 a2 b3 77,5 68,5 70,0 a2 b4 82,5 80,5 82,5 a2 b5 64,5 65,5 60,5

Resultados da anava preliminar

F.V. G.L. S.Q. Q.M. F

Blocos 2 60,02 30,01 1,56ns

Trat. 9 2994,54 332,73 17,34**

Res. 18 345,48 19,19 Total 29 3400,04

Estatística Experimental

156

a) Checar os resultados do quadro da ANOVA acima e concluir, em seguida fazer a análise de variância com o desdobramento dos graus de liberdade de tratamentos, segundo o esquema fatorial e concluir. b) Fazer a análise de variância com o desdobramento dos graus de liberdade de tratamentos, segundo o esquema fatorial e teste a significância da interação entre os efeitos. Se a interação for significativa teste a diferença média dos ganhos de peso do efeito de sexo para cada ração

e as diferenças entre os valores médios das rações para cada sexo.

c) Calcular os coeficientes de determinação e de variação do experimento.

Estatística Experimental

157

Aula 10 Experimentos em parcela subdividida 1 Introdução

Nos experimentos fatoriais ou esquemas fatoriais os tratamentos gerados pelas combinações dos níveis dos fatores são designados às unidades experimentais de acordo com o procedimento de aleatorização do delineamento inteiramente casualizado (DIC), ou do delineamento em blocos casualizados (DBC), ou do delineamento em quadrado latino (DQL). Entretanto, outros tipos de aleatorização são possíveis. Uma dessas aleatorizações alternativas dá origem aos experimentos em parcelas subdivididas, os quais são um caso especial de blocos incompletos. O princípio básico deste delineamento é que parcelas principais que recebem níveis de um fator são subdivididas em subparcelas ou subunidades, as quais recebem os níveis de um outro fator. Assim cada parcela funciona como um bloco para as subparcelas. Os níveis do fator sorteado nas parcelas são denominados de tratamentos principais e os níveis do fator sorteados nas subparcelas são denominados de tratamentos secundários. O delineamento em parcela subdividida teve sua origem na experimentação agronômica, com as parcelas, quase sempre, sendo grandes áreas de solo e as subparcelas sendo áreas menores de solo dentro das grandes áreas. Os tratamentos principais são distribuídos às parcelas de acordo com um delineamento especificado (DIC, DBC, DQL etc.) e os tratamentos secundários são distribuídos aleatoriamente às subparcelas dentro de cada parcela.

A seguir apresentamos um possível croqui de um experimento em parcelas subdivididas com o Fator A, com 2 níveis (tratamentos principais) aplicados às parcelas de acordo com um delineamento em blocos casualizados com 3 repetições e o Fator B, com 3 níveis (tratamentos secundários) aplicados às subparcelas. Vale notar que os níveis de A são sorteados entre as duas parcelas de cada bloco e os níveis de B são sorteados entre as três subparcelas de cada parcela.

BLOCO 1 BLOCO 2 BLOCO 3

Parcelas A1 A2 A2 A1 A2 A1

Subparcelas

B1 B2 B3 B2 B1 B2

B3 B3 B2 B3 B3 B3

B2 B1 B1 B1 B2 B1

Se os tratamentos estivessem num esquema fatorial, o croqui poderia

ser:

BLOCO 1 BLOCO 2 BLOCO 3

A1B1 A1B2 A1B3 A2B2 A1B1 A2B2

A2B3 A1B3 A2B2 A1B3 A2B3 A1B3

A2B2 A2B1 A2B1 A1B1 A1B2 A2B1

ou seja, o delineamento em parcelas subdivididas representa uma restrição à casualização completa existente em um ensaio fatorial envolvendo o mesmo número de fatores e de níveis.

Na análise estatística desses experimentos, as Fontes de Variação que fazem parte da variação entre as parcelas (Fator-A e Blocos, por exemplo) são usualmente agrupadas separadamente daquelas que fazem parte da variação dentro das parcelas ou entre as subparcelas (Fator-B e interação AxB). Neste caso, temos dois resíduos distintos: um referente às parcelas e outro referente às subparcelas.

Estatística Experimental

158

2 Análise de variância

No quadro a seguir, apresentaremos a partição dos graus de liberdade de um experimento em parcelas subdivididas com “a” tratamentos primários, “b” tratamentos secundários, “r” repetições em diferentes delineamentos para os tratamentos aplicados às parcelas.

3 Modelo matemático e suposições Considerando um experimento em parcelas subdivididas envolvendo “a”

tratamentos primários arranjados em um DIC com “r” repetições e “b” tratamentos secundários, o modelo pode ser descrito como:

b1ja1ir1k

comY ijkijjikiijk

,...,;,...,;,...,

,)(

).(),(~

);)((),(~

;)(

;

;

:

berro0Naleatórioerrodoefeito

aerro0NAdenívelésimoiorecebendoparcelaésimakdaefeito

BdenívelésimojeAdenívelésimoidoconjuntoefeitooe

subparcelanaBdenívelésimojdoefeitoo

principalparcelanaAdenívelésimoidoefeitoogeralmédiaa

sendo

2

ijk

2

ik

ij

j

i

Um esquema de análise de variância para este modelo é

Parcelas Sub-divididas no D.I.C. (“r” repetições)

Fonte de Variação g.l.

A (a-1)

Resíduo (a) a(r-1)

(Parcelas) (ar-1)

B (b-1)

AxB (a-1)(b-1)

Resíduo (b) a(r-1)(b-1)

Total abr-1

Considerando agora, um experimento em parcelas subdivididas envolvendo “a” tratamentos primários arranjados em “r” blocos casualizados e “b” tratamentos secundários, o modelo pode ser escrito como:

b1ja1ir1k

comY ijkijjikikijk

,...,;,...,;,...,

,)(

Estatística Experimental

159

),(~

);,(~

;

;

)(;,

,;

:

2

ijk

2

ik

ik

k

ijj

i

0Naleatórioerrodoefeito

0Ne

blocoésimoknoprincipalparcelanaAdenívelésimoidoconjuntoefeitoo

blocoésimokdoefeitoo

BdenívelésimojeAdenívelésimoi

deconjuntoefeitooesubparcelanaBdenívelésimojdoefeitoo

principalparcelanaAdenívelésimoidoefeitoogeralmédiaa

sendo

Um esquema de análise de variância para este modelo é

Parcela Subdivida no D.B.C.(“r” blocos)

Fonte de Variação g.l.

Blocos (r-1)

A (a-1)

Resíduo (a) (a-1)(r-1)

(Parcelas) (ar-1)

B (b-1)

AxB (a-1)(b-1)

Resíduo (b) a(r-1)(b-1)

Total abr-1

4 Hipótese estatística As seguintes hipóteses podem ser testadas nos experimentos em

parcelas subdivididas.

A hipótese de que não existe ou existe interação AB é equivalente

às hipóteses estatísticas b1jea1icom0H

0H

ij11

ij01

...,,...,,)(:

)(:

e para testá-las, usamos a estatística

;);Re..;int..(~)(Re

bsdolgeraçãodalg01 FbsQM

QMABF ,

a qual sob H0, tem distribuição F-Snedecor com graus de liberdade da interação no numerador e graus de liberdade do resíduo (b) no denominador.

No DIC temos ));)(();)((( 1b1ra1b1aF , no DBC temos ));)(();)((( 1b1ra1b1aF .

A hipótese de que não existe ou existe efeito principal do fator A é

a1icom0H

0H

i12

i02

...,,:

:

,

e para testá-las, usamos a estatística

;);Re..;..(~)(Re

asdolgAfatordolg02 FasQM

QMAF ,

a qual sob H0, tem distribuição F-Snedecor com graus de liberdade do fator A no numerador e graus de liberdade do resíduo (a) no denominador.

Estatística Experimental

160

No DIC temos ));1();1(( raaF , no DBC temos));1)(1();1(( raaF .

as hipóteses de que não existe ou existe efeito principal do fator B

é bjcomH

H

j

j

...,,10:

0:

13

03

,

e para testá-las, usamos a estatística

;);Re..;..(03 ~)(Re

bsdolgBfatordolgFbsQM

QMBF .

que sob H0, tem distribuição F-Snedecor com graus de liberdade do fator B no numerador e graus de liberdade do resíduo (b) no denominador.

No DIC temos ));)(();(( 1b1ra1bF , no DBC temos ));)((();(( 1b1ra1bF .

5 Detalhes computacionais

Apresentaremos alguns passos que facilitam os cálculos das somas de quadrados da ANOVA.

No DIC:

Soma de Quadrados do Total (SQT)

;)(

,)(

abr

YCsendo

abr

YYSQT

22r

1k

a

1i

b

1j

2

ijk

Soma de Quadrados do fator A, SQ(A) CYbr

1ASQ

a

1i

2

i

)( ;

Soma de Quadrados da Parcelas, SQ(Parc)

CYb

1ParcSQ

ba

ji

2

ij

,

,

)( ;

SQRes(a) = SQ(Parc) – SQ(A);

Soma de Quadrados do fator B, SQ(B) CYar

1BSQ

b

1j

2

j

)( ;

Soma de Quadrados da interação AxB, SQ(AxB)=SQ(A,B)-SQ(A)-

SQ(B) ou CYr

1AxBSQ

a

1i

b

1j

2

ij

)( , sendo a SQ(A,B) a soma de

quadrado conjunta, a qual nos fatoriais a x b é igual à soma de quadrados dos tratamentos (SQTr).

SQRes(b) = SQ(Parc) – SQ(B)-SQ(AB);

Para calcular os coeficientes de variação para as parcelas e para as subparcelas usamos, respectivamente:

100xY

asQMaCV

)(Re

)( 100xY

bsQMbCV

)(Re

)(

)()()(, AxBSQBSQParcSQSQModeloquesendo100xSQT

SQModeloR2

Dos testes de hipóteses sugeridos anteriormente, se ocorrer interação AxB significativa, torna-se imprescindível fazer o desdobramento

)(iAdedentroBSQ , para i = 1, 2, ..., a ou )(

jBdedentroASQ , para j = 1, 2, ..., b. Para

Estatística Experimental

161

testar se “as médias de B são iguais, dentro de cada nível de A” usaremos

como denominador da estatística F, bE = QMRes(b), com seus a(r-1)(b-1)

graus de liberdade. Comparações de duas médias de A, no mesmo ou em diferentes níveis

de B, envolve o efeito principal de A e a interação AB, ou seja, elas são ambas, comparações das parcelas e das subparcelas. Neste caso é apropriado usar uma média ponderada dos erros Ea e Eb , definida como:

ba EbEb

sQM )1((1

(*)Re

Para tais comparações a razão da diferença dos tratamentos pelo seu erro padrão não segue uma distribuição t-student . Uma aproximação para testar se “as médias de A são iguais, dentro de cada nível de B” usaremos como denominador da estatística t, o valor obtido de

ba E1bEb

1sQM )(((*)Re , que tem n* graus de liberdade, o qual é

calculado pela Fórmula de Sattertwait:

.

),(Re),(Re,

)(

)(*

subparceladaliberdadedegrausosn

eparceladaerrodoliberdadedegrausosn

bsQMEasQMEsendo

n

E1b

n

E

E1bEn

b

a

ba

b

2

b

a

2

a

2

ba

6 Comparações múltiplas entre médias de tratamentos

Após tirarmos as conclusões sobre os testes de hipóteses da Análise de Variância, poderemos estar interessados em comparar as médias dos tratamentos primários (A), dos secundários (B) ou da interação (AxB). Daí, o

problema consiste em usar a estimativa da variância (2) apropriada. A seguir, apresentaremos esses problemas para os casos mais freqüentes. Aqui

consideraremos a notação )(Re),(Re bsQMEasQME ba

1º Caso: entre médias do tratamento primário

Para testar um contraste escolhido a priori,

aa2211 cccY ... , sendo )...,,,( a21ii as médias dos

tratamentos primários, ou seja, 0YH0 : , usamos a estatística

)(

2

i

~

c r

ˆ

aEdogl

i

a

i tE

Yt

, sendo

)( aEdoglt o quantil de ordem )2

1(

da distribuição t-student com

graus de liberdade do Ea.

Para testar um contraste entre duas médias de A, ,iiY , ou

seja, 0YH0 : usamos a estatística

Estatística Experimental

162

)(~ˆ

aEdogl

a

t

br

E2

Yt , sendo

)( aEdoglt o quantil de ordem )(2

1

da distribuição t-student com

graus de liberdade do Res(a).

Para os testes de Tukey e de Duncan usamos, respectivamente,

br

Eqdms a

EdoglaA a );( e br

Ezdms a

EdoglaA a );(

Sendo, que “q” e “z” correspondem aos valores tabelados da distribuição de Tukey e Duncan.

2o Caso: entre médias do tratamento secundário

Para testar um contraste escolhido a priori,

bb2211 cccY ... , sendo )...,,,( b21jj as médias dos

tratamentos secundários, ou seja, 0YH0 : , usamos a estatística

)(

2

i

~

c ar

ˆ

bEdogl

i

b

i tE

Yt

, sendo

)( bEdoglt o quantil de ordem )(2

1

da distribuição t-student com

graus de liberdade do Eb.

Para testar um contraste entre duas médias de B, ,iiY ,

usamos a estatística

)(~ˆ

bEdogl

b

t

Ear

2

Yt , sendo

)( bEdoglt o quantil de ordem )(2

1

da distribuição t-student com

graus de liberdade do Eb.

Para os testes de Tukey e de Duncan usamos, respectivamente,

ar

Eqdms b

doEglbB b );( ar

Ezdms b

EglbB b );(

Sendo que “q” e “z” correspondem aos valores tabelados da distribuição de Tukey e Duncan.

3o Caso: entre médias do tratamento secundário num mesmo nível de i de A

Para testar um contraste escolhido a priori,

ibb2i21i1 cccY ... , sendo )...,,,( b21jij as médias dos

tratamentos secundários num mesmo nível “i” de A, ou seja,

0YH0 : , usamos a estatística

Estatística Experimental

163

)(

2

i

~

c r

ˆ

bEdogl

i

b

i tE

Yt

, sendo

)( bEdoglt o quantil de ordem )(2

1

da distribuição t-student com graus

de liberdade do Eb.

Para testar um contraste entre duas médias de B num mesmo nível

de A, ,ijijY , usamos a estatística

)(~

ˆ

bEdogl

b

t

r

E2

Yt , sendo

)( bEdoglt o quantil de ordem )(2

1

da distribuição t-student com

graus de liberdade do Eb.

Para os testes de Tukey e de Duncan usamos, respectivamente

r

Eqdms b

Eglb b );( r

Ezdms b

Edoglb b );(

Sendo que “q” e “z” correspondem aos valores tabelados da distribuição de Tukey e Duncan.

4o Caso: entre médias do tratamento primário num mesmo nível de B

Para testar um contraste escolhido a priori,

ajaj22j11l cccY ... , sendo a21iij ...,,, as médias dos

tratamentos primários num mesmo nível “j” de B, usamos a

estatística )(

2

iba

**

c br

1)E-(b E

ˆ

n

i

i tmenteaproximadaY

t

,

Sendo n* os graus de liberdade calculados pela Fórmula de Sattertwait (o asterisco indica que esta razão não tem uma distribuição t-student).

Para testar um contraste entre duas médias de A num mesmo nível

de B, ,ijijlY , usamos a estatística aproximada

*

1)E-(b Ebr

ˆ

ba

*

n

i tmenteaproximada2

Yt

com n* os graus de liberdade calculados pela Fórmula de Sattertwait

Estatística Experimental

164

Correspondentemente uma aproximação para o teste de Tukey temos:

s(b) (b-1)QMReQMRes(a) br

1qdms

nb

),( * e ,

sendo os valores de “q” e “z” correspondem a “b” tratamentos e n* graus de liberdade para o resíduo (calculados pela Fórmula de Sattertwait) e são encontrados em tabelas próprias.

EXEMPLO 1: Supor um experimento com três rações A, B e C em seis blocos casualizados, sendo cada parcela constituída de dois bovinos de corte. Em uma determinada fase do experimento, os bovinos dentro de cada parcela, passaram a receber, por sorteio, um dos dois tipos de suplementos minerais M e P. A variável dependente é o ganho de peso no final do experimento.

Um possível croqui deste experimento em parcelas subdivididas no delineamento em blocos casualizados:

B A C

P M M P P M

A C B

P M M P P M

B C A

P M M P M P

A B C

M P M P P M

C A B

P M M P P M

C B A

M P M P P M

1ª letra fator ração e 2ª letra fator suplemento mineral

BLOCOS

I II III IV V VI

BP AM BP AM CP CM

BM AP BM AP CM CP

AM CM CM BM AM BM

AP CP CP BP AP BP

CP BP AM CP BP AP

CM BM AP CM BM AM

Bloco I

Bloco III

Bloco IV

Bloco V

Bloco VI

Bloco II

Estatística Experimental

165

Esquema da análise de variância

Causas da variação g.l.

Blocos 5

Ração (Trat. principal) A 2

Erro (a) 10

Parcelas (17)

Suplemento mineral (Trat. Secundário) B 1

Ração x Suplemento 2

Erro (b) 15

Total 35

Os ganhos individuais ao final do experimento foram: Blocos Ração A Ração B Ração C Total

M P M P M P

I 107 89 116 101 90 96 599 II 117 101 136 110 112 89 665 III 122 98 130 104 99 92 645 IV 111 101 122 91 105 78 608 V 90 95 117 100 110 90 602 VI 116 90 114 94 114 93 621

Total 663 574 735 600 630 538 3.740 (Veja estrutura do arquivo na última página)

Quadro de Totais I Blocos ( 2 )* Ração A Ração B Ração C Total

I 196 217 186 599 II 218 246 201 665 II 220 234 191 645 IV 212 213 183 608 V 185 217 200 602 VI 206 208 207 621

Total 1.237 (12) 1.335 (12) 1.168 (12) 3.740 (*) Os números entre parênteses representam o total de parcelas somadas para se obter os valores observados da tabela.

Cálculos para montar o quadro da anova:

44388544623

37409389107SQT

2222 ,

))()(()...(

22582623

3740621665599

6

1SQBl

2222 ,

))()(()...(

Para obtermos a soma de quadrados das parcelas usamos o quadro auxiliar I com os totais de cada parcela. Como temos duas subparcelas em cada parcela a soma de quadrados das parcelas fica

562377623

3740207217196

2

1SQParcelas

2222 ,

))()(()...(

Para as demais SQ, organizamos o seguinte quadro de totais II que relaciona os níveis dos dois fatores entre si:

(6) SUPLEMENTOS

RAÇÃO Totais A B C

M 663 735 630 2028

P 574 600 538 1712

Totais 1237 1335 1168 3740

Cálculos do quadro da ANOVA

Estatística Experimental

166

731173623

3740116813351237

12

1SQRações

2222 ,

))()(()(

6162173117322582562377

SQRaçõesSQBlSQParcelasasSQ

,,,,

)(Re

782773623

374017122028

18

1SQSupl

222 ,

))()(()(

894057623

3740538574663

6

1SRSQ

2222 ,

))()(()...(),(

38110782773731173894057

SSQRSQSRSQRxSSQ

,,,,

)()(),()(

84799

RxCSQSQSuplSQParcelasSQTbsSQ

,

)()(Re

Quadro da anova Causas da variação g.l. S.Q. QM F

Blocos 5 582,22 116,44 1,87ns

Ração (Trat. Principal) A 2 1173,73 586,86 9,44**

Erro (a) 10 621,61 62,16

Parcelas (17) 2377,56

Suplemento (Trat. Secundário) B 1 2773,78 2773,78 52,02**

Ração x Suplemento 2 110,38 55,19 1,04ns

Erro (b) 15 799,84 53,32

Total 35 6061,56

Obs. Os efeitos das rações e dos blocos são testados usando o resíduo (a). Os efeitos dos suplementos e da interação são testados usando o resíduo b. F(5,10; 0,05)=3,33 ; F(5,10; 0,01)= 5,64; F(2,10; 0,05)= 4,10; F(2,10; 0,01)= 7,56; F(1,15; 0,05)= 4,54 F(1,15; 0,01)= 8,86; F(2,15; 0,05)= 3,68; F(2,15; 0,01)= 6,36

Conclusão: como a interação não foi significativa (p>0,05) devemos

interpretar as diferenças significativas dos efeitos principais da ração e do suplemento.

Teste de Tukey:

duas médias de A )(Re,).;..,( asQMEsendorb

E2qdms A

AElgaA a

441212

32124883dmsA ,

,,

duas médias de B )(Re,).;..,( bsQMEsendora

E2qdms b

bElgbB b

33718

64106013dmsB ,

,,

Quadro de médias

(6) SUPLEMENTOS

RAÇÃO Totais A B C

Estatística Experimental

167

M 110,5 122,5 105,0 112,7 A

P 95,7 100,0 89,7 95,1 B

Totais 103,1 ab 111,3 a 97,3 b 103,9 Médias seguidas pela mesma letra minúsculas na linha não diferem entre si pelo teste de Tukey a 5% Médias seguidas pela mesma letra maiúsculas na coluna não diferem entre si pelo teste de Tukey a 5%

Coeficientes de variações

%,,

,)(Re..)( 597

89103

1662

Y

asMQCV a

%,,

,)(Re..)( 037

89103

3253

Y

bsMQCV b

Script no R para obter os resultados acima # entrada dos dados pelo comando read.table( ) dados.ex1_10 <- read.table("ex1ps_10.txt", header=T) # imprimindo as 6 primeiras linhas do arquivo dados.ex1_10 head(dados.ex1_10) # anexando o objeto dados.ex1_10 no caminho de procura attach(dados.ex1_10) # calculo das interações - Quadros dos totais int.total <- tapply(gp, list(suplemento, racao), sum) int.total # calculo dos totais marginais do fator suplemento total.supl<- tapply(gp,suplemento,sum) total.supl # calculo dos totais marginais do fator racao total.racao<- tapply(gp,racao,sum) total.racao # calculo das interações - Quadros das médias int.media <- tapply(gp, list(suplemento, racao), mean) round(int.media,1) # calculo das médias marginais do fator suplemento media.supl<- tapply(gp,suplemento,mean) round(media.supl,1) # calculo das médias marginais do fator antibiótico media.racao<- tapply(gp,racao,mean) round(media.racao,1) # quadro da anova no esquema pelo comando aov() gpps.av <- aov(gp~factor(bloco)+factor(racao)+factor(suplemento)+ factor(racao):factor(suplemento)+Error(bloco/racao)) summary(gpps.av) # gráfico da interação interaction.plot(racao,suplemento,gp,col=2,lwd=2,

Estatística Experimental

168

ylab="médias de ganho de peso",xlab="rações", main="Gráfico da Interação") # requerendo o pacote ExpDes require(ExpDes) split2.rbd(racao, suplemento, bloco, gp, quali = c(TRUE, TRUE), mcomp = "tukey", fac.names = c("Ração", "Suplemento")) # retirando o objeto dados.ex1_10 do caminho de procura detach(dados.ex1_10) O uso do delineamento em parcelas subdivididas é desejável quando:

O experimento pode ser usado quando um fator adicional tem de ser incorporado em um experimento para aumentar a sua amplitude.

Pode-se saber que as maiores diferenças podem ser esperadas de ocorrer entre os níveis de um fator do que nos níveis do outro fator. Neste caso, as combinações dos tratamentos em que as grandes diferenças são esperadas podem ser atribuídas aleatoriamente às parcelas principais simplesmente por conveniência.

O experimento é usado quando grande precisão é desejada para comparações entre os níveis de um fator do que em níveis do outro fator.

Em resumo, dado que nos experimentos em parcelas subdivididas a variação entre as subparcelas é esperada ser menor do que a variação entre as parcelas principais, o fator que requerer menor quantidade de material experimental, ou que é mais importante, ou que é esperado apresentar menores diferenças, ou sobre o qual é desejado maior precisão por qualquer motivo, são atribuídos ás subparcelas.

Estatística Experimental

169

10º EXERCÍCIO PRÁTICO DE ESTATÍSTICA EXPERIMENTAL

Num experimento em parcelas subdivididas para se estudar o ganho de peso médio diário em suínos foram utilizados quatro tratamentos principais ( A ) e dois secundários ( B ), no delineamento em blocos casualizados com cinco repetições. Os tratamentos principais, rações A1, A2, A3, e A4 foram aplicadas as parcelas constituídas de seis suínos cada uma logo após a desmama. Decorridos trinta dias, três suínos de cada parcela passaram a receber por sorteio uma suplementação alimentar, com dois tipos de vitaminas B1 e B2 . Ao final do experimento os aumentos de peso médio dos três animais por subparcela em quilogramas estão dados na tabela abaixo:

Tratamentos 1º Bloco 2º Bloco 3º Bloco 4º Bloco 5º Bloco Total

A1 B1 1,30 1,35 1,28 1,25 1,32 6,50 B2 1,32 1,35 1,29 1,31 1,35 6,62

A2 B1 1,10 1,15 1,12 1,18 1,11 5,66 B2 1,20 1,21 1,15 1,18 1,20 5,94

A3 B1 1,45 1,48 1,45 1,44 1,46 7,28 B2 1,48 1,45 1,47 1,50 1,41 7,31

A4 B1 1,22 1,24 1,24 1,30 1,22 6,22 B2 1,24 1,23 1,25 1,28 1,26 6,26

Total 10,31 10,46 10,25 10,44 10,33 51,79

Obs.

4

1i

2

1j

2

ijy 67.56730 Usar 5 casas decimais para os cálculos.

a) Estabelecer as hipóteses estatísticas, reproduza os resultados do quadro abaixo, o gráfico da interação, fazer a análise de variância e concluir. Caso haja interação fazer os desdobramentos necessários e os testes de comparações múltiplas. b) Calcule as médias dos tratamentos principais, os erros padrões e compare-as pelo teste de Tukey a 5% de probabilidade. c) Calcule os coeficientes de variação ( C.V. ) e de determinação ( R

2 ) do experimento.

Quadros auxiliares: 1)

(2) I II III IV V Total

A1 2,62 2,70 2,57 2,56 2,67 13,12

A2 2,30 2,36 2,27 2,36 2,31 11,60

A3 2,93 2,93 2,92 2,94 2,87 14,59

A4 2,46 2,47 2,49 2,58 2,48 12,48

Total 10,31 10,46 10,25 10,44 10,33 51,79

2) (5) A1 A1 A1 A1 Total

B1 6,50 5,66 7,28 6,22 25,66

B2 6,62 5,29 7,31 6,26 26,13

Total 13,12 11,60 14,59 12,48

2) Cinco jumentos foram utilizados, dentro do manejo regular de colheita de sêmem com o qual já estavam acostumados, para testar sobre o primeiro ejaculado, três diferentes diluentes e após as diluições, três diferentes tempo de conservação do material (5ºC). A resposta medida foi a motilidade observada no sêmem em função daqueles fatores. Para cada jumento, o primeiro ejaculado foi divido em três alíquotas, diluídas cada uma em um dos diluentes e este volume novamente dividido em outras três alíquotas, uma para cada tempo de conservação. Percebe-se que a parcela é definida pelo diluente e dentro dele, as três subparcelas correspondentes aos tempos. Trata-se portanto de um delineamento em parcelas subdivididas , em que cada jumento assume o papel de um bloco, já que pela utilização de alíquotas todos os tratamentos (diluentes) provêm de um mesmo ejaculado.

DILUENTE

Estatística Experimental

170

A B C

ANIMAL T1 T2 T3 T1 T2 T3 T1 T2 T3

1 75 73 66 214 81 75 62 218 68 61 50 179

2 65 60 61 186 69 62 51 182 60 55 50 165

3 78 83 70 231 79 76 60 215 72 68 61 201

4 68 61 51 180 76 66 51 193 61 57 53 171

5 44 43 37 124 55 51 41 147 34 24 21 79

Total 330 320 285 935 360 330 265 955 295 265 235 795

3I2I1IiLinear

3

1I

3

1j

ij

3

1I

3

1j

2ij 101Y2685Y169173Y )()()(; )(

a) Checar os resultados das fórmulas acima e preencher os quadros auxiliares abaixo. b) Estabelecer as hipóteses estatísticas e fazer a análise de variância e concluir. c) No gráfico abaixo teste a significância da tendência linear dos valores médios da motilidade em cada diluente. d) Calcule os coeficientes de variação do experimento. Quadros auxiliares: 1)

Jumentos (Blocos)

( ) I II III IV V Total

A B C Total

2) ( ) T1 T2 T3 Média

A B C Média

A

B

C

Motilidade observada em sêmem de jumentos segundo o diluidor e o tempo

Tempo

Motilidade

44

50

56

62

68

74

6 10 14 18 22 26 30 34 38

Estatística Experimental

171

Aula 11 Experimentos em parcelas subdivididas - Análise de medidas repetidas no tempo.

Como nos experimentos em parcelas subdvididas, experimentos utilizando delineamentos de medidas repetidas no tempo têm estruturas que envolvem mais de um tamanho de unidade experimental. Por exemplo, um animal pode ser observado durante certo período de tempo, onde tempo é um dos fatores na estrutura de tratamentos do experimento. Tais dados são análogos aos dados de um experimento em parcela subdividida em muitos aspectos e sua análise é frequentemente conduzida tal como um experimento em parcela subdividida e denominado como parcela subdividida no tempo, ou análise de medidas repetidas no tempo.

Exemplo: um experimento envolvendo 3 drogas foi conduzido para estudar cada efeito de droga no batimento cardíaco dos animais. Depois que cada droga era administrada, o batimento cardíaco era medido de 5 em 5 minutos durante 20 minutos.

DA DB DC

Animais T5 T10 T15 T20 T5 T10 T15 T20 T5 T10 T15 T20

1 78 86 81 77 85 86 83 80 69 73 72 74 2 71 83 88 81 82 86 80 84 66 62 67 73 3 72 82 81 75 71 78 70 75 84 90 88 87 4 72 83 83 69 83 88 79 81 80 81 77 72 5 66 79 77 66 86 85 76 76 72 72 69 70 6 74 83 84 77 85 82 83 80 65 62 65 61 7 62 73 78 70 79 83 80 81 75 69 69 68 8 69 75 76 70 83 84 78 81 71 70 65 65

Quadro auxiliar 1) Totais das parcelas Animais Total

DA 322 323 310 307 288 318 283 290 2441

DB 334 332 294 331 323 330 323 326 2593

DC 288 268 349 310 283 253 281 271 2303

Total 944 923 953 948 894 901 887 887 7337

Quadro auxiliar 2) Totais dos fatores T5 T10 T15 T20 Total

DA 564 644 648 585 2441

DB 654 672 629 638 2593

DC 582 579 572 570 2303

Total 1800 1895 1849 1793 7337

Cálculo das somas de quadrados do quadro da ANOVA:

))()((

)...(843

7337658678SQT

2222

Do QUADRO I, temos

243604843

7337271323322

4

1SQ

2222

Parcelas ,))()((

)...(

081315843

733723032441

32

1SQ

222

Droga ,))()((

)...(

162289081315243604DrogaQSparcelasQSSQ aErro ,,,....)(

Do QUADRO II, temos

61282543

7337179318951800

24

1SQ

2222

Tempo ,))()((

)...(

Estatística Experimental

172

862128843

7337570644564

8

1SQ

2222

Conjunta ,))()((

)...(

17531

61282081315862128

SQSQSQTempoxDrogaSQ TempoDrogaConjunta

,

,,,

)(

474891753161282243604494907

TempoxDrogaSQSQSQSQTSQ TempoParcelasbErro

,,,,,

)()(

Quadro da ANOVA F.V. G.L. S.Q. Q.M. F p

DROGA 2 1315,08 657,54 6,03** 0.008512

Erro(a) 21 2289,16 109,01

PARCELAS 23 3604,24 156,71 20,15**

TEMPO 3 282,81 94,27 12,12** 2.315e-06

DROGA x TEMPO 6 531,17 88,53 11,39** 1.381e-08

Erro(b) 63 489,47 7,78

TOTAL 95 4907,49

F(2, 21; 0,05) = 3,47 F(2, 21; 0,01) = 5,78 F(3, 63; 0,05) = 2,76 F(3, 63; 0,01) = 4,13 F(6, 63; 0,05) = 2,25 F(6, 63; 0,01) = 3,12 Conclusão: existe uma interação tempo*droga significativa (p<0,01);

então devemos comparar os tempos em cada droga e drogas em cada tempo. Script no R para os cálculos acima

# entrada dos dados pelo comando read.table( ) dados.ex1_11 <- read.table("ex1mr_11.txt", header=T) # imprimindo as 6 primeiras linhas do arquivo dados.ex1_10 head(dados.ex1_11) # anexando o objeto dados.ex1_11 no caminho de procura attach(dados.ex1_11) # calculo das interações - Quadros dos totais int.total <- tapply(fc, list(droga,tempo), sum) int.total # calculo dos totais marginais do fator suplemento total.droga<- tapply(fc,droga,sum) total.droga # calculo dos totais marginais do fator racao total.tempo<- tapply(fc,tempo,sum) total.tempo # calculo das interações - Quadros das médias int.media <- tapply(fc, list(droga, tempo), mean) round(int.media,1) # calculo das médias marginais do fator suplemento media.droga<- tapply(fc,droga,mean) round(media.droga,1)

Estatística Experimental

173

# calculo das médias marginais do fator antibiótico media.tempo<- tapply(fc,tempo,mean) round(media.tempo,1) # quadro da anova no esquema pelo comando aov() fc.av <- aov(fc~factor(droga)+factor(tempo)+ factor(droga):factor(tempo)+Error(droga:animal)) summary(fc.av) # gráfico da interação interaction.plot(tempo,droga,fc,col=2,lwd=2, ylab="médias da frequência cardíaca",xlab="tempo", main="Gráfico da Interação") # requerendo o pacote ExpDes require(ExpDes) split2.crd(droga, tempo, animal, fc, quali = c(TRUE, TRUE), mcomp = "tukey", fac.names = c("Droga", "Tempo")) # retirando o objeto dados.ex1_11 do caminho de procura detach(dados.ex1_11)

Para comparar tempo em cada droga, o erro padrão da diferença de duas médias é

3918

7872

r

E2YYES

b

ilij ,),(

).(.)(

.. ,

e o teste de tukey é dado por

734391393YYESqdms ilij050633 .),)(,().(. ..),;,(

Do quadro auxiliar das médias temos, T5 T10 T15 T20

DA 70,50b 80,50ª 81,00a 73,13b DB 81,75a 84,00a 78,63a 79,75a DC 72,75b 72,38b 71,50b 71,25b

Médias com a mesma letra minúscula nas linhas não diferem entre si pelo teste de Tukey a 5%.

Assim do quadro auxiliar das médias temos, T5 T10 T15 T20

DA 70,50bB 80,50aA 81,00aA 73,13abB DB 81,75aA 84,00aA 78,63aA 79,75aA DC 72,75aB 72,38aB 71,50aB 71,25aB

Médias com a mesma letra minúscula nas colunas não diferem entre si pelo teste de Tukey a 5%. Médias com a mesma letra maiúscula nas colunas não diferem entre si pelo teste de Tukey a 5%.

Dado que os níveis do fator tempo são quantitativos e igualmente espaçados, polinômios ortogonais podem ser usados para checar a tendência linear e quadrática na resposta de cada droga

Estatística Experimental

174

A tendência linear para a Droga B (DB) é definida pelo contraste

371175793637810084175813

Y3Y1Y1Y3Y 24232221Linear

,),)((),)((),)((),)((

ˆ

com erro padrão do contraste dado por:

4148

7873113S 2222

YLinear

,,

))()((ˆ

A estatística t-student correspondente é

582414

3711

S

Yt

LinearY

LinearCalc ,

,

ˆ

.

,

o valor tabelado é t(63; 0,05) = 2,00. Concluímos, então, que a tendência linear negativa observada no gráfico para a Droga B (DB) é significativa (p<0,05) pelo teste t-student.

A tendência quadrática para a Droga a (DA) pode ser definida pelo contraste

14131211Quad 1111Y .

o qual é estimado por

8717Y1Y1Y1Y1Y 14131211Quad ,ˆ

com erro padrão do contraste dada por:

9718

7871111S 2222

Yuad,

,))()((

.

a estatística t-student correspondente é

079971

8717

YES

Yt

Quad

QuadCalc ,

,

,

)ˆ.(.

ˆ

.

.

o valor tabelado é t(63; 0,05) = 2,00. Concluímos, então que a forte tendência quadrática observada no gráfico para a Droga A (DA) é significativa (p<0,05) pelo teste t-student.

Estatística Experimental

175

Aula 12 Transformação de dados 1 Introdução

Existem duas maneiras nas quais as hipóteses da ANOVA podem ser violadas. Primeiro, os dados podem consistir de medidas em uma escala ordinal ou nominal; neste caso métodos mais apropriados para dados ordinais e nominais são necessários. Segundo, os dados, embora medidos em escala contínua, podem não satisfazer pelo menos uma das três hipóteses requeridas pela análise de variância:

Como vimos anteriormente, as hipóteses da análise de variância são:

os termos dos erros são aleatóriamente, independentemente e

normalmente distribuídos ),(~ 2

ij 0Ne

a variância de diferentes amostras são homogêneas; variâncias e médias de diferentes amostras não são correlacionadas;

os efeitos dos tratamentos são aditivos.

Nestes casos, duas opções se oferecem para analisar os dados. Uma é reduzir o intervalo dos dados para dados medidos em uma escala nominal ou ordinal apropiada e fazer uma análise para este tipo de dado. A outra possibilidade é ver se os dados podem ser transformados para satisfazer as hipóteses da ANOVA. Se tal transformação é encontrada, os dados transformados podem então serem analisados pelos métodos da ANOVA. A hipótese de variâncias iguais é essencial para a realização da análise de variância. Em muitos casos a transformação que torna as variâncias mais homogêneas, também tornam os dados mais próximos de uma distribuição normal.

Considere o exemplo, no qual os pesos, em pounds, de animais, em um DBC, foram observados. Os tratamentos estão em um esquema fatorial 3 x 2, três espécies de animais e dois grupos, um tratado com uma nova vitamina e outro contrôle, em 4 blocos

Bloco Tratamentos I II III IV

mice contrôle 0.18 0.30 0.28 0.44

mice vitamina 0.32 0.40 0.42 0.46

galinha controle 2.0 3.0 1.8 2.8

galinha vitamina 2.5 3.3 2.5 3.3

ovelha controle 108.0 140.0 135.0 165.0

ovelha vitamina 127.0 153.0 148.0 176.0

O quadro da anova dos dados deste experimento mostra os seguintes

resultados Df Sum Sq Mean Sq F value Pr(>F) factor(bloco) 3 984 328 2.631 0.0881 . factor(fatorA) 2 108321 54161 434.507 5.28e-14 *** factor(fatorB) 1 142 142 1.140 0.3025 factor(fatorA):factor(fatorB) 2 250 125 1.004 0.3896 Residuals 15 1870 125 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Estatística Experimental

176

A alta significância entre as espécies (fatorA) não é surpreendente para o pesquisador. O que parece estranho é que não foi detectada diferença significativa devido a vitamina (fatorB), tendo em vista que todo animal em todas as replicações que receberam vitamina mostraram um peso maior do que o correspondente animal contrôle. Parece estranho também que não foi encontrado evidências de interação entre os efeitos de vitamina e espécies, dado que a resposta aparente a vitamina é tão diferente nas diferentes espécies. Tudo que podemos concluir é que mice, galinhas e ovelhas diferem em peso.

Vamos olhar estes dados com as supsições da anova em mente e ver o que podemos fazer se uma das suposições não é atendida.

O gráfico de resíduos vs valores preditos mostra claramente uma

heterogeneidade de variâncias e o QQ-plot mostra um comportamento dos dados que não é muito convicente da distribuição normal. A menssagem parece clara, entretanto, podemos ainda fazer testes para verificar o desvio dos pressupostos.

Teste de normalidade de normalidade de Shapiro-Wilk no R # teste de normalidade shapiro.test(pesotrat.av$res)

Saída fornecida pelo R:

Shapiro-Wilk normality test data: pesotrat.av$res W = 0.9536, p-value = 0.3236

Este teste mostra o teste é não significativo (p=0,3236), portanto não

rejeitamos ),(~: 2

ij0 0NH , ou seja, os resíduos e por conseguinte os dados

deste experimento suportam a suposição de normalidade. Assim, a primeira suposição é prenchida.

Estatística Experimental

177

Agora vamos examinar a suposição de homogeneidade das variâncias. Vamos aplicar o teste de Bartlett usando o R.

# teste da homogeneidade das variâncias dos tratamentos bartlett.test(peso~factor(trat)) Saída do teste de Bartlett no R: Bartlett test of homogeneity of variances data: peso by factor(trat) Bartlett's K-squared = 81.8698, df = 5, p-value = 3.408e-16

O teste é significativo (p=3.408e-16), rejeitamos 2

6

2

10H ...: , ou

seja, as variâncias dos tratamentos não são homocedásticas (homogêneas). Logo, a segunda suposição não é observada nos dados deste

experimento. Para tentar contornar o problema vamos usar a transformação Box-Cox, que consiste em transformar os dados de acordo com a expressão

sendo um parâmetro a ser estimado dos dados. Se a equação acima se reduz a sendo ln é o logaritmo neperiano. Uma vez obtido o valor de encontramos os valores dos dados transformados conforme a equação acima e utilizamos estes dados transformados para efetuar as análises. A função boxcox() do pacote MASS calcula a verossimilhanca perfilhada deste parâmetro. Devemos escolher o valor que maximiza esta função. Nos comandos a seguir começamos carregando o pacote MASS e depois obtemos o gráfico da verossimilhanca perfilhada no R: # requerendo o pacote MASS require(MASS) boxcox(peso ~ factor(trat),plotit = T) Estes comandos fornecem o gráfico da verossimilhança perfilada

Como estamos interessados no máximo da função vamos dar um zoom

no gráfico com o comando # zoom no gráfico par maiores detalhes do valor do parâmetro

1yy

'

0

)ln(' yy

Estatística Experimental

178

boxcox(a_peso ~ racoes, lam = seq(1,2, 1/10))

O gráfico mostra que o valor que maximiza a função é aproximadamente

0,1. Assim, próximo passo é obter os dados transformados e depois fazer as analise utilizando estes novos dados. # obtenção dos dados transformados lambda<-0.1 peso.trans <- (peso^(lambda) - 1)/lambda # fazendo a análise de variância dos dados transformados peso.avtrans <- aov(peso.trans ~ factor(trat) summary(peso.avtrans) plot(peso.avt)

O quadro da anova dos dados transformados mostra o seguinte quadro da anova

Df Sum Sq Mean Sq F value Pr(>F) factor(bloco) 3 0.85 0.28 18.244 2.88e-05 *** factor(fatorA) 2 237.35 118.68 7678.808 < 2e-16 *** factor(fatorB) 1 0.31 0.31 19.879 0.00046 *** factor(fatorA):factor(fatorB) 2 0.02 0.01 0.502 0.61518 Residuals 15 0.23 0.02 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Este quadro mostra um resultado mais satisfatório do que a análise dos

dados sem transformação. Nesta análise, também é mostrado uma significância do fator B (p=0,00046). Mesmo assim, o resultado do teste da significância da interação (p = 0,61518) permaneceu não significativo. NOTA: No gráfico da verossimilhança perfilhada notamos que é mostrado um intervalo de confiança para e que o valor 0 está contido neste intervalo. Isto

indica que podemos utilizar a transformação logaritímica dos dados e os resultados da anova serão bem próximos dos obtidos com a transformação com 10, , préviamente adotada.

# quadro da anova dos dados transformados

Estatística Experimental

179

pesolog.av <- aov(log(peso+1)~factor(bloco)+factor(fatorA)+factor(fatorB)+ factor(fatorA):factor(fatorB)) summary(pesolog.av) Df Sum Sq Mean Sq F value Pr(>F) factor(bloco) 3 0.22 0.07 12.85 0.000201 *** factor(fatorA) 2 96.89 48.44 8573.72 < 2e-16 *** factor(fatorB) 1 0.07 0.07 12.11 0.003361 ** factor(fatorA):factor(fatorB) 2 0.00 0.00 0.41 0.670832 Residuals 15 0.08 0.01 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Reparem que os resultados desta anova estão bem próximos dos resultados da anova dos dados originais.

Teste de normalidade de Shapiro-Wilk nos resíduos dos dados transformados # teste da normalidade shapiro.test(pesolog.av$res)

Shapiro-Wilk normality test data: pesofattrans.av$res W = 0.9803, p-value = 0.9014 Teste de da homogeneidade das variâncias dos tratamentos

# teste de bartlett bartlett.test(log(peso+1)~factor(trat))

O resultado do teste de Bartlett para os dados transformados é Bartlett test of homogeneity of variances

data: log(peso + 1) by factor(trat) Bartlett's K-squared = 5.5714, df = 5, p-value = 0.3502 Agora temos confiança de que a nova análise de variância é válida, dado

que dados transformados satisfazem as duas suposições da análise de variância. Com os dados originais a homogeneidade das variâncias não era atendida.