apostila de estatistica 2012

70
UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM FITOPATOLOGIA ANÁLISE EXPERIMENTAL EM FITOPATOLOGIA TEXTOS DIDÁTICOS PROF. SAMI J. MICHEREFF LABORATÓRIO DE EPIDEMIOLOGIA DE DOENÇAS DE PLANTAS DEPARTAMENTO DE AGRONOMIA ÁREA DE FITOSSANIDADE UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO RECIFE - PE 2012

Upload: yrlania-guerra

Post on 05-Aug-2015

102 views

Category:

Business


0 download

TRANSCRIPT

Page 1: apostila de estatistica 2012

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO

PROGRAMA DE PÓS-GRADUAÇÃO EM FITOPATOLOGIA

ANÁLISE EXPERIMENTAL EM FITOPATOLOGIA

TEXTOS DIDÁTICOS

PROF. SAMI J. MICHEREFF LABORATÓRIO DE EPIDEMIOLOGIA DE DOENÇAS DE PLANTAS

DEPARTAMENTO DE AGRONOMIA – ÁREA DE FITOSSANIDADE UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO

RECIFE - PE 2012

Page 2: apostila de estatistica 2012

2

SUMÁRIO

Pág. • Princípios básicos de experimentação ........................................................................ 3

• Medidas de tendência central e de dispersão .............................................................. 5

• Inferência para médias e testes de hipóteses ............................................................. 8

• Análise de variância e transformação de dados ........................................................... 17

• Testes de comparação múltipla de médias ................................................................. 25

• Delineamentos experimentais ................................................................................... 30

• Correlação linear ..................................................................................................... 38

• Regressão linear ...................................................................................................... 40

• Noções de análise multivariada ................................................................................. 46

• Noções de estatística não-paramétrica ...................................................................... 60

Page 3: apostila de estatistica 2012

3

PRINCÍPIOS BÁSICOS DE EXPERIMENTAÇÃO

1. INTRODUÇÃO

Experimento é a investigação planejada para obter novos fatos e/ou aceitar ou rejeitar resultados de um experimento. Quando se realiza um experimento, é preciso escolher uma unidade experimental, para a coleta dos dados que deverão refletir os efeitos dos tratamentos ensaiados. A unidade experimental recebe também o nome de parcela. Assim, num experimento com manga, a unidade experimental pode ser uma planta ou um grupo de plantas. No caso de um experimento com A experimentação obedece a alguns princípios básicos que são indispensáveis à análise das conclusões por ventura alcançadas, em que se destacam: repetição, casualização e controle local.

2. PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO

A experimentação obedece a alguns princípios básicos que são indispensáveis à análise das conclusões por ventura alcançadas, em que se destacam: repetição, casualização e controle local.

•••• Repetição

Quando um tratamento aparece mais que uma vez num experimento, diz-se que houve repetição do tratamento. Se for utilizada a casualização e se o aumento de repetições não acarretar o uso de material menos homogêneo, à medida que o número de repetições aumentar haverá um aumento da precisão do experimento.

•••• Casualização

O propósito da casualização ou aleatorização é garantir que um tratamento não seja continuamente favorecido ou desfavorecido nas sucessivas repetições por alguma fonte estranha de variação, de origem conhecida ou desconhecida. A casualização significa que a localização dos tratamentos nas unidades experimentais é feita ao acaso, ou seja, através de um sorteio.

•••• Controle local

O controle local é de uso muito freqüente em experimentação, mas não obrigatório. Suponhamos que temos uma área onde queremos instalar um experimento com duas variedades de caupi A e B, apresentando diferença acentuada com relação á fertilidade. Então, dividimos a área em blocos homogêneos com relação á fertilidade e, em cada bloco, teremos os dois tratamentos distribuídos aleatoriamente. Poderá haver ou não grande variação de fertilidade ou de outros fatores de um bloco para outro. O importante é que cada bloco seja tão uniforme quanto possível. Este tipo de delineamento, que é talvez o mais importante, e de uso mais generalizado, é conhecido por “blocos ao acaso” ou “blocos casualizados”. Quando não há controle local, mas apenas repetição e casualização, temos o que se chama um experimento "inteiramente casualizado".

3. ERRO EXPERIMENTAL

É a medida das variações existentes entre os dados ou observações que se apresentam nas unidades experimentais que receberam tratamentos iguais. A redução do erro experimental se constitui num objetivo básico do planejamento. Entretanto, sempre existem fatores que fogem ao controle do pesquisador, outorgando ao erro certa magnitude. É possível, em muitos casos, isolar algumas fontes de variação e, então, reduzir consideravelmente o seu significado. O controle do erro experimental é conduzido pelos seguintes meios:

• Escolha adequada do delineamento, visando contornar a heterogeneidade do suporte experimental. Isto significa a possibilidade de introduzir blocos, linhas, colunas, parcelas subdivididas etc.

• Usar material experimental que permita diminuir a variabilidade inerente dos seres vivos (exemplo, selecionar indivíduos da mesma linhagem).

Page 4: apostila de estatistica 2012

4 • Escolha adequada do tamanho, disposição e forma das parcelas e blocos, levando em consideração características especificas da área utilizada.

Em Fitopatologia podemos relacionar várias técnicas que podem conduzir a erros experimentais, sendo alguns exemplos: inoculação de plantas utilizando diferentes concentrações de inóculo; material vegetal a ser inoculado desuniforme (idade e tamanho de folhas, por exemplo); câmaras de incubação com ajustes diferentes de temperatura; parcelas desuniformes no campo; irrigação de vasos em casa-de-vegetação, conduzindo a diferenças na umidade do solo; posição de plantas em bancadas em casa-de-vegetação, etc. O pesquisador deve ter sempre a preocupação de minimizar o erro experimental, o que lhe permitirá ter como maior fonte de variação os tratamentos.

Os experimentos em condições de laboratório e casa de vegetação são mais fáceis de serem conduzidos, permitindo ao pesquisador maior controle das condições experimentais, reduzindo os erros experimentais. O pesquisador deve iniciar esse controle desde a escolha do material experimental, trabalhando com material genético estável, com pouca segregação, utilizar sempre que possível sementes de origem bem conhecida, o que conduzirá a um stand mais uniforme. lnoculações deverão ser feitas sempre em órgãos vegetais de mesma idade, tamanho e desenvolvimento. O inóculo deve ser sempre o mais uniforme possível, com relação à idade, raça fisiológica, de cultura monospórica ou monopustular, se for o caso, e também com viabilidade e virulência conhecida. As condições de incubação devem ser também as mais uniformes, no que se refere ás condições de temperatura, fotoperíodo e molhamento foliar. Quando as plantas são levadas para casa de vegetação, todos os cuidados devem ser tomados para que não ocorram erros devidos ao excesso de irrigação em alguns vasos, efeitos de diferentes condições reinantes dentro dessas casas, como por exemplo, proximidade de janelas, localização dos vasos nas mesas, etc.

Os experimentos conduzidos em condições de campo normalmente levam a maior ocorrência de erros experimentais devido às dificuldades encontradas pelos pesquisadores em controlar algumas condições, como variabilidade do solo no que diz respeito a umidade, características físico-químicas, microclimas, diferenças entre unidades experimentais, etc. Mesmo assim, o pesquisador pode buscar áreas com menor variação, áreas com plantas mais uniformes quando se trabalha em culturas já instaladas e também adequar um delineamento experimental as condições existentes.

Page 5: apostila de estatistica 2012

5

MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO

1. INTRODUÇÃO

Estatística apresenta duas subdivisões: estatística descritiva e estatística inferencial. A estatística descritiva fornece um grande número de opções para o pesquisador, tais como tabelas, gráficos e médias, para a organização e sumarização de informações sobre um conjunto de observações. A estatística inferencial, oferece uma série de opções para generalizações a partir de observações disponíveis. A estatística inferencial nos permite usar um pequeno número de observações para estimar a performance de toda uma população.

A análise estatística é feita com dados, isto é, um conjunto de observações obtido em uma pesquisa ou um experimento. Os dados obtidos nos experimentos conduzidos na área de Fitopatologia são, geralmente, baseados em observações individuais, que são observações ou medidas obtidas de unidades amostrais.

É importante definirmos alguns termos que são comumente utilizados em estatística:

• População: é um conjunto de elementos que têm uma ou mais característica(s) em comum. A população pode também ser considerada como um conjunto de todos os valores possíveis de uma variável. As populações podem ser finitas, como por exemplo, como o número de plantas doentes numa determinada área, ou infinitas, como os resultados obtidos, de cara ou coroa, ao se lançar uma moeda para cima uma infinidade de vezes. Em estatística, população sempre significa a totalidade de observações individuais sobre as quais inferências serão feitas.

• Amostra: é um subconjunto retirado da população, com menor número de elementos que a respectiva população e representativo desta. Como por exemplo, um certo número de folhas tomados de uma planta doente e os resultados de suas análises.

• Variável discreta e variável contínua: variável discreta é aquela que apresenta somente valores numéricos fixos e determinados, sem valores intermediários, como o número de folhas em uma planta, o número de sementes em uma vagem de feijoeiro, o número de frutos em uma planta de mamoeiro, etc. Variável contínua é aquela que pode apresentar infinitos valores dentro de um intervalo, como o peso de 100 sementes de feijão, a altura média de plantas, o comprimento de raízes de plantas de tomateiro

A análise estatística é feita com dados, isto é, um conjunto de observações obtidas em uma pesquisa ou um experimento. A forma precisa de realizar uma análise estatística dependerá se os dados são quantitativos ou qualitativos.

• Dados quantitativos: quando as observações consistem de números que indicam diferenças em mensurações ou contagens, os dados são considerados quantitativos. Os números de lesões reportados na Tabela 1 são dados quantitativos, uma vez que diferentes números apresentados refletem diferentes números de lesões por folha, indicando diferente quantidade de doença nas folhas. Outros exemplos de dados quantitativos incluem observações baseadas em tamanho, como porcentagem de área foliar lesionada, diâmetro de lesões, de colônia um fungo, tamanho de folhas ou de um órgão vegetal, peso de sementes, de frutos, de um produto industrializado, etc.

• Dados qualitativos: quando as observações consistem de palavras ou códigos numéricos que indicam diferenças em espécie, são conhecidas como qualitativas. Assim, poderíamos citar exemplos de observações baseadas em cor de tegumento de sementes, diferentes meios de cultura, diferentes fungicidas, diferentes variedades ou linhagens, etc.

Page 6: apostila de estatistica 2012

6 2. MEDIDAS DE TENDÊNCIA CENTRAL

As principais medidas de tendência central de uma amostra são média aritmética, média ponderada e mediana.

• Média aritmética ( x ) - é obtida somando-se todas as observações e então dividindo-se pelo número delas.

n

xx ∑=

Exemplo: na série de dados 3, 3, 4 e 6, a média aritmética será?

44

16

4

6433x ==+++=

• Média ponderada ( px ) - é obtida somando-se todas as observações e então dividindo-se pelo

número delas.

∑=

++++++=

y

yy

n21

nn2211p W

XW

W...WW

XW...XWXWx

Exemplo: um estudante obteve nos trabalhos práticos, de peso 1, as notas 6 e 10. Na prova, de peso 3, obteve nota 8. Sua média é:

0,85

40

311

)8x3()10x1()6x1(x p ==

++++

=

• Mediana (Md) - reflete o valor central quando as observações são ordenadas da menor para a maior. Se o número de dados da amostra é par, a mediana será a média dos valores centrais.

Exemplo: No conjunto de números 2, 2, 3, 5, 7, 8, 8, 9 e 10, a mediana é Md = 7

A mediana do grupo de números 1, 4, 4, 8, 10, 12, 15 e 20 é?

Md = 92

108 =+

3. MEDIDAS DE DISPERSÃO (VARIABILIDADE)

Embora a temperatura média de Recife possa ser igual à de Fortaleza, não se pode dizer que o clima entre estas duas cidades seja igual no que se refere à temperatura. Usualmente, quando dados são sumarizados em uma estatística descritiva, especifica-se não somente a medida de tendência central, mas também uma medida de variabilidade, o que representa o quanto as observações desviam ou variam em tomo de uma medida de tendência central.

• Variância da amostra ( 2S ) - a variância de uma amostra com n observações é igual a soma de quadrado das distâncias de cada observação em relação à média, dividida por (n-1).

1nn

)x(x

S

22

2

∑−∑=

Page 7: apostila de estatistica 2012

7 • Desvio padrão da amostra ( S ) - é definido como a raiz quadrada da variância da amostra e expressa o desvio de cada um dos elementos (xi) em relação à média ( x ). Assim:

2SS = • Erro Padrão da média ( xS ) - diferentes amostras retiradas da mesma população podem apresentar médias diferentes. A variação existente entre esse conjunto de médias é estimada pelo erro padrão, que corresponde ao desvio padrão das médias. Há uma fórmula simples que permite obter o erro padrão da média xS sem ser preciso colher novas amostras.

n

SSx

2

=

• Coeficiente de variação (CV) - indica a precisão de um experimento, sendo calculado pela seguinte fórmula:

100.x

SCV =

Exemplo: do conjunto de números 12, 15, 18, 18, 20, 25, 26, 26 e 28, calcular a média ( x ), a variância ( 2S ), o desvio padrão ( S ), o erro da média ( xS ) e o coeficiente de variação (CV).

89,209

188

9

282626252018181512x ==++++++++=

36,318

89,250

8

11,39274178

89

188)282626252018181512(

S

2222222222

2 ==−=−++++++++

=

60,536,31S ==

87,148,39

36,31Sx ===

81,26100.89,20

60,5CV ==

Page 8: apostila de estatistica 2012

8

INFERÊNCIA PARA MÉDIAS E TESTES DE HIPÓTESES

1. HIPÓTESES

Hipóteses são conjecturas sobre uma população, objeto ou efeito de um tratamento. Uma hipótese pode ser verdadeira ou falsa. Toda pesquisa ou experimento tem como antecedente fundamental uma hipótese, denominada hipótese científica. O pesquisador planeja e executa experimentos tendo em vista a obtenção de dados experimentais indispensáveis à verificação de uma hipótese científica.

2. VERIFICAÇÃO DE HIPÓTESES

Para a verificação de uma hipótese científica, algumas regras de decisão devem ser estabelecidas previamente, isto é, antes da obtenção dos dados experimentais. Essas regras de decisão são testes estatísticos, denominados testes de hipóteses ou de significância, e tem por objetivo auxiliar o pesquisador a decidir objetivamente se a hipótese científica é verdadeira ou falsa. Exemplo 1: Deseja-se saber se o isolado bacteriano “I” é mais resistente a determinado antibiótico

que o isolado “II”. Formula-se a hipótese de que eles dão igualmente resistentes, isto é, se 1x = 2x .

2.1. Hipótese de nulidade

Hipóteses como a do exemplo 1 são denominadas hipóteses de nulidade e são geralmente formuladas com o propósito de serem rejeitadas. Hipóteses de nulidade são representadas simbolicamente por H0.

Embora o pesquisador possa ter razões objetivas para acreditar que existem diferenças reais entre as médias de certos tratamentos, ele formula a hipótese de que essas médias são iguais, ou seja, H0 =

1x = 2x . Se H0 for verdadeira, então 1x - 2x = 0, isto é, a diferença entre as médias é nula, advindo assim a denominação de hipótese de nulidade. No exemplo 1 temos:

H0 : 1x = 2x

2.2. Hipótese alternativa

Qualquer hipótese diferente de H0 é denominada hipótese alternativa e representada simbolicamente por H1. No exemplo 1 podemos ter:

H1 : 1x ≠≠≠≠ 2x

H1 : 1x > 2x

H1 : 1x < 2x Note que H0 e H1 são hipóteses estatísticas e servem apenas para a comparação de dados observados com os teoricamente esperados.

3. TESTE DE SIGNIFICÂNCIA

Como os testes estatísticos têm por função auxiliar o pesquisador a decidir objetivamente sobre a aceitação ou rejeição da hipótese de nulidade, há uma grande variedade de testes de significância que se aplicam conforme as situações específicas. Inicialmente, a escolha de um teste de significância depende da natureza da hipótese alternativa.

Page 9: apostila de estatistica 2012

9

Hipótese de nulidade: H0 : 1x = 2x

Hipóteses alternativas possíveis: H1 : a. 1x ≠≠≠≠ 2x

b. 1x > 2x

c. 1x < 2x

Para uma mesma hipótese de nulidade, podemos ter hipótese alternativa dos tipos “a”, “b” ou “c’. Para o tipo “a”, o teste de significância é bilateral, enquanto para os tipos “b” e “c” o teste é unilateral.

3.1. Nível de significância

Todo teste deve ter um nível de significância especificado. Entende-se por nível de significância a probabilidade máxima admitida pelo pesquisador de rejeitar uma hipótese quando ela é verdadeira. Essa probabilidade é classicamente designada pela letra grega αααα e, logicamente, deve ser muito pequena.

Teoricamente, o nível de significância é arbitrado pelo pesquisador. Entretanto, como tabelas especiais foram calculadas para as funções de probabilidade dos principais testes apenas para uns poucos níveis de significância, isto impõe limitações na sua escolha, motivo pelo qual os valores mais usados são α = 0,05 e α = 0,01.

Em todo teste de significância o que se faz é dividir em duas regiões a área sob a curva representativa da distribuição de probabilidade definida pela função matemática em que o teste se baseia. Essas regiões são denominadas região de aceitação ou região de rejeição da hipótese de nulidade.

Quando o teste é bilateral, ou seja H1 : 1x ≠≠≠≠ 2x (tipo “a”), a região de rejeição é dividida em duas partes iguais (e, consequentemente, o valor de α) e cada metade é alocada em uma das extremidades da curva de probabilidade (Fig. 1). O ponto que separa as duas regiões é chamado de valor crítico, simbolizando na Fig. 1 por tαααα/2, cujo valor é dado por tabelas especiais, no caso, para o teste t. Outros símbolos são u e z, usados quando o teste se baseia na distribuição normal.

Figura 1. Regiões de aceitação e rejeição em teste bilateral (H1 : 1x ≠≠≠≠ 2x ).

Quando o teste é unilateral, ou seja, H1 : 1x > 2x (tipo “b”) ou H1 : 1x < 2x (tipo “c”), todo o valor de α é alocado em uma das extremidades da curva de probabilidades. Quando H1 é do tipo “b”, o valor de α é alocado na extremidade superior da curva, enquanto se H1 é do tipo “c”, o valor de α é alocado na extremidade inferior (Fig. 2).

Page 10: apostila de estatistica 2012

10

Figura 2. Regiões de aceitação e rejeição em teste unilateral, considerando as hipóteses alternativas H1 : 1x > 2x (a) e H1 : 1x < 2x (b).

A decisão final sobre a escolha de um teste de significância depende dos objetivos específicos a cada caso:

- Teste de significância de uma média. - Teste de significância da diferença entre duas médias. - Comparação de médias de tratamentos.

3.2. Erros de Decisão

Qualquer que seja o teste de significância escolhido é necessário considerar que: (1) teste de significância é uma regra para auxiliar o pesquisador a tomar decisões objetivas e (2) em qualquer teste é possível cometer dois tipos de erros de decisão, conforme representado na Tabela 1:

Tabela 1. Erros de decisão possíveis em testes de hipóteses.

Decisão H0 verdadeira H0 falsa Rejeição Erro tipo I (α) Decisão correta Aceitação Decisão correta Erro tipo II (β)

Portanto, o Erro tipo I é a probabilidade de rejeição de uma hipótese verdadeira, enquanto o Erro tipo II é a probabilidade de aceitação de uma hipótese falsa.

Um bom teste de significância deve minimizar os dois tipos de erro, o que não é fácil devido à relação existente entre ambos. Para um mesmo tamanho da amostra, quando se reduz o erro tipo I, aumenta-se o erro tipo II. A única forma de reduzir ambos os tipos de erro ao mesmo tempo é aumentar o tamanho da amostra.

3.3. Marcha do teste de significância

1. Formulação da hipótese de nulidade: H0 : 1x = 2x e da hipótese alternativa: H1 : 1x ≠≠≠≠ 2x ou H1

: 1x > 2x ou H1 : 1x < 2x 2. Definição do nível de significância: αααα 3. Cálculo do valor numérico do teste: tcalc (depende do teste escolhido) 4. Regra de decisão ou definição da região crítica. Na suposição de H0 verdadeira, a probabilidade

do valor calculado do teste cair na região de rejeição é menor ou igual a α. 5. Decisão se o valor numérico do teste está:

- na região de aceitação: aceita-se H0 - na região de rejeição: rejeita-se H0 e aceita-se H1.

Page 11: apostila de estatistica 2012

11 4. TESTE DE SIGNIFICÂNCIA DE UMA MÉDIA

Normalmente o desvio padrão da população (σσσσ) é desconhecido, sendo estimado pelo desvio padrão da amostra (S), a partir de uma amostra de tamanho n. Nessa situação, o teste t é o apropriado para avaliar a significância, onde o valor de t calculado (tcalc):

tcalc =xS

x µ−

A quantidade tc obedece à distribuição de t de Student com n-1 graus de liberdade, sendo µ é a média verdadeira da população, desconhecida, e estimada por x a partir de uma amostra de tamanho n, e xS é o erro padrão da amostra. Exemplo: Considere o aumento do peso de túberas de inhame após a aplicação do fungicida B para

o controle da queima das folhas. Os dados apresentados ( )x correspondem aos incrementos de peso em 5 túberas, em gramas (g), na época da colheita.

35 49 51 43 27

Suponhamos que, após vários anos de experiência, sabemos que a média de ganho de peso pelas túberas com a aplicação do fungicida A, utilizado tradicionalmente pelos agricultores, é de 27,8 g

4.1. Teste bilateral

Questão: Se aplicarmos o fungicida B nas plantas de inhame, haverá diferença significativa no ganho de peso nas túberas comparado ao obtido com a aplicação do fungicida A?

Assim, podemos ter o seguinte questionamento sobre a média (µµµµ):

(a) µµµµ = 27,8 g (i.e., o fungicida B não afeta o ganho de peso - a média permanece igual a 27,8

g mesmo após a aplicação do fungicida B) (b) µµµµ ≠≠≠≠ 27,8 g (i.e., o fungicida B apresenta um efeito sobre o ganho de peso) (a) e (b) são chamadas hipóteses estatísticas (em relação ao valor de µ)

A hipótese (a) [µµµµ = 27,8 g] considera que o fenômeno em estudo (aplicação do fungicida B) não tem efeito, sendo chamada de hipótese de nulidade e escreve-se:

H0 : µµµµ = 27,8 g A hipótese (b) [µµµµ ≠≠≠≠ 27,8 g] considera que o fenômeno em estudo (aplicação do fungicida B) apresenta um efeito, sendo chamada de hipótese alternativa e escreve-se:

H1 : µµµµ ≠≠≠≠ 27,8 g

O procedimento estatístico formal para "decidir" entre H0 e H1 é conhecido como teste de hipótese. Nossa decisão será baseada em observações a partir de amostras de uma população com média µ, e reside na confiança que temos no procedimento amostral.

Suponhamos que, verdadeiramente, a µ = 27,8 g (i.e., o fungicida não tem efeito).

A nossa amostra apresenta x = 41,0 g. Mas como nossa amostra gera uma média igual a 41 se o valor real da média é 27,8?

O teste estatístico irá nos dizer se aceitamos ou rejeitamos H0 nesse caso.

Page 12: apostila de estatistica 2012

12 Método: Assumimos que a hipótese de nulidade é H0 : µµµµ = 27,8 g, onde µ0 é um valor conhecido.

Então, se assumirmos H0 como verdadeiro, assumimos que µ = µ0, logo µµµµ0 = 27,8 g.

Teste apropriado:

tcalc =xS

x oµ−

ttab = t[n-1; αααα/2] Regra de decisão:

Se tcalc > ttab, rejeita-se H0, aceitando a hipótese alternativa (H1).

Vamos supor que decidimos estudar se x difere significativamente de µ = 27,8 g ao nível de probabilidade de 5% (α = 0,05).

Para os dados referentes ao ganho de peso, onde n = 5, xS = 4,472 e µ0 = 27,8 g, temos:

tcalc = 472,4

8,270,41 − = 2,95

Com α = 0,05 → ttab[(5-1); (0,05/2) = ttab (4; 0,025) = 2,78

Uma vez que 2,95 (calculado) > 2,78 (tabelado), rejeitamos H0 e conclui-se que a hipótese alternativa (H1) é a melhor alternativa para explicar o valor de x , ou seja, o fungicida B tem um efeito significativo no ganho de peso das túberas.

4.2. Teste unilateral

Questão: Se aplicarmos o fungicida B nas plantas de inhame, haverá aumento no ganho de peso nas túberas comparado ao obtido com a aplicação do fungicida A?

Nesse caso, as hipóteses serão: H0 : µµµµ = 27,8 g H1 : µµµµ > 27,8 g

Teste apropriado:

tcalc =xS

x oµ−

ttab = t[n-1; αααα] Regra de decisão:

Se tcalc > ttab, rejeita-se H0, aceitando a hipótese alternativa (H1).

xS

x oµ− = 2,95

Com α = 0,05 → ttab [(5-1); 0,05) = ttab (4; 0,05) = 2,13

Uma vez que 2,95 (calculado) > 2,13 (tabelado), rejeita-se H0 em favor de H1 > 27,8 g, ou seja, o fungicida B causa aumento significativo de peso nas túberas.

Page 13: apostila de estatistica 2012

13 5. SIGNIFICÂNCIA DA DIFERENÇA ENTRE DUAS MÉDIAS

5.1. Teste para amostras independentes (dados não emparelhados)

O teste t pode ser empregado para testar hipóteses sobre a diferença entre duas estimativas de médias (A e B), como:

H0 : BA xx =

H1 : BA xx ≠ Quando as duas médias são estimadas a partir de amostras de mesmo tamanho, isto é, nA = nB, o teste adequado é:

tc =

nS

xx BA

2

quantidade que obedece a distribuição de t com 2(n-1) graus de liberdade. Quando as amostras são de tamanhos diferentes, o teste apropriado é:

tc = d

BA

S

xx −

onde BA

BAd nn

nnSS

.

)(2 +=

e corresponde ao desvio padrão apropriado ao teste da diferença entre as médias das duas amostras.

Em ambas as situações o valor de 2SS = é estimado pela equação:

)1()1(

222

−+−∑+∑=

BA

BA

nn

xxS

onde:

2Ax∑ = AAA nXX /)( 22

∑−∑

2Bx∑ = BBB nXX /)( 22

∑−∑

sendo que XA e XB correspondem aos valores observados em relação à variável analisada em A e B.

Na interpretação do resultado de um teste para a diferença entre duas médias, devemos considerar se o teste é unilateral ou bilateral, o que é básico para a definição da região crítica.

a. Teste bilateral

tcalc ≤ -tα/2 →→→→ rejeição de H0 ←←←← tcalc ≥ +tα/2 tcalc > -tα/2 →→→→ aceitação de H0 ←←←←tcalc < +tα/2

Page 14: apostila de estatistica 2012

14

b. Teste unilateral

tcalc ≤ -tα →→→→ rejeição de H0 ←←←← tcalc ≥ +tα tcalc > -tα →→→→ aceitação de H0 ←←←← tcalc < +tα

Exemplo: A produtividade média de massa verde (t/ha) de duas cultivares de sorgo forrageiro

atacadas pela antracnose é apresentada a seguir:

XA XB 57,8 64,2 56,2 58,7 61,9 63,1 54,4 62,5 53,6 59,8 56,4 59,2 53,2 -

∑ 393,5 367,5 2X∑ 2.174,41 22.535,87

x 56,21 61,25 Questão: Será que as duas cultivares de sorgo forrageiro (XA e XB) são igualmente produtivas quanto

atacadas pela antracnose?

Hipóteses:

H0 : BA xx =

H1 : BA xx ≠

2Ax∑ = =∑−∑ AAA nXX /)( 22

22.174,41 – 22.120,32 = 54,09

2Bx∑ = =∑−∑ BBB nXX /)( 22

22.535,87 – 22.509,37 = 26,50

=−+−

∑+∑=)1()1(

222

BA

BA

nn

xxS =

++

56

50,2609,547,33

BA

BAd nn

nnSS

.

)(2 += =

42

)67(33,7

+= 27,2 = 1,51

tcalc = d

BA

S

xx −=

51,1

25,6121,56 −=

51,1

04,5−= -3,33

G.L. = (nA -1) + (nB-1) = 11 Com α = 0,05 → ttab = t[(nA -1) + (nB-1); α/2] = t(11; 0,025) = 2,20

Uma vez que -3,33 (calculado) < -2,20 (tabelado), rejeita-se H0 em favor de H1, ou seja, as cultivares de sorgo forrageiro XA e XB não são igualmente produtivas quanto atacadas pela antracnose. Observação: para amostras de mesmo tamanho basta fazer os cálculos com nA = nB.

Page 15: apostila de estatistica 2012

15 5.2. Teste para amostras não independentes (dados emparelhados)

Esta técnica é utilizada quando se deseja testar diferenças entre médias de duas amostras não independentes, ou seja, quando os elementos de uma amostra estão correlacionados com os elementos de outra. Por exemplo, quando certo caráter é medido no mesmo indivíduo, em épocas diferentes, os valores obtidos nas duas mensurações tendem a ser mais parecidos entre si do que se houvessem sido obtidos de indivíduos diferentes.

Em experimentos com dados emparelhados são analisadas as diferenças (d) entre os valores de cada par ao invés dos valores individuais de cada membro do par.

A hipótese a ser verificada no caso de dados emparelhados é H0: d = 0, ou seja, deseja-se verificar se a diferença média entre os membros de cada par é 0. Rejeitando-se essa hipótese ao nível α de significância, aceita-se uma hipótese alternativa que pode ser do tipo H1 ≠ 0, H1 <<<< 0 ou H1 >>>> 0. No primeiro caso, o teste é bilateral, enquanto nos dois últimos, é unilateral.

A hipótese de nulidade relativa a dados emparelhados pode ser testada pelo teste t, com n-1 graus de liberdade (n = número de pares de medidas = número de diferenças d). A fórmula apropriada é:

nnn

dd i

i

d

1.

1

)( 22

∑−∑

onde

dσ é o erro padrão da diferença entre duas médias e id são as diferenças entre pares de

medidas, i = 1, 2, ..., n. Exemplo: Um experimento foi conduzido para analisar o efeito da aplicação de determinado

bactericida sobre a produção de repolho atacada pela podridão negra, causada por Xanthomonas campestris pv. campestris. Um campo foi dividido em 10 blocos de mesma área e cada bloco foi dividido em duas parcelas iguais, totalizando 10 pares de parcelas. Uma parcela de cada par foi sorteada para receber a aplicação do bactericida, enquanto na outra parcela do par não foi efetuada a aplicação. Os resultados são mostrados abaixo.

Aplicação de bactericida Diferença

Blocos (XA) (XB) (XA – XB) = Y Não tratada Tratada 1 140,4 170,5 - 30,1 2 174,7 207,4 - 32,7 3 170,2 215,9 - 45,7 4 174,6 209,0 - 34,4 5 154,5 171,6 - 17,1 6 185,0 201,2 - 16,2 7 118,9 209,9 - 91,0 8 169,8 213,3 - 43,5 9 174,7 184,1 - 9,4 10 176,7 220,4 - 43,7

n = 10 AX = 163, 95

AX∑ = 1.639,5 2

AX∑ = 272.492,93

ASQX = 3.696,9050 2

AS = 410,7672

BX = 200,33

BX∑ = 2.003,3 2

BX∑ = 404.330,69

BSQX = 3.009,6010 2

BS = 334,4001

Y = d = - 36,38

Y∑ = 363,80

2Y∑ = 17.973,30

SQY = 4.738,26 2

YS = 526,473

A última coluna representa as diferenças (XA – XB) = Y = d entre os pares de parcelas do mesmo bloco, não tratadas (XA) e tratadas (XB). Na parte inferior encontram-se os elementos necessários para cálculo das variâncias das três variáveis.

Para verificar a hipótese de que a diferença média entre parcelas tratadas e não tratadas é nula, isto é, H0: d = 0, pela técnica de dados emparelhados, calculamos pela fórmula:

Page 16: apostila de estatistica 2012

16

tcalc = d

d

σ=

n

Sy

d2

0−=

10

473,526

38,36=

2558,7

38,36−= - 5,014

As 10 diferenças (d) analisadas constituem uma amostra de uma população que consiste de um número infinito de potenciais diferenças caso o experimento seja repetido infinitamente. Se houver razão para admitir que o bactericida tanto pode aumentar como reduzir a produção, o teste deve ser bilateral. Caso contrário, o teste será unilateral.

Para α = 0,05, 9 graus de liberdade e teste bilateral, a região crítica ou de rejeição de H0 será tcalc <<<< -2,262 e tcalc >>>> 2,262. Para um teste unilateral, a região crítica será tcalc >>>> 1,833. No exemplo, tcalc = - 5,014 e a conclusão será a mesma tanto para o teste uni como bilateral, ou seja, rejeita-se H0.

Page 17: apostila de estatistica 2012

17

ANÁLISE DE VARIÂNCIA E TRANSFORMAÇÃO DE DADOS

1. INTRODUÇÃO

Nas diferentes áreas da ciência onde a experimentação é ativamente empregada para a obtenção de dados e desenvolvimento de novos conhecimentos, o uso de técnicas matemáticas para mensurar os resultados obtidos se faz freqüente e amplamente empregada pelos pesquisadores. Tais técnicas permitem inferir, sempre trabalhando com probabilidade, conclusões sobre experimentos conduzidos.

A maioria dos testes estatísticos paramétricos utilizados em Fitopatologia requer como premissa básica que os dados a serem analisados tenham distribuição Normal (Fig. 1), pois tais testes foram desenvolvidos neste principio. A análise de variância também não foge a essa regra. No entanto, quando se lida com seres vivos, a natureza biológica dos fenômenos envolvidos num experimento muito além de uma perfeita adequação a modelos matemáticos, originados de uma ciência exata. Dessa forma nem sempre os dados obtidos se encontram na forma mais adequada para análises paramétricas mais freqüentemente empregadas, podendo gerar interpretações errôneas dos resultados.

Figura 1. Curva de distribuição Normal dos dados.

A adequação dos dados para que seja possível o emprego de métodos paramétricos de análise, pode se constituir em ferramenta útil desde que bem feita. Cabe ressaltar que não se faz transformação de dados para obtenção de resultados desejados, muito pelo contrário, a transformação de dados é efetuada para adequá-los a métodos estatísticos, até certo ponto livres da imparcialidade humana que possibilitem a "enxergar" pequenas diferenças de grande importância.

2. ANÁLISE DE VARIÂNCIA

A análise de variância (ANOVA) consiste na decomposição da variação total de um material heterogêneo em parte atribuída a causas conhecidas e independentes (tratamentos), e uma porção residual de origem desconhecida e de natureza aleatória (erro experimental).

Como exemplo, vamos supor que desejamos comparar o nível de resistência de algumas cultivares de repolho com relação à alternariose. Assim, os tratamentos correspondem às cultivares, que serão inoculadas com conídios de Alternaria brassicicola. Para tanto, deve-se estimar a parte da variância populacional independente dos tratamentos, isto é, aquela variância devida ao erro experimental, causada pela desuniformidade da inoculação, pelos diferentes tipos de folhas inoculados, pela diferente quantidade de conídios que irão cair em cada folha, etc.; e aquela variância devido ao efeito da cultivar, pelo seu nível de resistência. Após isso, ambas as estimativas são comparadas e, se forem significativamente diferentes, deduz-se que as cultivares de repolho apresentam diferenças quanto à resistência à alternariose. Finalmente, aplica-se um teste de comparação de médias e conclui-se qual é mais resistente.

O objetivo da análise de variância é determinar se existe ou não diferença entre médias de três ou mais grupos (tratamentos).

Page 18: apostila de estatistica 2012

18

2.1. Pressuposições básicas da análise de variância

Para a realização da análise de variância, algumas pressuposições devem ser consideradas:

• Aditividade dos efeitos dos tratamentos e dos efeitos dos erros; • Independência de todos os erros experimentais; • Normalidade da distribuição dos dados; • Homogeneidade da variância dos erros experimentais.

2.1.1. Aditividade do modelo

Os efeitos de tratamento mais efeitos de ambiente (erro) devem ser aditivos, ou seja, se somarem, sendo que para cada delineamento existe um modelo matemático, denominado modelo linear aditivo. Para o delineamento inteiramente casualizado, o modelo é Xij = m+ ti + eij, onde expressa que o valor de qualquer unidade experimental (Yij) é resultante de uma média geral ( m ), mais um efeito de tratamento (ti) e mais um efeito do erro experimental (eij). O modelo correspondente ao delineamento em blocos casualizados é Xij = m+ ti + bj + eij, onde o valor de qualquer unidade experimental (Yij) é resultante de uma média geral ( m ), mais um efeito de tratamentos (ti), mais um efeito de blocos (bj) e mais um efeito do erro experimental (eij).

Como exemplo de aditividade, no delineamento em blocos casualizados, o modelo implica que um efeito de tratamento é o mesmo para todos os blocos e que o efeito de bloco é o mesmo para todos os tratamentos. Caso isso não se verifique, torna-se necessária a transformação dos dados experimentais para ajustá-los ao modelo aditivo.

Se existe interação entre os termos, isto é, não aditividade, o teste F não será eficiente em discriminar efeitos de tratamentos. Essas interações podem ser devidas a diversos fatores, por exemplo, sinergismo/interferência, em que quando se inclui uma planta com algum problema fisiológico num experimento de perdas causadas por doença, o efeito dessa inclusão pode ser multiplicativo ao invés de interativo. Da mesma forma, se em determinado experimento de controle químico existe parcela com material "indevidamente" resistente à doença em estudo, os efeitos dos piores produtos podem ser alterados de maneira multiplicativa, resultando em interpretações errôneas.

2.1.2. Independência dos erros

Implica que não existe relação entre o tamanho dos erros e a unidade experimental à qual eles pertencem. A probabilidade de que o erro de uma observação qualquer tenha um determinado valor não deve depender dos valores dos erros de outras observações. Parcelas adjacentes tendem a estar mais relacionadas que parcelas distribuídas aleatoriamente. Este é o principal motivo para não considerarmos como sub-parcelas, ou repetições, a pura divisão da parcela, sem casualização. A independência dos erros é assegurada pelo principio da casualização.

Se os erros não são independentes, a validade do teste de F pode ser prejudicada. Não há um ajuste ou transformação simples para superar a não independência dos erros. A solução para se evitar tal problema está numa completa casualização do experimento.

2.1.3. Normalidade na distribuição dos dados

Os erros experimentais devem apresentar distribuição Normal, significando que deve haver uma grande freqüência de erros de pequena magnitude e uma pequena freqüência de erros de grande magnitude, em valores absolutos. A ausência de normalidade dos erros não é tão importante para a análise de variância, porém, quando transformações não são suficientes para trazê-los à normalidade, devem ser empregados testes não-paramétricos.

Para se testar a normalidade da distribuição dos erros existem vários testes, como Lilliefors, Kolmogorov-Smirnov e Shapiro-Wilk. O teste de Shapiro-Wilk é um dos mais indicados, podendo ser utilizado tanto para amostras pequenas quanto para amostras maiores. Quando a amostra é muito pequena (n = 10), todos os testes apresentam limitações, mas o teste de Shapiro-Wilk tem desempenho superior aos demais. Para amostras grandes, o teste de Shapiro-Wilk tem performance superior ao teste de Lilliefors, que supera o teste de Kolmogorov-Smirnov.

O teste de Shapiro-Wilk se baseia na distância observada entre valores simetricamente posicionados, assumindo que o tamanho da amostra é n os valores sucessivos x1, x2, ..., xn, foram preliminarmente sorteados por valores crescentes: x1 ≤ x2 ≤ .... ≤ xn.

Page 19: apostila de estatistica 2012

19 A distância dos valores posicionados simetricamente, em torno da média, é mensurada por:

(xn – i +1 − xi ), for i = 1, 2, ..., k,

onde k = (n + 1)/2.

A estatística W é a base do teste, obtida por:

Os valores críticos de probabilidade (P) da estatística W são calculados, sendo as hipóteses testadas:

Ho = os dados apresentam distribuição normal Ha = os dados não apresentam distribuição normal.

Aceita-se a hipótese de nulidade que os dados são normalmente distribuídos quando o valor de probabilidade (P) é maior que 0,05 (P > 0,05)

2.1.4. Homogeneidade de variâncias

Essa pressuposição refere-se ao fato de que os erros (eij) devem ter igual variância (ou variâncias homogêneas) em todos os tratamentos considerados. Como exemplo, num experimento de controle químico de determinada doença, a testemunha pode apresentar maior variabilidade do que os tratamentos, considerando porcentagem de folhas doentes. Assim, a testemunha poderá apresentar resultados como 84%, 67%, 45%, 92% e 78%, enquanto um tratamento apresentar valores de 4%, 1%, 2%, 3% e 0%. É muito provável, nestas condições, que as médias e variâncias estejam correlacionadas entre si, ou seja, média alta e variância alta, ou média baixa e variância baixa. Esta relação entre médias das amostras e suas variâncias é o caso mais comum de heterogeneidade da variância. Outros tipos de dados que geralmente apresentam uma relação entre variância e médias são baseados em contagens e dados de porcentagem e proporção.

A maioria dos testes estatísticos requer homogeneidade de variância para que as respostas sejam confiáveis. A homogeneidade de variância é importante porque, sendo o Quadrado Médio do Resíduo (QMR) o termo usado para comparação na análise de variância, haverá perda de eficiência nas estimativas dos efeitos de tratamentos e perda de sensibilidade dos testes de significância se ele for obtido a partir de variâncias diferentes de tratamentos ou grupos de tratamentos. Isso porque o QMR nada mais é que uma média das variâncias dentro de tratamentos ou dentro de grupos de tratamentos. Essas perdas serão tanto maiores quanto mais discrepantes forem as variâncias que compõem o QMR. As comparações entre tratamentos, feitas por testes que utilizam o QMR, estarão distorcidas pois: Tukey → r/QMRq=∆ ; Duncam → r/QMRz=∆ ; LSD → r/QMRt=∆ .

Para testar a homogeneidade da variância dos erros existem vários testes, como de Cochran, Bartlett, F máximo de Hartley, Levene e Brown & Forsythe. O teste de Levene é um dos mais poderosos e utilizados para testar a homogeneidade da variância dos erros, enquanto o teste de Brown & Forsythe é uma modificação do teste de Levenne.

Se o teste de Levene é significante estatisticamente (P≤0,05), a hipótese de homogeneidade das variâncias é rejeitada. Portanto, existe homogeneidade nas variâncias se P>>>>0,05.

Page 20: apostila de estatistica 2012

20

2.2. Decomposição da variância total

Para demonstrar como é desdobrada a variação total, medida em termos de variância, consideremos um caso geral em que se tem n linhas e k colunas de dados, sendo que as linhas representam as repetições e as colunas, os tratamentos. Suponhamos, ainda, que se deseja testar a hipótese de que as médias das populações das colunas sejam iguais.

Assim:

X11 X12 ... X1J ... X1K i = 1,2, ... n X21 X22 ... X2J ... X2K j = 1, 2 ... k . . . . . . . . . . . .

∑==

k

1jjTG

Xi1 Xi2 ... X1j ... X1k . . . . . . . . . . . . Xn1 Xn2 ... Xnj ... Xnk

nk

Gx =

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Totais T1 T2 ..... Tj ..... Tk Médias 1x 2x jx kx

Na tabela anterior, Xij indica a iésima medida da coluna de orden j. A média das colunas de ordem j é indicada pelo símbolo

jx . Coloca-se um ponto na frente do j para indicar que a média foi obtida

somando no índice i (linhas). G representa a soma de todos os dados e a média geral x .

Quando na análise é considerado apenas um único critério, representado pelos efeitos dos vários tratamentos, é denominada “análise de variância segundo um único critério”, ou também “análise de variância de experimentos inteiramente casualizados”. A seguir são apresentados os passos para esse tipo de análise

2.3. Passos da análise de variância segundo um único critério

a) Calcular o fator de correção (FC)

nk

GFC

2

= , sendo G o total geral de todas as observações

b) Calcular a soma de quadrados total (SQtotal)

FCxSQ 2total −∑= , sendo∑ 2x o somatório dos quadrados de todas as observações

Page 21: apostila de estatistica 2012

21 c) Calcular a soma dos quadrados dos tratamentos (SQ1)

FCn

tSQ −= ∑

2

1, em que ∑ 2t é o somatório dos quadrados de vários tratamentos e n é o

numero de repetições.

Essa última fórmula pode ser empregada quando o número de repetições é o mesmo em todos os tratamentos. No caso em que os tratamentos apresentam um número diferente de repetições, a fórmula a ser empregada será:

.FCn

T...

n

T

n

TSQ

k

2k

2

22

1

21

1 −+++= Isto é, deveremos elevar ao quadrado o total de cada

tratamento e dividir o resultado pelo número correspondente de repetições, antes de realizarmos a soma. d) Calcular a soma dos quadrados dentro dos tratamentos (SQ2)

SQ2 = SQtotal – SQ1 e) Calcular a variância do efeito dos tratamentos

1k

SQQM 1

1 −= , que pode ser efetuado diretamente na tabela.

f) Calcular a variância do resíduo

)1n(k

SQQM 2

2 −= , que pode também ser efetuado diretamente na tabela

g) Calcular o valor de F

Obtido da razão entre duas variâncias:

2

1

QM

QMF =

O teste F é feito com o objetivo de aceitar ou rejeitar a hipótese de nulidade (Ho), que deve sempre ser feita inicialmente: Ho = T1 = T2 = ... = Tk (os efeitos dos tratamentos são iguais).

O valor calculado de F é comparado com o valor da tabela (a 1% ou 5% de nível de probabilidade), para (k-1) e k(n-1) graus de liberdade. A tabela usada é de dupla entrada, e, que se leva em consideração GL entre tratamentos e dentro de tratamentos.

No caso em que o valor de Fcalculado ser igual ou maior que o Ftabelado, rejeita-se a hipótese Ho, concluindo-se que existe pelo menos um tratamento que difere dos demais. Se Fcalculado for menor que Ftabelado, aceita-se Ho, podendo afirmar que não existe uma diferença significativa entre os vários tratamentos.

h) Quadro da análise de variância

O quadro de análise de variância representa o sumário de todos os procedimentos a serem adotados para aceitação ou rejeição da hipótese de nulidade (Ho), sendo composta, na análise de variância segundo um único critério, por:

Page 22: apostila de estatistica 2012

22

Quadro da análise de variância segundo um único critério

Causa de variação Graus de liberdade (GL)

Soma dos quadrados (SQ)

Quadrado médio (QM)

F calculado

Entre tratamentos k-1 FC

n

tSQ −= ∑

2

1

1k

SQQM 1

1 −=

2

1

QM

QMF =

Dentro de tratamentos (erro)

k(n-1) SQ2 = SQtotal – SQ1 )1(

22 −

=nk

SQQM

Total kn-1 SQtotal

2.4. Exemplo de aplicação da análise de variância

Os dados da tabela abaixo se referem à incidência (%) de determinada doença radicular em quatro cultivares de feijoeiro.

Repetição Cultivar A Cultivar B Cultivar C Cultivar D

1 40 29 11 17 2 24 27 21 31 3 46 20 17 28 4 20 39 37 33 5 35 45 39 21

Total (t) 165 160 125 130

Total geral (G) = 580

Questionamento: Será que existe alguma diferença significativa na incidência da doença radicular entre as cultivares de feijoeiro?

Análise de Variância

Hipótese ... Ho: TA = TB = TC = TD ∝ = 0,05 n = 5 k = 4 kn = 20 G = 580 FC = 5802/20 = 16.820 SQtotal = (402 + 242 + ... + 212) – 16.820 = 18.738 – 16.820 = 1.918 SQ1 = [(1602 + 1652 + 1252 + 1302)/5] – 16.820 = 17.070 – 16.820 = 250 SQ2 = 1.918 – 250 = 1.688 QM1 = 250/(4-1) = 250/3 = 83 QM2 = 1.688/16 = 105 Fcalculado = 83/105 = 0,80

Page 23: apostila de estatistica 2012

23

Quadro da Análise de Variância (ANOVA) Fonte de variação GL SQ QM F Entre tratamentos (cultivares) 3 250 83 0,80 Dentro de tratamentos (erro) 16 1.688 105 Total 19 1.918 Ftabelado = F(0,05; 3,16) = 3,24 Fcalculado (0,80) < Ftabelado (3,24) Conclusão: aceita-se Ho, ou seja, não existe diferença significativa entre os vários tratamentos (as

cultivares se comportam de modo similar) 3. TRANSFORMAÇÃO DE DADOS

Nem sempre as pressuposições para análise de variância são atendidas e os métodos utilizados para sanar essas falhas são: omissão de determinada parte do experimento, subdivisão da variância residual e transformação de dados para uma outra escala antes da análise de variância.

Variância constante, homocedasticidade, não é a única condição necessária para tornar a análise de variância válida. Porém, na maioria das vezes quando se procede à transformação de dados para resolver o problema da heterocedasticidade, resolve-se também problemas de normalidade e aditividade, desde que a transformação escolhida seja adequada.

Os objetivos da transformação de dados são:

• Obter variâncias dos erros mais homogêneas • Melhorar a aditividade • Gerar uma distribuição de erros mais próxima à distribuição Normal

Uma transformação de dados adequada é aquela que:

• A variável transformada não é afetada por mudanças do valor médio • A variável transformada se toma normalmente distribuída • A média aritmética dos valores transformados estima imparcialmente a média verdadeira • A escala de transformação é tal que os efeitos reais são lineares e aditivos.

A escolha da transformação a ser utilizada é de extrema importância e muitas vezes difícil de ser feita, motivo pelo qual se utiliza o método de tentativas e acertos. O ideal é conhecer a forma matemática da distribuição de freqüência dos erros. Entretanto, na prática isto não é feito por não se conhecer a distribuição não-normal dos erros.

Para todo e qualquer caso em que se emprega transformação dos dados, os testes de médias devem ser realizados em dados transformados e na apresentação dos resultados podem ser apresentados dados transformados ou não transformados. No caso da utilização de dados não transformados, podem ser utilizados os dados originais ou efetuada a de-transformação de maneira adequada para cada tipo de transformação utilizada, sendo que nesse caso pode não resultar exatamente no dado original.

3.1. Transformação raiz quadrada de x ( x )

Quando os dados são contagens, como número de colônias fúngicas e/ou bacterianas numa placa, número de juvenis de nematóides, número de plantas doentes e outros, a freqüência de distribuição destes dados tende a ser do tipo Poisson, em detrimento á distribuição Normal. A distribuição de Poisson é caracterizada por possuir variância igual á média (σ2 = µ2), portanto, a média e a variância não são independentes, e quanto maior a média maior a variância e vice-versa.

A transformação x geralmente faz com que as variâncias se tornem independentes da média, sendo que o efeito marcante dessa transformação é aumentar a precisão nas medidas de diferenças entre médias pequenas. Isto é interessante em experimentos de controle de doença, em que não estamos tão interessados em diferenças entre tratamentos ineficientes (altos valores de doença; médias altas), como estamos em tratamentos que possibilitem bom controle (menores médias). Se existem valores

Page 24: apostila de estatistica 2012

24 iguais a zero (x = 0) deve-se acrescentar + 0,5 ou 1,0 para que se possa extrair a raiz quadrada, ou seja, 5,0x + ou 1x + .

Dados de porcentagens, referentes à contagens, quando variam de 0 a 20% ou de 80 a 100%, podem ser transformados através de raiz quadrada. Nesse caso, as porcentagens entre 80 e 100% devem ser, de preferência, subtraídas de 100 antes da transformação.

3.2. Transformação angular ou arcsen 100/P

Alguns tipos de dados podem necessitar de transformação angular, principalmente aqueles expressos em porcentagem ou proporção da amostra total. Em Fitopatologia, avaliações envolvendo medidas em porcentagem são constantes, principalmente em experimentos de intensidade de doença, em que se mede incidência (porcentagem de plantas doentes) e/ou severidade (porcentagem de área doente). Normalmente, este tipo de dado tem distribuição binomial, sendo esta caracterizada por haver relacionamento entre a variância e a média. Nesse tipo de distribuição, as variâncias tendem a ser menores nas extremidades da faixa de valores (próximo a 0 e a 100 %) e tendem a ser grandes nos valores intermediários (ao redor de 50%). Para esse tipo de dado, a transformação angular ou Arcsen 100/P ajusta os dados de modo a se obter homogeneidade de variância, normalidade e

aditividade do modelo. Quando, porém, todo os dados estiverem na faixa entre 30 a 70 %, não é necessário efetuar a transformação.

3.3. Transformação logarítmica

A transformação logarítmica pode ser eficiente quando a variância é proporcional ao quadrado da média (ou desvio padrão proporcional à média) e/ou quando os efeitos são multiplicativos ao invés de serem aditivos. Essa transformação é satisfatória quando os dados se referem à contagem de bactérias, de esporos fúngicos, podendo ser utilizada também quando os dados são apresentados por porcentagens que abrangem uma grande amplitude de variação. Tanto logaritmo decimal quando natural pode ser empregado, o mais comum é o decimal.

Normalmente, observa-se que, nos casos em que as variâncias são proporcionais às médias, maiores médias geram maiores variâncias e vice-versa e o coeficiente de variação é constante de tratamento para tratamento. Aplicando-se a transformação logarítmica este efeito é corrigido.

Algumas considerações em relação à transformação logarítmica devem ser observadas:

• Quando os números são negativos, essa transformação não deve ser empregada.

• Quando os valores são iguais a zero, deve ser somado + 1 a todos s dados antes da transformação [log ( x + 1 )]. Porém, quando o número de dados iguais a zero é grande, essa transformação não deve ser utilizada.

• Quando os valores são entre 0 e 1, os dados devem ser multiplicados por 10 ou 1000 para evitar valores negativos de logaritmo.

• Dados de crescimento de organismos normalmente requerem transformações logarítmicas para serem analisados.

Page 25: apostila de estatistica 2012

25

TESTES DE COMPARAÇÃO MÚLTIPLA DE MÉDIAS

1. INTRODUÇÃO

Feita a análise de variância, se o valor de F para os tratamentos não for significativo, aceitaremos a hipótese de nulidade (H0) e usualmente não fazemos a comparação entre os tratamentos. No entanto, quando a hipótese de nulidade é rejeitada, sabemos que existe diferença entre os tratamentos, mas não sabemos entre quais tratamentos existem diferenças. Isto é possível por um teste suplementar sobre as médias. Existem vários testes de comparação múltipla de médias, mas serão abordados somente três, os mais utilizados em Fitopatologia: Diferença Mínima Significativa (DMS), Teste de Duncan e Teste de Tukey.

2. TESTE DA DIFERENÇA MÍNIMA SIGNIFICATIVA – DMS (ou LSD)

O teste DMS de Fisher (ou LSD, em inglês) é muito empregado para comparação de médias. O DMS é, basicamente, um intervalo de confiança para a diferença entre duas médias. É calculado por:

n

QMGLtDMS res2)(α=

onde:

)(GLtα = valor na tabela de t ao nível de significância ∝ para o GL do resíduo do experimento.

QMres = quadrado médio do resíduo

n = número de observações por tratamento.

No caso do experimento apresentar diferente número de repetições para os tratamentos, deve-se empregar a fórmula:

21

21 )()(

nn

nnQMGLtDMS res +

= α

onde n1 e n2 correspondem ao número de repetições dos dois tratamentos que estão sendo comparados.

Qualquer diferença entre duas médias maior que o DMS calculado, é considerado significante ao nível ∝ especificado. Exemplo: Em um experimento com 6 fungicidas (A-F), temos as seguintes médias de crescimento

fúngico.

75,41=Ax 00,51=Bx 25,58=Cx 00,30=Dx 00,33=Ex 50,45=Fx

Além disso, temos:

n = 4 GL. Resíduo = 15 QMres = 28,18 t(15)5% = 2,13

Page 26: apostila de estatistica 2012

26

4

18,28213,2=DMS 09,1413,2=DMS 376.13,2=DMS

01,8=DMS

25,9]00,5175,41[][ =−=− BA xx

50,16]25,5875,41[][ =−=− CA xx

75,11]00,3075,41[][ =−=− DA xx

75,8]00,3375,41[][ =−=− EA xx

75,3]00,4575,41[][ =−=− FA xx

25,7]25,5800,51[][ =−=− CB xx

00,21]00,3000,51[][ =−=− DB xx

00,18]00,3300,51[][ =−=− EB xx

50,5]50,4500,51[][ =−=− FB xx

25,28]00,3025,58[][ =−=− DC xx

25,25]00,3325,58[][ =−=− EC xx

75,12]50,4525,58[][ =−=− FC xx

00,3]00,3300,30[][ =−=− ED xx

50,15]50,4500,30[][ =−=− FD xx

50,12]50,4500,33[][ =−=− FE xx

Todas as diferenças entre as médias que forem maior do que o DMS = 8,01 são significativas. No caso, não são significativas as seguintes diferenças:

75,3][ =− FA xx

25,7][ =− CB xx

50,5][ =− FB xx

00,3][ =− ED xx Os resultados podem ser apresentados da seguinte forma:

Fungicida Crescimento fúngico (média) C 58,25 a* B 51,00 ab F 45,50 b A 41,75 b E 33,00 c D 30,00 c

*Médias seguidas pela mesma letra não diferem significativamente entre si pelo teste de DMS (P=0,05).

3. TESTE DE DUNCAN

O teste de Duncan difere do DMS porque aqui se calcula uma amplitude mínima significativa, que é variável para uma mesma série de comparações, aumentando seu valor em comparações consecutivas. O teste de Duncan é calculado por:

Page 27: apostila de estatistica 2012

27

n

QMKtAMS res

GL α)(=

O fator KtAMS GL α)(= é chamado amplitude studentizada, que chamaremos de z e nos é

dado por uma tabela. Para sabermos o número de médias abrangidas, dispomos em ordem decrescente – (A B C D E ...); uma comparação entre B e C, por exemplo, abrange 2 médias; já uma comprovação entre A e D abrange 4 médias. Assim, devemos calcular vários AMS ou, mais precisamente, quantas médias houver menos 1. Para simplificar, usaremos a fórmula:

n

QMzAMS res=

Os valores de QMres e n são achados da mesma forma que para o DMS. As tabelas de z (uma

para ∝ = 0,05 e outra para ∝ = 0,01) são de dupla entrada: na horizontal, número de médias abrangidas pelo contraste; na vertical, GL do resíduo.

Exemplo: Considerando o mesmo conjunto de dados anterior (DMS) teremos.

75,41=Ax 00,51=Bx 25,58=Cx 00,30=Dx 00,33=Ex 50,45=Fx

Dispondo em ordem decrescente, temos: C ..... 58,25 B ..... 51,00 F ..... 45,50 A ..... 41,75 E ..... 33,00 D ..... 30,00 Considerando os dados da Análise de Variância, teremos:

66,24

18,282

===n

s

n

QM res

Então, os diversos valores de ztabelado com ∝ = 0,05 são:

Z6 = 3,36 Z5 = 3,31 Z4 = 3,25 Z3 = 3,16 Z2 = 3,01

- Para 6 médias: AMS6 = 3,36 x 2,66 = 8,94 - Para 5 médias: AMS5 = 3,31 x 2,66 = 8,80 - Para 4 médias: AMS4 = 3,25 x 2,66 = 8,64 - Para 3 médias: AMS3 = 3,16 x 2,66 = 8,41 - Para 2 médias: AMS2 = 3,01 x 2,66 = 8,01 Sempre se inicia pelo teste das médias mais afastadas, pois se a diferença entre elas não for

significativa, torna-se desnecessário testar as demais.

25,28][ =− DC xx

25,25][ =− EC xx

50,16][ =− AC xx

75,12][ =− FC xx

Page 28: apostila de estatistica 2012

28

25,7][ =− BC xx

00,21][ =− DB xx

00,18][ =− EB xx

25,9][ =− AB xx

50,5][ =− FB xx

50,5][ =− DF xx

50,12][ =− EF xx

75,3][ =− AF xx

75,11][ =− DA xx

75,8][ =− EA xx

00,3][ =− DE xx No caso que acabamos de ver, os resultados podem ser apresentados da seguinte forma:

Fungicida Crescimento fúngico (média) C 58,25 a* B 51,00 ab F 45,50 b A 41,75 b E 33,00 c D 30,00 c

*Médias seguidas pela mesma letra não diferem significativamente entre si pelo teste de Duncan (P=0,05).

4. TESTE DE TUKEY

No desenvolvimento de testes de múltiplas comparações, um problema que surge é que, em experimentos onde se tornam necessárias muitas comparações de tratamentos, quase sempre declaramos como significativas algumas diferenças entre médias que na verdade pertencem a um grupo homogêneo. Isso tem levado os pesquisadores a procurar tipos de testes que contornem ou minimizem esse problema. O teste de Tukey é um desses testes.

Esse teste serve para qualquer contraste entre duas médias de tratamentos. É efetuado computando-se a diferença ∆ e então se comparando com as k(k-1)/2 diferenças possíveis de um experimento.

Começa-se por calcular:

n

QMq res=∆ , onde:

q = amplitude total studentizada. Valor determinado numa tabela de duas entradas: GL do resíduo e k (número de tratamentos).

O teste de Tukey é extremamente fácil de ser aplicado, pois requer um simples valor para julgar a significância de todas as diferenças. Todo e qualquer contraste entre duas médias que exceder o valor ∆ calculado é significativo ao nível de significância estipulado.

O teste de Tukey, preferencialmente, deve ser utilizado quando o número de observações por tratamento (repetições) for o mesmo para todos os tratamentos. No caso de serem diferentes, as comparações podem ser feitas pela fórmula:

Page 29: apostila de estatistica 2012

29

resQMnn

q )11

(2

1

21

+=∆

Todavia, nesse caso, os resultados são apenas aproximados, devendo ser encarados com reserva.

Exemplo: Os resultados de um experimento apresentaram o seguinte quadro de análise de

variância:

F.V. GL SQ QM F Tratamentos 3 1.636,5 545,5 5,41 Resíduo 20 2.018,8 100,9 Total 23 3.655,3

Com as seguintes médias por tratamento:

1721 =x 1852 =x 1763 =x 1624 =x n = 6

Então:

2,161,496,36

9,10096,3 ===∆ x

13][ 21 =− xx

4][ 31 =− xx

10][ 41 =− xx

9][ 32 =− xx

23][ 42 =− xx

14][ 43 =− xx

Dos seis contrastes existentes, somente 23][ 42 =− xx excede 16,2, sendo portanto, a única

diferença estatística significativa ao nível estipulado.

Os resultados podem ser apresentados da seguinte forma:

Tratamento Média 2 185 a 3 176 ab 1 172 ab 4 162 b

*Médias seguidas pela mesma letra não diferem significativamente entre si pelo teste de Tukey (P=0,05).

Pode ocorrer que o teste F seja significativo e não detecte pelo teste de Tukey nenhuma

diferença significativa entre as médias dos tratamentos. Isso ocorre em virtude do rigor desse teste, bem como pelo fato da utilização de um único valor para julgar todas as comparações possíveis entre as médias.

Page 30: apostila de estatistica 2012

30

DELINEAMENTOS EXPERIMENTAIS

1. DELINEAMENTO INTEIRAMENTE CASUALIZADO Descrição do problema:

Um micologista tem como objetivo analisar a influência de quatro fungicidas (A, B, C, D) no crescimento micelial de um fungo, em condições de câmara de crescimento.

Questionamentos:

1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).

Respostas:

1. Uma placa de Petri. 2. Diâmetro do crescimento micelial, pela mensuração do crescimento em dois sentidos

diametralmente opostos em cada placa. Posteriormente, cálculo da porcentagem de inibição do crescimento micelial (ICM), pela fórmula: ICM = [(Tratamento – Testemunha)/Testemunha] x 100

3. Fungicidas A, B, C e D + Testemunha (T) (sem fungicida) 4. Cinco repetições, sendo cada repetição representada por uma placa (unidade amostral) 5. Considerando que o ensaio será realizado em condições controladas, os tratamentos e as

repetições serão sorteadas num delineamento inteiramente casualizado:

A2 B2 C4 T2 A5

C1 D1 T1 B3 C3

D5 T3 A1 D3 A3

D2 C2 B1 T4 D4

B4 A4 T5 B5 C5

6. Quadro da análise de variância (ANOVA):

Causa de variação Graus de

liberdade (GL) Soma dos quadrados

(SQ) Quadrado médio

(QM) F calculado

Entre tratamentos (T) t - 1 SQT QMT = SQT/GLT F = QMT/QMR

Resíduo (Dentro tratamentos) (R) t . (r - 1) SQR QMR = SQR/GLR

Total (To) (t . r) - 1 SQTo

Onde: t = número de tratamentos; r = número de repetições por tratamento

Dados:

Tratamento Repetição / Inibição do crescimento micelial – ICM (%) 1 2 3 4 5

Fungicida A 25 27 31 26 14 Fungicida B 6 12 6 12 7 Fungicida C 83 71 62 59 79 Fungicida D 53 42 47 50 36

Page 31: apostila de estatistica 2012

31

2. DELINEAMENTO EM BLOCOS AO ACASO Descrição do problema:

Um micologista tem como objetivo analisar o comportamento de quatro cultivares de feijoeiro (E, F, G, H) em relação a determinada doença fúngica em condição de casa de vegetação.

Questionamentos:

1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).

Respostas:

1. Um vaso, com três plantas por vaso. 2. Severidade da doença (%), estimada nas três folhas mais velhas de cada planta com o auxílio de uma

escala diagramática, obtendo-se a média por vaso. 3. Cultivares: E, F, G, H 4. Cinco repetições (blocos), sendo cada repetição representada por um vaso (unidade amostral) 5. Considerando que o ensaio será realizado em casa de vegetação sem condições controladas de

fotoperíodo e temperatura, os tratamentos e as repetições serão distribuídos num delineamento em blocos ao acaso:

Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5

F1 G2 F3 E4 G5

E1 H2 E3 F4 E5

H1 F2 G3 G4 H5

G1 E2 H3 H4 F5

6. Quadro da análise de variância (ANOVA):

Causa de variação Graus de

liberdade (GL) Soma dos quadrados

(SQ) Quadrado médio

(QM) F calculado

Entre tratamentos (T) t - 1 SQT QMT = SQT/GLT FT = QMT/QMR

Entre blocos (B) b-1 SQB QMB = SQB/GLB FB = QMB/QMR

Resíduo (Dentro tratamentos) (R) (t - 1) . (b - 1) SQR QMR = SQR/GLR

Total (To) (t . b) - 1 SQTo

Onde: t = número de tratamentos; b = número de blocos (repetições) por tratamento

Dados:

Tratamento Repetição / Severidade – SEV (%) 1 2 3 4 5

Cultivar E 11 5 10 4 7 Cultivar F 34 28 39 40 31 Cultivar G 63 71 82 69 53 Cultivar H 13 22 17 30 16

Page 32: apostila de estatistica 2012

32

3. DELINEAMENTO INTEIRAMENTE CASUALIZADO EM ARRANJO FATORIAL COM 2 FATORES

Descrição do problema:

Um micologista tem como objetivo analisar a influência de quatro meios de cultura (Tratamentos I = A, B, C, D) e dois tipos de luz (Tratamentos II = X e Z) no crescimento micelial de um fungo, em condições de câmara de crescimento.

Questionamentos:

1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).

Respostas:

1. Uma placa de Petri. 2. Diâmetro do crescimento micelial, pela mensuração do crescimento em dois sentidos diametralmente

opostos em cada placa. 3. Tratamentos I = Fungicidas (A, B, C e D) e Tratamentos II = tipos de luz (X e Z) 4. Quatro repetições, sendo cada repetição representada por uma placa 5. Considerando que o ensaio será realizado em condições controladas, os tratamentos e as repetições

serão distribuídos num delineamento inteiramente casualizado, em arranjo fatorial:

AX1 BZ1 CZ4 AZ3 BZ4 BX3 DX1 AX2

DZ2 BX2 AX3 DX2 CZ3 AZ1 BX1 CX2

AZ4 DX4 CX3 BZ3 DZ1 BZ2 DX3 DZ3

AX4 DZ4 BX4 AZ2 CX1 CZ2 CZ1 CX4

6. Quadro da análise de variância (ANOVA):

Causa de variação Graus de liberdade (GL)

Soma dos quadrados (SQ)

Quadrado médio (QM)

F calculado

Entre tratamentos I (TI) tI - 1 SQTI QMTi = SQTI/GLTI FTI = QMTI/QMR

Entre tratamentos II (TII) tII - 1 SQTII QMTiI = SQTII/GLTII FTII = QMTII/QMR

Interação TI x TII (I) (tI - 1) (tII - 1) SQI QMI = SQI/GLI FI = QMI/QMR

Tratamentos (Tr) t - 1 SQTR -

Resíduo (Dentro tratamentos) (R) r - 1 SQR QMR = SQR/GLR

Total (To) (t . r) - 1 SQTo

Onde: t = número de tratamentos; r = número de repetições por tratamento

Dados:

Tratamentos I Tratamentos II Repetição / Crescimento micelial – CML (mm) (Meio de Cultura) (Tipo de Luz) 1 2 3 4

A X 22 18 33 25 Z 75 71 69 54 B X 29 23 24 31 Z 59 56 51 55 C X 44 36 39 41 Z 55 54 62 47

D X 66 54 56 57 Z 26 28 25 31

Page 33: apostila de estatistica 2012

33

4. DELINEAMENTO INTEIRAMENTE CASUALIZADO EM ARRANJO FATORIAL COM 3 FATORES

Descrição do problema:

Um micologista tem como objetivo analisar a influência de quatro meios de cultura (Tratamentos I = A, B, C, D) e dois tipos de luz (Tratamentos II = X e Z) no crescimento micelial de três isolados de um fungo (Tratamentos 3 = L, S e U), em condições de câmara de crescimento.

Questionamentos:

1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).

Respostas:

1. Uma placa de Petri. 2. Diâmetro do crescimento micelial, pela mensuração do crescimento em dois sentidos diametralmente

opostos em cada placa. 3. Tratamentos I = Fungicidas (A, B, C e D), Tratamentos II = tipos de luz (X e Z) e Tratamentos III =

isolados (L, S e U). 4. Quatro repetições, sendo cada repetição representada por uma placa 5. Considerando que o ensaio será realizado em condições controladas, os tratamentos e as repetições

serão distribuídos num delineamento inteiramente casualizado, em arranjo fatorial:

Obs: não está casualizado !!!

AXL1 AXS1 AXU1 AZL1 AZS1 AZU1

AXL2 AXS2 AXU2 AZL2 AZS2 AZU2

AXL3 AXS3 AXU3 AZL3 AZS3 AZU3

AXL4 AXS4 AXU4 AZL4 AZS4 AZU4

BXL1 BXS1 BXU1 BZL1 BZS1 BZU1

BXL2 BXS2 BXU2 BZL2 BZS2 BZU2

BXL3 BXS3 BXU3 BZL3 BZS3 BZU3

BXL4 BXS4 BXU4 BZL4 BZS4 BZU4

CXL1 CXS1 CXU1 CZL1 CZS1 CZU1

CXL2 CXS2 CXU2 CZL2 CZS2 CZU2

CXL3 CXS3 CXU3 CZL3 CZS3 CZU3

CXL4 CXS4 CXU4 CZL4 CZS4 CZU4

DXL1 DXS1 DXU1 DZL1 DZS1 DZU1

DXL2 DXS2 DXU2 DZL2 DZS2 DZU2

DXL3 DXS3 DXU3 DZL3 DZS3 DZU3

DXL4 DXS4 DXU4 DZL4 DZS4 DZU4

Page 34: apostila de estatistica 2012

34

6. Qual o esquema do quadro da análise de variância (ANOVA) ?

Causa de variação Graus de liberdade (GL) Soma dos quadrados (SQ)

Quadrado médio (QM)

F calculado

Entre tratamentos I tI - 1 SQ Tratamento I QMTI FI Entre tratamentos II tII - 1 SQ Tratamento II QMTII FII Entre tratamentos III tIII - 1 SQ Tratamento III QMTIII FIII Interação I x II (tI - 1) (tII - 1) SQ Interação (I x II) QMTI x II FI x II Interação I x III (tI - 1) (tIII - 1) SQ Interação (I x III) QMTI x III FI x III Interação II x III (tII - 1) . (tIII - 1) SQ Interação (II x III) QMTII x III FII x III Interação I x II x III (tI - 1) . (tII - 1) . (tIII - 1) SQ Interação (I x II x III) QMTI x II x III FI x II x III Tratamentos t - 1 SQ Tratamentos - Resíduo r -1 SQ Resíduo QMR Total (t . r) - 1 Onde: t = número de tratamentos

r = número de repetições por tratamento

Dados:

Tratamentos I Tratamentos II Tratamentos III Repetição / Crescimento micelial – CML (mm) (Meio de Cultura) (Tipo de Luz) (Isolado) 1 2 3 4

L 18 23 32 15 X S 33 54 56 48 A U 8 16 19 27 L 15 23 21 22 Z S 7 9 12 14 U 34 67 56 49 L 67 56 45 51 X S 79 85 98 87 B U 58 51 67 59 L 93 87 91 78 Z S 55 34 46 39 U 77 78 89 91 L 33 23 34 29 X S 12 17 21 9 C U 21 37 18 29 L 8 17 21 19 Z S 36 45 54 32 U 21 28 31 39 L 11 13 29 21 X S 7 16 21 27

D U 14 17 21 32 L 32 37 41 44 Z S 23 31 41 30 U 19 16 11 17

Page 35: apostila de estatistica 2012

35

5. DELINEAMENTO INTEIRAMENTE CASUALIZADO EM PARCELAS SUBDIVIDIDAS Descrição do problema:

Um fitopatologista tem como objetivo comparar a severidade de uma doença em três níveis de adubação (A1, A2, A3) e dois espaçamentos (E1, E2), em canteiros similares.

Questionamentos:

1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).

Respostas:

1. Uma planta. 2. Severidade da doença em “n” folhas ou na planta inteira, estimada com escala diagramática, obtendo-se

a média por canteiro. 3. Tratamentos Principais (P) = níveis de adubação (A1, A2, A3) e Tratamentos Secundários (S) =

espaçamentos (E1, E2). 4. Quatro repetições, sendo cada repetição representada por um canteiro com “n” plantas. 5. Considerando que os canteiros são similares, os tratamentos e as repetições serão distribuídos num

delineamento inteiramente casualizado, em parcela subdivididas:

Procedimento de casualização: 1o = sorteio da distribuição dos níveis de adubação (A1, A2, A3) 2o = sorteio da distribuição dos espaçamentos (E1, E2) dentro dos níveis de adubação

A1 A3 A3

E1 E2 E2 E1 E1 E2

A2 A3 A1

E2 E1 E1 E2 E2 E1

A1 A2 A1

E1 E2 E2 E1 E1 E2

A3 A2 A2

E2 E1 E1 E2 E2 E2

Dados:

A1 A2 A3 Repetição E1 E2 E1 E2 E1 E2

I 58 44 85 59 66 54 II 77 59 90 68 93 75 III 38 30 73 45 67 53 IV 52 34 77 55 64 48

Page 36: apostila de estatistica 2012

36

6. DELINEAMENTO EM BLOCOS AO ACASO EM PARCELAS SUBDIVIDIDAS Descrição do problema:

Um fitopatologista tem como objetivo comparar a severidade de uma doença em três níveis de adubação (A1, A2, A3) e dois espaçamentos (E1, E2), em canteiros que não são similares.

Questionamentos:

1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).

Respostas:

1. Uma planta. 2. Severidade da doença em “n” folhas ou na planta inteira, estimada com escala diagramática, obtendo-se

a média por canteiro. 3. Tratamentos Principais (P) = níveis de adubação (A1, A2, A3) e Tratamentos Secundários (S) =

espaçamentos (E1, E2). 4. Quatro repetições, sendo cada repetição representada por um canteiro com “n” plantas. 5. Considerando que os canteiros não são similares, os tratamentos e as repetições serão distribuídos num

delineamento em blocos ao acaso, em parcela subdivididas:

Procedimento de casualização: 1o = agrupamento dos canteiros similares, formando blocos 2o = sorteio da distribuição dos níveis de adubação (A1, A2, A3) 3o = sorteio da distribuição dos espaçamentos (E1, E2) dentro dos níveis de adubação

A2 A1 A3

Bloco I E2 E1 E1 E2 E1 E2

A1 A3 A2

Bloco II E1 E2 E2 E1 E2 E1

A1 A3 A2

Bloco III E2 E1 E1 E2 E1 E2

A1 A3 A2

Bloco IV E1 E2 E2 E1 E2 E1

6. Quadro da análise de variância (ANOVA):

Causa de variação Graus de liberdade (GL) Soma dos quadrados (SQ)

Quadrado médio (QM)

F calculado

Entre tratamentos P tP - 1 SQ Tratamentos P QMTP FP Blocos tB - 1 SQ Blocos QMB FB Resíduo (a) (tp - 1) - ((tP - 1) + (tB - 1)) SQ Resíduo (a) QMRa Parcelas tp-1 SQ Parcelas Entre tratamentos S tS - 1 SQ Tratamentos S QMTS FS Interação P x S (tP - 1) x (tS - 1) SQ Interação P x S QMIPxS FPxS Resíduo (b) tT - (tp -1) - (tS - 1) - (tP - 1) . (tS - 1) SQ Resíduo (b) QMRB Total (t . r) - 1 SQ Total

Page 37: apostila de estatistica 2012

37

Onde: tp = número de tratamentos na parcela principal tB = número de tratamentos na parcela secundária t = número total de tratamentos r = número de repetições por tratamento

Dados:

A1 A2 A3 Bloco E1 E2 E1 E2 E1 E2

I 58 44 85 59 66 54 II 77 59 90 68 93 75 III 38 30 73 45 67 53 IV 52 34 77 55 64 48

Page 38: apostila de estatistica 2012

38

CORRELAÇÃO LINEAR

1. INTRODUÇÃO

Quando duas variáveis não podem ser consideradas uma independente e outra dependente, em função de ambas estarem sujeitas a erros experimentais, o emprego da análise de regressão não é satisfatório, sendo mais adequada a análise de correlação.

A correlação determina o grau de relação entre duas variáveis. O coeficiente de correlação é um número puro, sem unidade ou dimensão, variando entre –1 e +1. Os valores –1 e +1 indicam o máximo de correlação (100%), em que o sinal (+ ou -) indica o sentido da correlação. Valores positivos indicam a tendência de uma variável aumentar quando a outra aumenta. Quando o coeficiente é negativo, valores altos de uma variável estão associados a valores baixos da outra. O valor 0 significa independência das variáveis, ou seja, não existe correlação.

O coeficiente de correlação de Pearson (r) é o mais apropriado para variáveis aleatórias contínuas e pode ser obtido pela seguinte fórmula:

−=

∑ ∑∑ ∑

∑ ∑ ∑

n

YY

n

XX

n

YXXY

r2

22

2 )()(

)).((

em que X e Y representam os dados relativos às variáveis e n o número de observações.

O valor de r é calculado com base nos n elementos de uma amostra, representando apenas uma estimativa do verdadeiro coeficiente de correlação populacional ρ. Para testar a significância da correlação, é considerada a seguinte hipótese de nulidade:

H0: ρ = 0 vs. H1: ρ ≠ 0

A hipótese de nulidade ρ = 0 indica que X e Y não são relacionadas, enquanto a hipótese alternativa ρ ≠ 0 mostra que X e Y são relacionadas.

Para testar a significância da correlação existem vários métodos, mas um dos mais utilizados é o teste t:

21

2

r

nrt

−−=

O tcalculado será comparado ao ttabelado, a um nível de α de probabilidade, com (n-2) graus de liberdade. Se tcal ≥ ttab, rejeita-se Ho. Exemplo: Considerando-se n pares de observações referentes às variáveis X e Y:

X 26 30 44 50 62 68 74 Y 92 85 78 81 54 51 40

Primeiramente, procede-se aos seguintes cálculos:

ΣY = 481; ΣY2 = 35.451; ΣX = 354; ΣX2 =19.956 ; ΣXY = 22.200

Para calcular o coeficiente de correlação de Pearson (r), emprega-se a equação:

−=

∑ ∑∑ ∑

∑ ∑ ∑

n

YY

n

XX

n

YXXY

r2

22

2 )()(

)).((=

7

)481(451.35

7

)354(956.19

7

)481)(354(200.22

22

= -0,9572

Page 39: apostila de estatistica 2012

39 O teste t, para o coeficiente de correlação, considerando H0: ρ = 0 vs. H1: ρ ≠ 0, é:

21

2

r

nrt

−−= =

2)9572,0(1

279572,0

−−−− = -7,398

Este valor absoluto de t (7,398) é comparado com o valor tabelado, no nível de significância

desejado, por exemplo, 2,571 ao nível de 5% de probabilidade ou 4,032 ao nível de 1%. Uma vez que 7,398 excede ao valor de 4,032, conclui-se que há evidência suficiente de que a 1% ρ ≠ 0 e rejeita-se a hipótese de nulidade H0: ρ = 0.

Page 40: apostila de estatistica 2012

40

REGRESSÃO LINEAR

1. INTRODUÇÃO

A palavra regressão foi incorporada na linguagem estatística por Pearson, para designar a expressão de uma variável como função de uma ou mais variáveis. Uma regressão linear simples permite determinar, a partir de estimativas dos parâmetros, como uma variável independente (X) exerce, ou parece exercer, influência sobre outra variável (Y), chamada de variável dependente.

A utilidade da regressão se apresenta quando o investigador questiona, por exemplo, a existência da associação entre a temperatura e a intensidade da doença, ou entre a intensidade da doença e as perdas de rendimento da cultura, ou seja, quer saber se as mudanças de uma variável provocam alterações na magnitude de outras.

No decorrer dos trabalhos de experimentação em Fitopatologia, é comum encontrar as variáveis X e Y, com algum grau de relação entre si, de modo que o efeito de uma delas (X) exerce ação sobre a outra (Y) de certa forma mensurável. Por exemplo:

a) O número de lesões causadas por um fungo (Y) depende da temperatura (X) em que as plantas se encontravam.

b) O crescimento do micélio de um fungo (Y) depende da concentração (X) de um determinado aminoácido no meio de cultura.

c) A produção de uma cultura (Y) depende da intensidade (X) da doença num determinado estádio de crescimento da planta.

Portanto, X é a variável independente e Y a variável dependente ou resposta.

Estas relações podem ser expressas por uma equação do 1º grau:

Yi=a+bXi+ei (eq. 1)

Esta equação expressa cada posição de Yi, em relação ao valor Xi, a qual é representada por urna série de pontos sobre um plano.

Figura 1 - Representação gráfica de uma regressão linear simples.

Esta relação poderá ser expressa da seguinte forma: o valor do iésimo Y, ou seja, Yi é igual ao valor do parâmetro a mais o valor do produto do parâmetro b vezes Xi,adicionando-se o valor do erro (ei).

Os valores de b e de a são obtidos pelo método dos mínimos quadrados, que consiste em minimizar os quadrados dos desvios dos valores observados de Y, em relação às respectivas estimativas.

Assim,

Page 41: apostila de estatistica 2012

41

n

)X(X

n

)Y).(X(XY

b2

2 ∑−∑

∑∑ ∑−

=

e

XbYa −= em que Y e X representam as médias dos dados relativos às variáveis Y e X, respectivamente, e n o número de observações

2. CARACTERÍSTICAS DO COEFICIENTE DE REGRESSÃO

1. b indica o numero de unidades que varia o Y, quando o X varia em uma unidade.

2. Se b é positivo, ao aumentar o valor de X, aumenta-se o de Y, e ao diminuir o de X, diminui-se o de Y.

3. Se b é negativo, ao aumentar o valor de X, diminui-se o de Y e vice-versa.

4. b é um estimador do parâmetro β da respectiva população.

5. b mede a declividade da linha de regressão.

6. Se b é positivo, a linha de regressão é ascendente da esquerda para a direita, e se negativo, descendente da esquerda para a direita.

3. SIGNIFICÂNCIA DA REGRESSÃO

Para testar a significância da regressão, é considerada a seguinte hipótese de nulidade:

H0: β = 0 vs. H1: β ≠ 0

A hipótese de nulidade β = 0 indica que Y não depende de X, enquanto a hipótese alternativa β ≠ 0 mostra que Y depende de X.

Para testar a significância da regressão, procede-se aos seguintes cálculos das somas dos quadrados (SQ):

SQ regressão =

2

22

n

)X(X

n

)Y).(X(XY

∑−∑

∑ ∑−

SQ total = n

)Y(Y

22 ∑

∑ −

SQ erro = SQ Total – SQ Regressão

Para testar a significância do coeficiente de regressão (b), utiliza-se o teste t, considerando:

t =

∑−n

)X(X

QMerro

b

22

em que QM erro (Quadrado Médio do Erro) = 2n

SQerro

Page 42: apostila de estatistica 2012

42 Exemplo: Considerando-se n pares de observações referentes às variáveis X e Y:

X 26 30 44 50 62 68 74 Y 92 85 78 81 54 51 40

Primeiramente, procede-se aos seguintes cálculos: ΣY = 481; ΣY2 = 35.451; ΣX = 354; ΣX2 =19.956 ; ΣXY = 22.200

Y =7

481= 68,7142 e

7

354X = = 50,5714

Para estimar b, emprega-se a equação:

n

)X(X

n

)Y).(X(XY

b2

2 ∑−∑

∑∑ ∑−

= =

7

)354(956.19

7

)481)(354(200.22

2

− = -1,035

E para calcular a, emprega-se a equação:

XbYa −= = 68,7142 – (-1,035) x 50,5714 = 121,056 A equação estimada é:

Yi= 121,056 - 1,035 Xi A análise de variância da regressão será:

SQ regressão =

2

22

n

)X(X

n

)Y).(X(XY

∑−∑

∑ ∑−=

[ ]27143,053.2

8571,124.2−= 2.198,464

SQ total = n

)Y(Y

22 ∑

∑ − = 35.451 =−7

)481(451.35

2

2.399,4286

SQ erro = SQ Total – SQ Regressão = 2.399,4286 – 2.198,464 = 200,9626

QM regressão = oGLregressã

oSQregressã= 2.198,4644/1 = 2.198,4644

QM erro = GLerro

SQerro= 200,9626/5 = 40,1925

Segue abaixo o quadro de análise de variância da regressão: Fonte de variação Graus de liberdade SQ QM F

Regressão 1 (p-1) 2.198,4644 2.198,4655 54,698 Erro 5 (n-2) 200,9626 40,1925 Total 6 (n-1) 2.399,4286

Page 43: apostila de estatistica 2012

43 O valor de F tabelado com 1 e 5 graus de liberdade (regressão e erro) e 1% de significância é

16,26. Portanto, o valor calculado de 54,69 excede ao valor tabelado, podendo-se concluir que a regressão é significativa ao nível de 1% de probabilidade.

O teste t, para o coeficiente de regressão, considerando H0: β = 0 vs. H1: β ≠ 0, é:

t =

∑−n

)X(X

QMerro

b

22

=

7143,053.2

1925,40

035,1−=

1399,0

035,1−= -7,398

Este valor absoluto de t (7,398) é comparado com o valor tabelado, no nível de significância desejado, por exemplo, 2,571 ao nível de 5% de probabilidade ou 4,032 ao nível de 1%. Uma vez que 7,398 excede ao valor de 4,032, conclui-se que há evidência suficiente de que a 1% β é diferente de 0, e rejeita-se a hipótese de nulidade H0: β = 0.

É necessário calcular o coeficiente de determinação (R2) para investigar a adequabilidade da regressão como propósito de previsão. O R2 indica a proporção da variação de Y que é “explicada” pela regressão ou quanto a SQtotal está sendo “explicada” pela regressão ou quanto da variação na variável dependente Y está sendo explicada pela variável independente X:

R2 = SQtotal

oSQregressã=

42,399.2

46,198.2= 0,9162

Esse resultado indica que 91,62% da variação das observações de Y é devida á regressão linear

(ou devida á tendência linear das observações) e 8,38% é devida ao erro.

Na equação Yi= 121,056 - 1,035 Xi, para estimar valores de Yi, dado um valor Xi, deve-se ter cuidado em não utilizar valores de Y estimados a partir de valores de X fora da faixa de estimação, isto é, fora dos limites para os quais a equação foi estimada ou seja, valores de X variando de 26 a 74. A teoria diz que a precisão dos valores estimados de Y decresce para os valores de X, que se distanciam da média X .

y = 121,04 - 1,03 xR2 = 91,62%

0

20

40

60

80

100

20 30 40 50 60 70 80

X

Y

Figura 2 - Gráfico da regressão e equação estimadora.

Page 44: apostila de estatistica 2012

44

-15

-12

-9

-6

-3

0

3

6

9

12

15

20 30 40 50 60 70 80

X

Res

íduo

s

Figura 3 - Gráfico dos resíduos (valores reais – valores estimados pela regressão) 4. REGRESSÃO LINEAR MÚLTIPLA

A regressão linear simples é muitas vezes inadequada para satisfazer ás exigências de uma investigação. Duas ou mais variáveis independentes podem estar relacionadas com uma variável dependente. Por exemplo, a severidade de doença numa planta pode estar relacionada com a temperatura e com a duração do molhamento na sua superfície foliar durante o período de infecção.

Assim, o modelo linear, para duas variáveis independentes seria:

22110 XbXbbY ++= (eq. 2) em que, 1b e 2b são coeficientes de regressão parcial, sendo estimadores do efeito linear das variáveis independentes X1 e X2, respectivamente, sobre a resposta total da variável dependente Y.

A regressão múltipla apresenta alguns aspectos importantes, dentre os quais se destacam: 1. Em qualquer regressão múltipla, os coeficientes se correlacionam; ao diminuir ou aumentar o número de variáveis independentes, os coeficientes de regressão parcial b também se alteram. 2. O coeficiente de determinação não diminui pela adição de novas variáveis independentes. 3. Uma correlação alta entre as variáveis independentes pode trazer problemas nos cálculos para estimação da equação.

A interpretação de uma equação de regressão múltipla é limitada por vários aspectos: Em primeiro lugar, com relação à precisão, fazendo-se previsões quando valores da variável independente estão fora dos limites utilizados para estimação da equação. Para evitar este tipo de problema, deve-se utilizar, para estimação da equação, valores de X que sejam representativos das condições para as quais a equação será utilizada.

Limitações são também impostas por correlações entre as variáveis independentes. Falsa interpretação pode ocorrer quando se dá importância a uma variável independente pouco importante, que seja correlacionada com outro fator explicativo, excluído da análise por apresentar multicolinearidade. Diz-se que existe multicolinearidade entre variáveis, quando algumas ou todas as variáveis explicativas de uma relação estão de tal forma correlacionadas entre si que se torna muito difícil, senão impossível, isolar suas influências e obter uma estimativa razoavelmente precisa de seus efeitos. Nos trabalhos em casa de vegetação e no laboratório, o controle exercido pelo delineamento experimental e pelo experimentador permite que a resposta a cada tratamento seja medida independentemente, de tal forma que as variáveis não sejam correlacionadas. A situação é bastante

Page 45: apostila de estatistica 2012

45 diferente quando se trabalha com epidemias de doenças foliares, sob condições de campo. Períodos infecciosos, severidade de doenças, perdas, produção, etc, são medidos em experimentos holísticos, nos quais um grande numero de fatores incontroláveis agem e interagem simultaneamente. Embora a análise de regressão múltipla seja recomendada para esses casos, extensiva correlação entre sistemas naturais torna muito difícil a identificação dos fatores-chaves, ou seja, aqueles mais explicativos das variações sobre a variável dependente.

Correlações entre variáveis independentes não impedem a estimação de equações com valores altos de r2, porque r2 indica a contribuição combinada destas variáveis na variação da variável dependente. O que se torna difícil é a estimação precisa dos coeficientes de regressão parciais. Numa equação com r2 alto, é possível ter coeficientes de regressão parcial com valores baixos que não sejam significativos. A razão é que se X1 e X2 forem altamente correlacionados e constituírem variáveis importantes, quando for feita a regressão de Y com X1, na presença de X2, a contribuição líquida de X1 para a variação de Y será pequena porque X2, uma boa variável explicativa, por si só contribui para a maior parte da variação. O reverso aplica-se quando se faz a regressão de Y e X2 na presença de X1. Portanto, embora o R2 seja alto, cada coeficiente de regressão parcial poderá não ser significativo, em razão desta interferência mútua entre X1 e X2. As conseqüências desta intercorrelação são freqüentemente vistas quando são estimadas consecutivas equações. A variável que é muito significativa em um estádio poderá tornar-se não significativa quando uma nova variável entra na equação, ou vice-versa. Para interpretar esse comportamento, é necessário verificar a matriz de correlação, para saber o grau de associação entre as variáveis independentes. Assim, pode-se reduzir esses problemas, selecionando-se, para a análise de regressão múltipla, por meio da matriz de correlação, as variáveis independentes que não apresentem alta correlação.

Page 46: apostila de estatistica 2012

46

NOÇÕES DE ANÁLISE MULTIVARIADA

1. INTRODUÇÃO

As técnicas de análise multivariada são métodos estatísticos apropriados para estudos em que cada unidade experimental é avaliada sob diferentes aspectos, sendo necessário considerar simultaneamente várias variáveis que contêm intercorrelações. As informações providas por análises univariadas isoladas podem ser redundantes em se tratando de um complexo de variáveis. As técnicas de análise multivariada combinam, simultaneamente, as múltiplas informações provenientes de uma unidade experimental, podendo obter-se interpretações que não seriam possíveis com o uso da estatística univariada.

Existem diferentes técnicas estatísticas de análise multivariada, sendo crescente o número de suas aplicações em Fitopatologia. Atualmente, com a maior disponibilidade de recursos computacionais, o emprego de tais técnicas torna-se potencialmente grande e o seu conhecimento indispensável aos fitopatologistas. No presente texto será dada ênfase às técnicas de análise de componentes principais e análise de agrupamento. 2. ANÁLISE DE COMPONENTES PRINCIPAIS

Esta técnica é aplicada a um conjunto de variáveis quantitativas relativas a n indivíduos. O método consiste na transformação do conjunto original de variáveis em outro conjunto, os componentes principais. Na realidade, a análise é uma troca de variáveis. As variáveis observadas são trocadas por novas variáveis abstratas, os componentes principais, esperando que os primeiros componentes principais contenham quase toda a informação original. O objetivo é resumir a informação contida no conjunto (p-dimensional) de variáveis originais, eliminando as informações redundantes em decorrência da correlação entre variáveis, permitindo assim uma avaliação da divergência entre indivíduos, mediante exames visuais, em dispersões gráficas no espaço bi ou tridimensional. A análise permite também identificar as variáveis que pouco contribuem, em termos de variação, no grupo de indivíduos avaliados.

Cada componente principal é uma combinação linear de todas as variáveis originais, sendo independentes entre si (a correlação entre dois componentes é zero) e estimados com o propósito de reter, em ordem de estimação, o máximo de informação em termos de variação total contida nos dados iniciais. Os coeficientes dos componentes principais são também denominados elementos de autovetores (“eigenvectores”) e a variância associada a cada componente principal é denominada autovalor (“eigenvalue”). Os autovalores são decrescentes do primeiro ao último componente principal, ou seja, o primeiro componente possui a maior variância, o segundo componente possui a segunda maior e assim sucessivamente. A importância de um componente se avalia por meio da porcentagem de variância que o mesmo retém. Como os componentes principais são independentes entre si, o somatório de suas variâncias corresponde à soma das variâncias das variáveis originais. Não há, portanto, perda de informação na transformação.

Na maioria das situações, o número de componentes principais necessários para extrair completamente a informação contida em um grupo de varáveis, é igual ao número de variáveis sob consideração. Porém, os primeiros componentes poderão conter a maioria da variação original, reduzindo assim a dimensionalidade do grupo de dados. Uma questão é quantos componentes principais reter (selecionar) na análise. Dentre várias opções, a mais simples e prática consiste em reter componentes que expliquem uma porcentagem relativamente alta de variação total, geralmente referida como acima de 80%. Quando esta porcentagem é acumulada pelos dois ou três primeiros componentes, considera-se a análise satisfatória.

Como os componentes principais são ortogonais entre si, os indivíduos estudados podem ser representados em um gráfico cartesiano bi ou tridimensional, sendo os eixos constituídos pelos dois ou três primeiros componentes, respectivamente. Neste gráfico, quanto mais próximos estiverem dois indivíduos, mais similares eles são entre si e vice-versa. A confiabilidade desta informação é proporcional à porcentagem da variância total explicada pelos componentes principais em consideração. Embora a similaridade entre os indivíduos seja avaliada de forma subjetiva (visual), a similaridade poderá ser interpretada com considerável simplificação.

A técnica de componentes se caracteriza por trabalhar com a média amostral ou ser usada nas situações em que há repetições de dados. A análise é baseada na matriz de variâncias e covariâncias

Page 47: apostila de estatistica 2012

47 entre variáveis. Os componentes principais são influenciados pela escala das variáveis. Quando as variáveis possuem diferentes unidades de medida e, ou, variâncias com diferentes ordens de magnitude, recomenda-se, antes de proceder à análise, padronizar as variáveis para que todas possuam variância igual à unidade. Assim, a matriz de covariâncias é transformada em uma matriz de correlações antes que a análise de componentes principais seja efetuada.

Embora a análise formalmente não requeira a distribuição normal multivariada, ela é mais apropriada para variáveis quantitativas contínuas. Além disso, os dados de todas as variáveis observadas devem ser originadas do mesmo indivíduo ou unidade experimental. 2.1 Exemplos de cálculos dos componentes principais

No exemplo da obtenção dos componentes principais, serão utilizados os dados obtidos por Almeida (1980) em seu estudo da resistência horizontal de cafeeiro ‘Catimor’ à ferrugem (Hemileia vastatrix). Foram avaliados quatro componentes de resistência: período de incubação (PI período latente médio (PLm), severidade (Sev) e número de lesões esporuladas por folha (NPF) (Tabela 1). Foi utilizada a análise de componentes principais neste estudo por haver somente informações disponíveis sobre média dos componentes de resistência. Tabela 1. Componentes de resistência1 à ferrugem de progênies de ‘Catimor’ (Almeida, 1980).

Progênies PI (dias) PLm (dias)

NPF Sev (%)

UFV 2144 23,15 32,00 9,10 11,96 UFV 1340 25,50 33,50 4,09 4,98 UFV 2861 29,37 38,04 2,34 2,22 UFV 2862 30,37 37,46 2,14 2,32 UFV 2863 30,12 41,76 2,48 2,18 UFV 1307 28,62 36,87 1,50 1,74 UFV 3684 26,62 37,12 3,66 3,16 UFV 3686 27,37 37,52 1,83 1,85 UFV 3687 30,75 38,92 2,33 2,67 UFV 3658 35,12 47,30 1,75 2,00 UFV 4303 35,20 50,22 1,25 1,25 UFV 4305 36,40 48,42 2,12 2,25

PI: período de incubação; PLm: período latente médio; NPF: número de lesões esporuladas por folha; Sev: severidade.

1o passo: padronização das variáveis, se necessário: Zij =Xij / S(Xj) Em virtude de as variáveis originais (Xi) possuírem diferentes unidades de medida, utilizam-se as variáveis padronizadas. Zij é a média padronizada da j-ésima característica (j = 1, 2, ...., p) avAliada no i-ésimo indivíduo (i = 1, 2, ...., n), Xij é a média original e S(Xj) é o desvio padrão da j-ésima característica. 5,682 5,491 4,286 4,112 6,259 5,748 1,926 1,712 7,209 6,527 1,102 0,763 7,454 6,428 1,008 0,798 7,393 7,165 1,168 0,749

Z = 7,025 6,326 0,707 0,598 6,534 6,369 1,724 1,086 6,718 6,438 0,862 0,636 7,548 6,678 1,097 0,918 8,620 8,116 0,824 0,688 8,640 8,617 0,589 0,430 8,935 8,308 0,999 0,774

Page 48: apostila de estatistica 2012

48 2o passo: cálculo da matriz de correlações (R)

r (Xj ; Xj’)= Cov (Zj ; Zj’) = )X(S).X(S

)X;X(Cov

'j2

j2

'jj (2.1a)

Ou de maneira equivalente:

rjj’ =

∑ ∑ −−

∑ −−

= =

=

n

1i

n

1i

2'j'ij

2jij

n

1i'j'ijjij

)XX()XX(

)XX)(XX(

(2.1b)

em que Cov (Xj , Xj’) e Cov (Zj , Zj’) são estimadores da covariância entre duas variáveis originais e duas variáveis padronizadas, respectivamente; r (Xj , Xj’) = rjj’ é a correlação entre duas variáveis originais (coeficiente de correlação momento-produto de Pearson); e jX e S (Xj) são a média e a

estimativa da variância para a j-ésima variável, respectivamente. 1,0000 0,9519 -0,6888 -0,6512

R = 1,0000 -0,5983 -0,5758 1,0000 0,9890 1,0000 3o passo: obtenção dos autovalores de R, por meio de

det (R - λI) = 0 (2.2) em que

λ = raízes características (ou autovalores) da matriz de correlações entre duas varáveis originais (ou de covariância entre as varáveis padronizadas). Existem p autovalores correspondentes às variâncias de cada um dos p componentes principais;

I = matriz identidade, de dimensão (p x p); e R = matriz de correlações entre pares de variáveis originais, de dimensão (p x p).

λ1 = 3,2289; λ2 = 0,7190; λ3 = 0,0443; λ4 = 0,0079

Cada autovalor é a estimativa da variância de um componente principal. A variância é

decrescente do primeiro ao último componente principal. Seja Yj um componente principal, então

S2 (Y1) > S2 (Y2) > ... > S2 (Yp); e

∑=

p

1j

S2 (Yj) = Traço (R) = p

em que Traço (R) é a soma dos elementos da diagonal dos autovalores da matriz de correlação R. 4o passo: obtenção dos autovetores

Um componente principal (Yj) é uma combinção linear de Zj

Yj = a1Z1 + a2Z2 + ... + apZp

Para a obtenção do autovetor do primeiro componente principal, utiliza-se a seguinte equação:

Page 49: apostila de estatistica 2012

49

(R - λ1I) α1 = Φ ⇒ (R – 3,2289 I) α = Φ (2.3) em que

αj = vetor característico (ou autovetor), de dimensão (p x 1), que representa o conjunto de representações ortogonais pelas quais as variáveis originais padronizadas devem ser multiplicadas para produzir os componentes principais;

Φ = vetor nulo, de dimensão p x 1.

Sendo α1’ = [a1 a2 a3 a4], obtêm-se os seguintes sistemas de equações:

-2,2289 a1 +0,9519a2

-0,6888 a3 -0,6512 a4 = 0

0,9519 a1 -2,2289 a2 -0,5983 a3 -0,5758 a4 = 0 -0,6888 a1 -0,5983 a2 -2,2289 a3 +0,9890 a4 = 0 -0,6512 a1 -0,5758 a2 +0,9890 a3 -2,2289 a4 = 0

Este sistema é indeterminado. Para a obtenção de uma solução pode-se tornar, por exemplo, a4 = 1 e considerar somente as três primeiras equações. Assim, o vetor solução deste sistema é:

α1 = [ - 1,0173 - 0,9635 1,0167 1,0000 ]

Deve-se considerar a restrição imposta α1’α1 = 1, necessária para que exista uma única solução. Assim, o vetor α1’ normalizado corresponde aos coeficientes do primeiro componente principal, ou seja:

norma de α1’ = || α1’|| = + (α1’α1)

½ = 1,9992 α1’norm. = (1 / 1,9992) α1’ α1’norm. = [ - 0,5092 - 0,4829 0,5084 0,4991 ]

Assim, fica determinado o primeiro componente principal:

Y1 = - 0, 5092 Z1 - 0,4829 Z2 + 0,5084 Z3 + 0,4991 Z4

Os autovetores dos demais componentes são obtidos de modo análogo (Tabela 2).

Tabela 2. Estimativas das variâncias (autovalores) associadas aos componentes principais e autovetores de quatro respectivos componentes de resistência à ferrugem avaliados em progênies de ‘Catimor’.

Autovetor Variância Acumulada (%) Z1* Z2 Z3 Z4

Componentes principais 3,2289 80,72 -0,5092 -0,4829 0,5084 0,4991 0,7190 98,70 0,4416 0,5633 0,4726 0,5141 0,0443 99,80 0,7099 -0,6530 -0,1331 0,2281 0,0079 100,00 -0,2045 0,1521 -0,7074 0,6592

*Z1, Z2, Z3 e Z4 correspondem às variáveis período de incubação, período latente médio, úmero de pústulas por folha e severidade, todas padronizadas com variância igual a unidade, respectivamente.

Os componentes são não-correlacionados, ou seja, são independentes entre si. Seja Yj e Yj’ dois componentes principais quaisquer, então:

Yj = a1 Z1 + a2 Z2 +... + ap Zp; Yj’ = b1 Z1 + b2 Z2 + ... +bp Zp e

Page 50: apostila de estatistica 2012

50

∑=

p

1j

a j2 = ∑

=

p

1j

b j2 = 1

∑=

p

1j

aj bj = 0;

É possível que alguns caracteres utilizados no estudo pouco contribuam para a discriminação

dos indivíduos avaliados, por serem relativamente invariantes entre estes ou por serem redundantes em virtude de serem altamente correlacionados com outros caracteres. Portanto, a eliminação dos caracteres redundantes e de difícil mensuração torna-se desejável a fim de facilitar o estudo de divergência.

Baseado no princípio que a importância dos componentes principais decresce do primeiro para o último, tem-se que os últimos componentes são responsáveis pela explicação de uma fração muito pequena da variância total. Assim, a variável que domina (aquela que possui o maior coeficiente) o componente principal de menor autovalor (menor variância) deve ser a menos importante para explicar a variância total e, portanto, passível de descarte (Pereira, 1989). A seguir, o próximo componente de menor autovalor é considerado, podendo se descartar a variável com o maior coeficiente (valor absoluto) no componente e a qual não tenha sido previamente descartada. Jollife (1972 e 1973), estabeleceu o critério que o número de variáveis rejeitadas deve ser igual ao número de componentes cuja variância é inferior a 0,7. Este critério é adotado para os casos em que os dados são padronizados e assim sendo, estimam-se os autovalores a partir da matriz de correlações. No exemplo, os componentes de resistência NPF e PI poderiam ser descartados (Tabela 2). 5º passo: seleção dos componentes principais a serem considerados na dispersão gráfica Serão utilizados os dois primeiros componentes principais, pois os mesmos retêm mais de 80% da variância original (Tabela 2).

6º passo: cálculo dos escores (coordenadas) das progênies em relação aos dois primeiros componentes principais

Tomando como exemplo o cultivar UFV2144, tem-se:

Y11 = - 0,5092 (5,682) - 0,4829 (5,491) + 0,5084 (4,286) + 0,4991 (4,112) = - 1,31

Os demais escores são apresentados na Tabela 3.

Tabela 3. Escores das progênies de ‘Catimor’ em relação aos dois primeiros componentes principais.

Progênies Y1 Y2

UFV 2144 (‘Catuaí’)

-1.31 9.74

UFV 1340 -4.13 7.79 UFV 2861 -5.88 7.77 UFV 2862 -5.99- 7.80 UFV 2863 -6.26 8.24 UFV 1307 -5.97 7.31 UFV 3684 -4.98 7.85 UFV 3686 -5.77 7.33 UFV 3687 -6.05 8.09 UFV 3658 -7.54 9.12 UFV 4303 -8.05 9.17 UFV 4305 -7.67 9.50

Page 51: apostila de estatistica 2012

51

7º passo: dispersão das progênies em relação aos dois primeiros componentes principais Quanto maior a proximidade entre progênies, maior é a similaridade entre si. A composição dos grupos de progênies é feita de forma subjetiva (visualmente). Neste caso, pode-se considerar a existência de quatro grupos, cujas médias dos componentes de resistência são apresentadas na Tabela 4.

Tabela 4. Valores médios dos componentes de resistência dos grupos de cafeeiros obtidos pela análise de componentes principais.

Grupo Componentes de resistência

PI PLm NPF SEV A UFV2144 (Catuaí) 23,2 32,0 9,1 12,0 B UFV3658 UFV4303

UFV4305 35,6 48,6 1,7 1,8

C UFV1340 UFV36840 26,1 35,3 3,9 4,1

D UFV1307 UFV2861 UFV2862 UFV2863 UFV2862 UFV2863

29,4 38,4 2,1 2,2

1PI: período de incubação; PLm: período latente médio (dias); NPF: número de pústula por

folha; SEV: severidade (%).

2.2. Aplicações da Análise de Componentes Principais em Fitopatologia

A técnica é utilizada em estudos de resistência de plantas a doenças, pela possibilidade de caracterizar genótipos do hospedeiro (Jeger et al., 1983; Liberato, 1995) e, ou, isolados de patógenos (Lalancette et al., 1983) considerando, simultaneamente (Anderson et al., 1990).

Em estudos de variabilidade genética de microrganismos, baseados em eletroforese de

proteínas e isoenzimas, a análise de componentes principais pode ser mais precisa que a observação visual na comparação de isolados, possibilitando que a relação entre estes seja mais facilmente compreendida (Zhu et al., 1988).

A análise de componentes principais foi utilizada para diferenciar isolados de Rhizoctonia solani

AG-1, baseada em suas composições de ácidos graxos (Stevens Johnk & Jones, 1994). 3. ANÁLISE DE AGRUPAMENTO

A análise de agrupamento ou “cluster analise” tem por finalidade reunir, por algum critério de classificação, os indivíduos (ou objetos, locais, tratamentos, populações, amostras, etc.) em vários grupos, de tal forma que exista homogeneidade dentro e heterogeneidade entre grupos.

Análise de agrupamento envolve basicamente duas etapas. A primeira relaciona-se com a estimação de uma medida de similaridade (ou dissimilaridade) entre os indivíduos ou populações a serem agrupados e a segunda, com a adoção de um método de agrupamento. O resultado depende da medida de similaridade e do método de agrupamento escolhidos. A análise é essencialmente descritiva.

Page 52: apostila de estatistica 2012

52 3.1. Medidas de Similaridade

O primeiro estágio da análise de agrupamento é a conversão da matriz (n x p) de dados em matriz quadrada (da ordem n x n, sendo n o número de indivíduos) de similaridade ou dissimilaridade, que são medidas da relação entre pares de indivíduos (ou populações), dado o valor de um conjunto de p variáveis. Em cada interseção da i-ésima fila e da k-ésima coluna desta matriz, coloca-se a medida de similaridade (ou dissimilaridade) entre o i-ésimo e o k-ésimo indivíduo.

Existem um grande número de medidas de similaridade (ou dissimilaridade), as quais podem

levar a diferentes resultados de agrupamento. Sua escolha é freqüentemente baseada no tipo de dados disponíveis.

Quando a magnitude da medida reflete a magnitude da dissimilaridade, ela é denominada

medida de distância, e quando reflete a magnitude da similaridade, ela é denominada coeficiente de similaridade. 3.1.1. MEDIDAS DE DISTÂNCIA

O princípio das medidas de distância considera que se dois indivíduos são similares eles estão próximos um do outro, ou seja, eles são comuns em relação ao conjunto de variáveis e vice-versa. 3.1.1.1. Distância Euclidiana

Considerando o caso mais simples, em que existem n indivíduos, cada um dos quais possuindo valores para p variáveis, a distância euclidiana entre eles é obtida por analogia ao teorema de Pitágoras para um espaço multidimensional.

A distância euclidiana, quando estimada a partir das variáveis originais, apresenta a

inconveniência de ser influenciada pela escala, pelo número de variáveis e pela correlação existente entre as mesmas. A influência das escalas é contornada pela padronização prévia das variáveis em estudos, para que possuam variância igual à unidade. Para se contornar a influência do número de variáveis sobre essa estimativa, recomenda-se a utilização da distância euclidiana média (distância euclidiana dividida pela raiz quadrada do número de variáveis). O maior inconveniente é a pressuposição da independência entre variáveis.

Esta distância é mais freqüentemente utilizada para variáveis quantitativas, sendo também

utilizada quando as unidades para o cálculo são escores de componentes principais. Quando os dados são provenientes de delineamentos experimentais, trabalha-se com as médias.

Considerando um conjunto X de dados Xjj que representam os valores da j-ésima característica (j = 1, 2, ..., p) avaliada no i-ésimo indivíduo (i = 1, 2, 3, ..., n). Esse conjunto pode ser representado em forma de matriz, na qual cada vetor linha representa um indivíduo e cada vetor coluna, uma variável.

X11 X12 ... X1p X = X21 X12 ... X2p

... ... ... ... Xn1 Xn2 ... Xnp

Define-se a distância euclidiana média padronizada entre dois indivíduos i e i’ pela expressão:

dii’= ∑ −=

p

1j

2j'iij )ZZ(

p

1 (3.1)

em que Zij = Xij / S (Xj) (3.2)

Page 53: apostila de estatistica 2012

53

3.1.1.2. Distância de Mahalanobis – D2

Na avaliação da similaridade entre tratamentos, ou populações, com relação a um conjunto de características correlacionadas, a distância entre quaisquer pares de tratamentos deve considerar o grau de dependência entre as variáveis. Uma das medidas mais utilizadas para a quantificação das distâncias entre duas populações, quando são disponíveis informações sobre média, variância e covariância residual, ou seja, quando existem repetições de dados, é a estatística D2 (distância de Mahalanobis), proposta por Mahalanobis em 1936, a qual considera a variabilidade de cada unidade amostral, sendo recomendada para dados provenientes de delineamentos experimentais, e, principalmente, quando os caracteres são correlacionados. Quando as correlações entre as variáveis são nulas, considerando-se as variáveis padronizadas, D2 é equivalente à distância euclidiana.

A utilização de D2 é adequada em estudos envolvendo variáveis quantitativas, sendo que todas

as variáveis devem ser mensuradas em cada unidade experimental. Na obtenção da distância de Mahalanobis, considera-se inicialmente um conjunto de dados X

referentes às observações da j-ésima característica (j = 1, 2, ..., p) da i-ésima população (ou amostra) (i = 1, 2, ..., n) na k-ésima repetição (k = 1, 2, ..., r). Assim, tem-se:

D2 jj’ = [d1, d2, ..., dp] E

-1 [d1, d2, ..., dp]’ (3.3) em que dj: é a diferença entre médias de duas populações i e i’ para uma dada característica j; E: é a matriz de variâncias e covariâncias residuais.

Alternativamente à expressão 3.3, a estimativa de D2 torna-se muito mais simples quando as

características sob estudo são independentes e expressas em termos de seus respectivos erros padrões. Nesse caso, a obtenção de D2 é expressa simplesmente pela soma dos quadrados das diferenças dos valores médios transformados dos vários caracteres de quaisquer pares de população.

D2 jj’ = ∑=

−p

1j

2j'iij )ZZ( (3.4)

em que zj são as médias das variáveis não-correlacionadas e padronizadas, pelo processo de condensação pivotal. 3.1.1.3. Distância de Canberra

Esta medida pode ser utilizada na avaliação da similaridade entre cultivares quanto à resistência a doenças, segundo as suas curvas de progresso de doença, em complemento aos procedimentos convencionais utilizados para comparação de epidemias.

Para a sua aplicação não é necessário assumir um modelo definido para a curva de progresso

da doença. Esta medida depende apenas de um par de indivíduos ou grupos sendo comparados, não sendo afetada pelos valores dos outros indivíduos ou tratamentos. A medida é mais sensível a diferenças proporcionais que absolutas, isto é, diferenças na severidade de doenças entre cultivares no início de uma epidemia são enfatizadas mais que similares diferenças absolutas no decorrer da epidemia. Portanto, a distância de Canberra entre 1 e 10% de doença é maior que entre 51 e 60% de doença.

Page 54: apostila de estatistica 2012

54

Seja uma matriz de dados X, a qual representa a média dos valores de intensidade de doença avaliada na i-ésima população (ou amostra) (i = 1, 2, 3, ..., n) no j-ésimo período de tempo (j = 1, 2, 3, ..., p),

X11 X12 ... X1p X = X21 X12 ... X2p

... ... ... ... Xn1 Xn2 ... Xnp

Define-se a distância de Canberra entre duas populações i e i’ pela expressão:

DCii’ = ∑=

+−p

1j

j'iijj'iij )]XX/()XX[( (3.4)

3.1.2. COEFICIENTES DE SIMILARIDADE

Existem grande número de coeficientes de similaridade, entre os quais, os mais utilizados são os coeficientes de asociação. 3.1.2.1. Coeficientes de Associação

Os coeficientes de associação constituem-se de vários algoritmos envolvendo dados variáveis) qualitativos, normalmente, caracteres binários, que são por conveniência codificados como 0 ou 1. Os códigos 0 e 1 podem representar a ausência ou a presença de uma característica, respectivamente; ou o resultado, negativo ou positivo, de uma reação bioquímica, respectivamente; ou pode ser uma arbitrária designação, como no caso de uma estrutura possuindo somente duas formas, sendo o código 0 designado para uma forma e o 1 para outra. Também podem ser aplicados para variáveis quantitativas ou ordinais, porém, neste caso, parte da informação é perdida na recodificação dos caracteres.

Quando caracteres qualitativos binários são comparados em relação a pares de indivíduos em

uma matriz de dados, o resultado pode ser sumariado em uma tabela convencional 2 x 2 de freqüência:

indivíduo i 1 0 indivíduo 1 a b K 0 c d

Sendo a o número de caracteres codificados com 1 (“concordância positiva”) em ambos os indivíduos, d é o número de caracteres codificados com zero para ambos os indivíduos (“concordância negativa”) e b e c registram o número de caracteres nos quais ambos os indivíduos discordam.

- Coeficiente de concordância simples

Ssm = dcba

da

++++

(3.6)

- Coeficiente de Jaccard

Sj = cba

a

++ (3.7)

Page 55: apostila de estatistica 2012

55 Para exemplar o cálculo de Ssm e Sj serão utilizados os dados fictícios da Tabela 13. Tabela 5. Presença (1) ou ausência (0) de cinco caracteres (X1 a X5) em cinco isolados de um fitopatógeno.

Caracteres Isolados X1 X2 X3 X4 X5

A 0 0 0 0 0 B 0 0 0 0 0 C 1 1 1 1 0 D 1 1 1 0 0 E 1 1 1 0 0

Baseado nas equações 3.6 e 3.7, estima-se a similaridade entre isolados. Ex.: isolados A e B:

Isolado A Isolado a =0 b = 0 B c = 0 d = 0

Ssm (A,B) = 15000

50 =+++

+ Sj (A, B) = 0

000

0 =++

De modo análogo, obtêm-se os coeficientes de similaridade entre os demais isolados,

apresentados a seguir:

A B C D E 1 1 0,2 0,4 0,4 A 1 0,2 0,4 0,4 B

Ssm = 1 0,8 0,8 C 1 1 D 1 E

A B C D E 1 0 0 0 0 A 1 0 0 0 B

Sj = 1 0,75 0,75 C 1 1 D 1 E

Note que, conforme o coeficiente de similaridade utilizado, os resultados podem ser totalmente diversos. A escolha correta da medida de similaridade é fundamental. O coeficiente de Jaccard omite as concordâncias negativas, sendo recomendado para estudos nos quais essas devam ser desconsideradas, ou seja, quando a ausência mútua de caracteres entre indivíduos não indica similaridade. 3.1.2.2. Coeficientes de Similaridade Utilizados para Dados de DNA

Para a avaliação da similaridade a partir de dados provenientes de análises de DNA, Nei & Li (1979) propuseram o coeficiente de similaridade Fik = 2nik /(ni + nk), em que nik é o número de fragmentos de DNA comum entre dois indivíduos e ni e nk são os números de fragmentos para os indivíduos i e k, respectivamente.

Page 56: apostila de estatistica 2012

56 3.2. MÉTODOS DE AGRUPAMENTO

Como no processo de agrupamento é desejável ter informações relativas a cada par de indivíduos (ou populações), o número de estimativas de medidas de similaridade é relativamente grande (igual a n(n – 1) / 2, em que n é o número de indivíduos), o que torna impraticável o reconhecimento de grupos homogêneos pelo simples exame visual daquelas estimativas. Para realizar essa tarefa, faz-se uso dos métodos de agrupamento. Deve-se enfatizar que os métodos são basicamente descritivos e completamente numéricos, sendo o número de grupos formados desconhecido previamente.

Existe grande quantidade de métodos de agrupamento. As diferenças entre os métodos existem

em função de diferentes formas de definir proximidade entre um indivíduo e um grupo contendo vários indivíduos ou entre grupos de indivíduos.

Não existe método aceito como o melhor. O pesquisador tem de decidir qual o método mais

adequado ao seu trabalho, uma vez que os diferentes métodos podem levar a diferentes padrões de agrupamento.

Dos métodos de agrupamento, os mais utilizados são os métodos hierárquicos.

3.2.1. MÉTODOS HIERÁRQUICOS DE AGRUPAMENTO

Nos métodos hierárquicos, os indivíduos ou populações são agrupados por um processo de aglomeração ou divisão (métodos hierárquicos aglomerativos ou divisivos, respectivamente), o qual se repete em vários níveis até que seja estabelecido um dendrograma ou diagrama de árvore, no qual o eixo “x” representa os indivíduos ou as populações e o eixo “y”, a similaridade (ou dissimilaridade), ou vice-versa. As ramificações da árvore originam n – 1 ligações. A primeira bifurcação representa a primeira ligação; a segunda, a segunda ligação; e assim sucessivamente até todos se unirem na “árvore”, cujos ramos representam os grupos. Os indivíduos são agrupados de acordo com a sua proximidade ou similaridade. Nesse caso, não há preocupação com o número ótimo de grupos, uma vez que o interesse maior está na árvore e nas ramificações que são obtidas.

Um problema comum a todos os métodos de agrupamento hierárquicos é a dificuldade de

decidir quanto ao número de grupos presente nos dados. Não há critério definitivo para se determinar o melhor número de grupos. Por outro lado, a interpretabilidade e simplicidade são importantes na análise de dados e qualquer inferência rígida sobre o número de grupos pode não ser produtiva. Para a solução desse problema, quando se utilizam métodos hierárquicos, as delimitações dos grupos podem ser estabelecidas por um exame visual do dendrograma, em que se avaliam pontos de alta mudança de nível, tornando-os, em geral, como delimitadores do número de indivíduos (ou populações) para determinado grupo.

Existem vários critérios para avaliar a eficiência do agrupamento. O mais comumente aplicado é

o coeficiente de correlações cofenéticas (CCC), sendo que um valor de CCC > 0,8 é comumente satisfatório.

Os métodos hierárquicos aglomerativos têm sido utilizados mais que os divisivos. Como exemplos daqueles citam-se o método do vizinho mais próximo (“single linkage method” – SLM) e o método não ponderado de agrupamento aos pares utilizando médias aritméticas – UPGMA. 3.2.1.1. UPGMA

A partir da matriz de distância (ou de similaridade) entre indivíduos (ou populações), identificam-se os dois indivíduos mais similares entre si, os quais são reunidos em um grupo inicial. A seguir calcula-se a distância daquele primeiro grupo em relação aos demais indivíduos, a qual é fornecida pela seguinte expressão:

d (a, b) c = 1 / 2 (da, c + db, c)

Page 57: apostila de estatistica 2012

57 A distância entre dois grupos, G1 e G2, contendo n e n’ indivíduos, respectivamente, é obtida

por:

d (C1, C2) = 'nxn

dn

1i

'n

1'i

'ii∑∑= = (3.8)

1º passo: identificação dos indivíduos mais similares entre si. 1 0 109,4 136,1 227,7 249,4 2 0 2,6 22,3 29,6

D2 = 3 0 12,0 17,2 4 0 0,6 5 0

Os indivíduos 4 e 5 são os mais similares, estabelecendo assim a primeira ligação no dendrograma. (Figura 2A). 2º passo: Obtenção da nova matriz de distância, de dimensão (n – 1) x (n –1).

D2 (4,5) 1 = (227,7 + 249,4) / 2 = 238,6

1 - 109,4 135,1 238,6 2 - 2,6 26,0

D2 = 3 - 14,6 4 - 5

A menor distância da nova matriz corresponde aos indivíduos 2 e 3, que formam a segunda ligação no dendrograma (Figura 2B). 3º passo: Obtenção da nova matriz de distância, de dimensão (n – 2) x (n – 2).

D2 (2,3) = (109 + 136,1) / 2 = 122,8 D2 (2,3) (4,5) = (2,6 + 22,3 + 29,6) / 4 = 20,7 1 - 122,8 238,6

D2 = (2, 3) - 20,7 (4,5) -

Os grupos inicialmente formados (2, 3) e (4, 5) possuem a menor distância na nova matriz, estabelecendo a terceira ligação no dendrograma (Figura 2C). 4º passo: Estimativa da distância entre o indivíduo 1 e o conjunto formado pelos demais. D2

1 (2, 3, 4 e 5) = (109,4 + 136,1 + 227,7 + 249,4) / (1 x 4) = 180,7

O estabelecimento da ligação entre o indivíduo 1 e os demais, no dendrograma é apresentado na Figura 2D.

Page 58: apostila de estatistica 2012

58 Figura 2. Dendrogramas com as etapas do agrupamento pelo método UPGMA, de cinco isolados fitopatogênicos, a partir a distância de Mahalanobis.

Os delimitadores dos grupos são estabelecidos pela alta mudança de nível no dendrograma (Figura 2D). Assim, definem-se três grupos. O primeiro, constituído pelo indivíduo 1, o segundo, pelos indivíduos 2 e 3, e o terceiro pelos indivíduos 4 e 5. 3.2.1.2. Método do Vizinho Mais Próximo – SLM

São identificados os dois indivíduos mais similares (menor distância entre eles), os quais são reunidos em um grupo inicial. A seguir, calcula-se a distância daquele primeiro grupo em relação aos demais indivíduos.

A distância entre um grupo e um indivíduo é fornecida pela expressão:

d(ab)c = min. {dac; dbc} ou seja, a distância entre o grupo constituído pelos indivíduos, a e b, e o indivíduo c é fornecida pelo menor elemento do conjunto das distâncias dos pares de indivíduos (ac) e (bc). Já a distância entre dois grupos é obtida por: d(ab) (cd) = min. {dac; dad; dbc; dbd}. Quando se utiliza coeficiente de associação, os grupos são unidos a partir do maior valor: d(ab) (cd) = max. {dac; dad; dbc; dbd}.

Constitui-se uma nova matriz de similaridade, de dimensão menor que a inicial, e identificam-se os indivíduos e, ou, grupos mais similares, incorporando-se outro indivíduo no grupo inicial ou formando um segundo grupo, caso a menor distância da nova matriz de similaridade seja entre dois outros indivíduos. Nas etapas seguintes, opera-se com matrizes de similaridade seja entre dois outros indivíduos. Nas etapas seguintes, opera-se com matrizes de similaridade de dimensões cada vez menores, finalizando com o agrupamento de todos os indivíduos em um único grupo, formando um dendrograma.

Page 59: apostila de estatistica 2012

59

A Figura 1 apresenta o dendrograma formado pelo método SLM, a partir da matriz de distância Euclidiana média baseado nos dados apresentados na Tabela 1. 100% 0

1,712 Distância euclidiana média 0

Figura 3. Agrupamento pelo método SLM, de progênies de ‘Catimor’ quanto à resistência horizontal a Hemileia vastatrix.

Baseado do dendrograma apresentado na Figura 3 pode-se considerar a existência de quatro grupos, concordando com os resultados obtidos pela análise de componentes principais (Tabela 4).

Page 60: apostila de estatistica 2012

60

NOÇÕES DE ESTATÍSTICA NÃO-PARAMÉTRICA

1. INTRODUÇÃO

Os testes estatísticos normalmente utilizados são considerados PARAMÉTRICOS por envolverem estimativa de parâmetros da população, e para que a decisão seja válida existe a dependência de se assumir condições relacionadas aos parâmetros estimados. Tais condições seriam a homogeneidade de variância e que os erros sejam normalmente distribuídos. Não havendo o atendimento a essas condições ainda assim é possível o emprego de testes paramétricos desde que os dados sejam devidamente transformados e que após esta, atendam às pressuposições.

Em alguns casos, mesmo após o uso de transformações, não é confiável empregar-se testes paramétricos, exigindo assim a execução de testes estatísticos NÂO PARAMÉTRICOS (NP). Os testes não paramétricos NÃO especificam condições sobre os parâmetros da população da qual a amostra foi obtida. São chamados de testes estatísticos livres de distribuição. Para alguns autores, os testes não paramétricos são menos poderosos que os paramétricos, no entanto, para CAMPOS (1983), tais testes são tão poderosos quanto ou mesmo de maior poder, em alguns casos, que testes paramétricos.

Os testes não paramétricos dependem de algumas pressuposições como aleatoriedade para assegurar a representatividade e independência dos dados obtidos. Este tipo de teste pode ser utilizado quando os dados originais são obtidos de medições nominais ou ordinais, ou quando dados do tipo intervalo/razão, obtidos para testes paramétricos, violam as pressuposições da análise. Neste último caso, os dados podem ser convertidos para ordinais ou nominais. 2. TIPOS DE ESCALAS DE MEDIÇÃO • Escala Nominal - quantifica apenas nominalmente as variáveis. Ex.: resistente, suscetível, verde,

de vez, maduro e outros. • Escala Ordinal - mais resistente, menos resistente, medianamente resistente, primeiro lugar,

segundo lugar, escala de notas arbitrárias e outros. • Escala Intervalar - é a escala constituída de intervalos constantes e comum de mensuração, no

entanto, o ponto zero e a unidade de medida são arbitrárias. Ex.: temperatura. • Escala de Razões - é uma escala de intervalos que possui ponto zero verdadeiro como origem.

Ex.: peso, comprimento e outros. 3. CONSIDERAÇÕES GERAIS 3.1. Pressuposições das provas NÃO-PARAMÉTRICAS

- As observações devem ser independentes. - A variável em estudo deve ter continuidade básica.

3.2. Escolha das provas NÃO-PARAMÉTRICAS

- Poder do teste. - Aplicabilidade aos dados. - Nível de mensuração atingido na pesquisa.

Page 61: apostila de estatistica 2012

61 3.3. Vantagens das provas NÃO-PARAMÉTRICAS

- As afirmações probabilísticas decorrentes da maior parte das provas são probabilidades exatas. Livre de distribuição.

- O tamanho da amostra pode ser pequeno. - Existem provas NP que permitem o tratamento de amostras constituídas de observações de

várias populações diferentes. - Permitem analisar dados de posicionamento ou ordem, nominais e de escala intervalar. - Facilidade de uso

3. 4. Desvantagem das provas NÃO-PARAMÉTRICAS

- Se todas as pressuposições associadas ao modelo estatístico paramétrico são satisfeitas, as provas NP representam desperdício de dados (poder-eficiência). Poder- eficiência: se uma prova NP tem poder de 90%, isto significa que quando todas as condições de provas paramétricas são satisfeitas, a prova paramétrica terá mesma eficiência de uma NP, com uma amostra de tamanho 10% menor que a utilizada na prova NP.

- Não leva em consideração a magnitude dos dados. - Não se pode testar interações.

4. PROVAS OU TESTES NÃO-PARAMÉTRICOS 4.1. QUANDO SE TEM APENAS UMA (01) AMOSTRA

- São aplicadas para saber se a amostra pode provir de uma população especificada; - São chamadas de provas de aderência, julga a significância global das diferenças entre as

freqüências teóricas ou esperadas e as freqüências observadas. - Prova paramétrica correspondente - Teste de "t", sendo que para tal prova a variável deve ser

medida pelo menos em escala intervalar. Quando os dados são inerentes a postos ou classificativos deve-se utilizar de provas NP.

4.1.1. Prova Binomial

Para dados do tipo 0 ou 1, doente e sadio, germinado e não-germinado, sim ou não, enfim, populações discretas com apenas duas classes. Pode ser usada quando o número de amostras é pequeno e não permite o uso de chi-quadrado 4.1.2. Chi-Quadrado

Normalmente há necessidade de se conhecer a freqüência esperada, para construir a hipótese H0. A prova de Chi-quadrado (χ2) testa se as freqüências observadas estão suficientemente próximas das esperadas para justificar sua ocorrência sob H0. É empregado quando se tem dados em categoria discreta e as freqüências esperadas são suficientemente grandes.

∑=

−=χk

1i

22 Ei/)EiOi(

Onde: Oi = número de casos observados classificados na categoria i

Ei = número de casos esperados na categoria i, sob H0 Z = somatório de todas as k categorias

Page 62: apostila de estatistica 2012

62

Graus de liberdade, GL = k-1, sendo k o número de categorias. Exs.: masculino e feminino, são duas categorias, K=2; verde, semi-maduro e maduro, K=3.

Interpretação dos valores contidos nas tabelas de probabilidade de χ2:

Se a probabilidade associada á ocorrência sob H0, do valor obtido de χ2 com GL=k-1, não supera o valor previamente fixado de α, rejeita-se H0; ao contrário, se superar, aceita-se H0.

Limitações:

Quando K=2, cada freqüência esperada (fe) NÃO deve ser inferior a 5. Se K>2, o teste χ2 não deve ser usado se mais de 20% das fe são inferiores a 5 ou se qualquer freqüência esperada é inferior a 1.

As fe's podem ser eventualmente aumentadas combinando-se categorias adjacentes. Quando se tem apenas duas categorias e fe menor que 5, ou se após combinar categorias chegar a apenas 2 e ainda se encontra em face de uma fe inferior a 4, então deve-se utilizar a prova binomial ao invés de χ2 . O teste é insensível aos efeitos de ordem. 4.1.3. Prova de Kolmogorov-Smirnov de uma Amostra

É empregada para se saber se há concordância entre distribuição de um conjunto de valores amostrais (observados) e determinada distribuição teórica especifica. Determina se os valores da amostra podem ser razoavelmente considerados como provenientes de uma população com aquela distribuição teórica.

Distribuição teórica Fo(x):

Distribuição de freqüência Acumulada de uma amostra de N observações Sn(x). A prova de Kolmogorov-Smirnov focaliza a maior diferença entre Fo(x) - Sn(x). O maior valor desta diferença é chamado desvio máximo (D)

D máx.= [Fo(x) - Sn(x)]

Uso da tabela: Os valores de N (tamanho da amostra) vão até 35. Para valores > 35, procede-se à substituição por y/ N , sendo que y varia em função do nível de significância.

Interpretação: para qualquer D> 1,36/ N , este será significativo. Se o valor de p for ≤ a α,

então rejeita-se H0.

Quando há necessidade de se combinar categorias antes de calcular χ2 , o teste de Kolmogorov-Smirnov é mais eficiente. Pode ser aplicada a amostras pequenas e no geral é mais poderosa que χ2. 4.1.4. Prova de Iteracões

Entende-se por iteração uma sucessão de símbolos idênticos que aparecem seguidos ou precedidos por símbolos diferentes, por exemplo. ++---+-+---, tem-se r=6, ou seja, número de iterações igual a 6. É usada para determinar se uma amostra é ou não aleatória e se baseia na ordem de ocorrência dos eventos e não na sua freqüência.

Não existe prova paramétrica para aleatoriedade de uma seqüência de eventos em uma amostra. A prova de iterações é um teste de ordem.

Seja nl = número de elementos de uma categoria e n2 = número de elementos de outra Categoria, p ex., nl = número de sinal +, e n2= número de sinal -. N = número total de eventos observados nl+n2 e r = número de iterações.

Page 63: apostila de estatistica 2012

63 Se o valor observado de r está entre os valores críticos, aceita-se H0. Se o valor observado de r

é igual a ou mais extremo que um dos valores críticos, rejeita-se H0.

H0 = a seqüência é aleatória

Existem duas tabelas: Fi e Fii. Fi fornece valores tão pequenos de r que a probabilidade associada à sua ocorrência, sob H0 é p=0,025. Fii fornece valores tão grandes de r que a probabilidade associada à sua ocorrência, sob H0 é p=0,025. Qualquer valor observado de r NÃO superior ao valor de Fi ou NÃO inferior ao valor Fii está na região de REJEIÇÃO de H0, para α = 0,05.

Para amostras pequena, utiliza-se tabelas Fi e Fii, Para amostras grandes (nl ou n2 > 20), utiliza-se tabela de Z, distribuição Normal.

Z = r

rr

δµ−

Cálculo de:

12nni

2n1n2r +

+=µ

)12nni.()2n1n(

)2n1n2n1n2(2n1n2r

2 −++

−=δ

4.2. PARA DUAS AMOSTRAS RELACIONADAS

Empregam-se provas estatísticas de duas amostras quando o pesquisador deseja determinar se dois tratamentos são diferentes ou se um tratamento é "melhor" que outro, Normalmente, para dados emparelhados emprega-se o teste de "t". 4.2.1. Prova de McNemar

Prova antes e depois. Quando uma ou ambas as condições em estudo tenham sido mensuradas ao nível de escala nominal. Não há necessidade de continuidade da variável. É empregada para respostas do tipo 0 ou 1, sim ou não, ou seja, binomiais. O indivíduo é seu próprio controle. Não pode haver hipótese do tipo "maior que" ou "menor que', 4.2.2. Prova dos Sinais

É útil nos trabalhos de pesquisa em que é impossível ou inviável a obtenção de uma mensuração quantitativa, mas é possível estabelecer postos em relação a cada um dos dois membros de cada par. Não se emprega medidas quantitativas. O teste dos sinais exige que a variável em estudo tenha distribuição básica continua.

A hipótese H0 é a de que não existe diferença na probabilidade de determinado evento sobre a ocorrência de outro;

H0: p(XA > XB) = p(XA<XB) = 1/2 onde: XA = é o julgamento, ou escore, sob uma das condições (p.ex.: antes do tratamento) XB = é o julgamento, ou escore, sob a outra condição (p ex.: após o tratamento)

Outra hipótese H0 é a de que a diferença mediana é zero.

Page 64: apostila de estatistica 2012

64 Ao aplicar o teste de sinais, estabelece-se o sentido da diferença XAi e XBi, para que se

determine os sinais + e - Sob H0, seria esperado igual número de sinais + e -. Para a consulta à tabela, quando se trata de amostras pequenas, é necessário determinar o

valor de N = Número de pares e de x = número de sinais que ocorrem em menor freqüência. Quando a diferença = 0, elimina-se esse par e reduz-se o valor de N.

Supondo que deseja-se avaliar o efeito de determinado fungicida sobre o aspecto estético de

frutos de mamão após o tratamento em pós-colheita. Os frutos foram submetidos à avaliação por dois grupos de profissionais, fitopatologistas e engenheiros de alimentos, sendo que os avaliadores atribuíram notas de 0 a 5 ao aspecto do fruto, sendo 0 = péssimo estado e 5 = ótimo estado, O nível de significância será α = 0,05.

H0 = Não há diferença entre notas dadas pelos grupos de profissionais H1 = As notas variam em função dos avaliadores

Notas Lotes de frutos

Fitopatologistas Engenheiros Sentido da diferença

Sinal

1 4 2 XF>XE + 2 4 3 XF>XE + 3 5 3 XF>XE + 4 2 4 XF<XE - 5 1 2 XF<XE - 6 3 3 XF=XE 0

Assim tem-se que N = 5, pois temos um valor de diferença = 0, e x = 2 ( número de -). O valor tabelado é de 0,500, como o teste é bilateral, temos que p=1,0, portanto maior que α = 0,05 ( 1,0 > 0,05), portanto, aceita-se H0.

Se N > 25, então se considera como amostra grande, podendo-se utilizar da aproximação normal da distribuição binomial:

Z = N2/1

N2/1)5,0x( −±

Onde : (x + 0,â) = correção de continuidade X+0,5 é empregado quando x < 1/2.N; e x-0,5 quando x > 1/2.N, O valor de Z calculado é obtido nas tabelas de Z. 4.2.3. Prova de Wilcoxon

Na prova dos sinais consideramos apenas o sentido da diferença dentro de cada par. Se, entretanto, pudermos considerar não só o sentido, mas o valor das diferenças teremos uma prova mais poderosa. Na prova de Wilcoxon, atribui-se maior ponderação a um par que causa grande diferença entre as condições do que a um par em que essa diferença seja pequena

Seja Di = diferença relativa a determinado par. Independente do sinal, atribui-se postos aos

Di's, o menor Di = 1. [di] = di. A cada posto atribuí-se o sinal da diferença. Se dois tratamentos são equivalentes, isto é, H0 verdadeira, alguns di's maiores favorecem o tratamento A e alguns favorecem o tratamento B. Alguns dos postos maiores proviriam de di's positivos, enquanto que outros proviriam de di's negativos. Se somarmos os postos em sinal + e postos com sinal -, essas duas somas deveriam ser aproximadamente iguais. Se a soma dos + é muito diferente dos - então rejeita-se H0.

Quando se tem empates, d = 0, estes pares são excluídos. N = número de pares, menos o número de pares com d = 0. Outro caso de empate, di's de mesma magnitude, atribui-se o mesmo

Page 65: apostila de estatistica 2012

65 posto a tais pares, e esse posto é a média dos postos que teriam sido atribuídos se os di's fossem ligeiramente diferentes. Exemplo: 1) d's = -l, -1 e +1 , que postos atribuir?

23

321 =++

Se houvesse um outro número, este receberia o posto 4, pois os postos 1, 2 e 3 já foram

"ocupados" 2) d's = -l, -1

5,12

21 =+

T = menor soma dos postos de mesmo sinal. T é a soma dos postos positivos ou soma dos

postos negativos (escolhe-se a que for menor).

Para amostras pequenas N<25, utiliza-se tabela de T (Wilcoxon e na "t" Student). Para amostras grandes utiliza-se distribuição Normal (tabela de Z).

Z = T

TT

δµ−

onde: 4

)1N(NT

+=µ e

24

)1N2)(1N(NT

++=δ

Obs.: pode ser empregado quando N < 25 Se Zcalc < Ztab, rejeita-se H0. 4.3. PARA DUAS AMOSTRAS INDEPENDENTES

São destinadas à comprovação da probabilidade de duas amostras independentes provirem de mesma população. Determinam se as diferenças nas amostras constituem evidência convincentes de uma diferença nos processos ou tratamentos aplicados a elas.

Amostras independentes podem ser obtidas: a) extraindo-se aleatoriamente de duas

populações ou b) podem decorrer da atribuição aleatória de dois tratamentos aos membros de uma amostra de origem arbitrária. Sendo que em ambos os casos não há necessidade de amostras de mesmo tamanho. Exemplo de amostragem aleatória: extração de cada sexta planta em cada fileira ou linha.

A prova paramétrica correspondente é o teste de "t" 4.3.1. Prova de Fisher

É empregada quando N é pequeno. 4.3.2. Prova da Mediana

É empregada para comprovar se dois grupos independentes diferem em tendências centrais. Se é provável que dois grupos independentes (não necessariamente do mesmo tamanho) provenham de populações com mesma mediana.

H0: dois grupos de população com mesma mediana.

Page 66: apostila de estatistica 2012

66 H1: a mediana de um grupo é diferente do outro (bilateral) ou, a mediana de um grupo é maior

(menor) que a de outro (unilateral). 4.3.3. Prova U de Mann-Whitney

A prova U de Mann-Whitney é utilizada quando se faz mensuração, no mínimo, ordinal. Pode-se aplicar esta prova, cuja finalidade é comprovar se dois grupos independentes foram ou não extraídos da mesma população É uma das mais poderosas provas NP, e constitui em alternativa extremamente útil à prova paramétrica de "t", quando as pressuposições não são atendidas ou a mensuração é inferior à da escala de intervalos. Exige escala no mínimo ordinal.

Seja duas populações, A e B.

H0: A e B têm mesma distribuição. H1: A é aleatoriamente maior que B (hipótese direcional).

Quando deseja-se comprovar se duas amostras representam populações que diferiram em

locação (tendência central), emprega-se: Prova da Mediana ou Prova de Fisher (quando N é pequeno), Prova U de Mann-Whitney ou Prova de Kolmogorov-Smirnov (unilateral). Se interessa determinar se duas amostras provêm de populações que diferiram em qualquer aspecto, isto é, locação ou dispersão, ou assimetria, deve-se escolher: χ2, Kolmogorov-Smirnov (bilateral), sendo esta última mais poderosa. A prova de χ2 é adequada para dados em escala nominal ou escala mais forte. 4.4. PARA O CASO DE K AMOSTRAS RELACIONADAS

São provas para se testar a hipótese de que K (três ou mais) amostras relacionadas tenham sido extraídas de mesma população ou de populações idênticas. A prova paramétrica para tal situação é o teste de F.

As K amostras de mesmo tamanho são postas em correspondência de acordo com determinado(s) critério(s) que pode(m) afetar os valores das observações. A correspondência pode ser obtida comparando-se os mesmos indivíduos ou casos sob todas as condições K ou então cada um dos N grupos pode ser mensurado sob todas as K condições - amostras relacionadas. 4.4.1. Prova Q de Cochran

Esta prova determina se é provável que as K amostras relacionadas tenham provindo de mesma população com respeito à pressuposição ou freqüência de "sucesso" nas várias amostras. É útil quando a mensuração da variável em estudo se apresenta em escala nominal ou ordinal dicotomizada (sucesso=1 e falha=2). 4.4.2. Prova de Friedman

Nesta prova H0: K amostras tenham sido extraídas da mesma população, baseada nos postos médios. É usada quando os dados se apresentam pelo menos em escala ordinal. Trata-se de uma prova global sobre se o tamanho dos escores depende das condições sob as quais foram obtidos. Deve-se preferir esta prova à Q de Cochran. Substitui o teste F para casos de experimentos em blocos casualizados, ou para casos de dados em tabelas de dupla entrada.

Page 67: apostila de estatistica 2012

67 4.5. PARA O CASO DE K AMOSTRAS INDEPENDENTES

Nos trabalhos de pesquisa há necessidade de se comparar se diversas variáveis independentes devem ser consideradas como procedentes de mesma população. Os valores amostrais são quase sempre diferentes, há que se determinar se as diferenças amostrais observadas sugerem realmente diferenças entre as populações ou se são apenas variações casuais que podem ser esperadas entre amostras aleatórias da mesma população. Paramétricamente, o teste empregado é de F, pela análise de variância.

H0: K amostras independentes foram extraídas da mesma população ou de K populações

idênticas.

4.5.1. Prova de χχχχ2 para K Amostras Independentes

Em geral, o teste é o mesmo tanto para duas como para K amostras independentes.

∑∑= =

−=χ

r

1i

k

1j ij

2ijij

E

)EO(2

Onde: Oij = Número de casos observados classificados na linha i e coluna j. Eij = Número de casos esperados, sob H0, na linha i e coluna j.

∑∑= =

r

1i

k

1j

= Somatório sobre todas as células

GL = (k-1)(r-1); onde k número de colunas e r é o número de linhas.

H0: K amostras de freqüência ou proporções provieram de mesma população ou de populações

idênticas.

Se χ2 observado for maior ou igual ao χ2 tabelado, rejeita-se H0.

A prova de χ2 exige que as freqüências esperadas (Eij's) em cada célula não sejam muito pequenas. Quando tal exigência não é satisfeita, os resultados da prova não são válidos. Quando K ou r é maior que 2, ou seja, χ2 com GL>1, esta prova só deve ser aplicada quando no máximo 20% das células tenham freqüência esperada inferior a 5, e que nenhuma célula tenha freqüência esperada <1. Pode ser usada quando os dados se apresentam em freqüências de categorias discretas (nominais ou ordinais). 4.5.2. Prova de Kruskal-Wallis

Cada uma das N observações é substituída por um posto. Os escores de todas as K amostras são dispostos em uma única série de postos. Ao menor escore atribuí-se o posto 1, ao seguinte o posto 2 e assim sucessivamente. N = número total de observações independentes nas K amostras. Determina-se a soma dos postos em cada amostra (coluna). A prova de Kruskal-Wallis determina se essas somas são tão dispares que não possam ser consideradas extraídas da mesma população. Substitui o teste F para experimentos inteiramente casualizados.

)1N(3n

R

)1N(N

12H

k

1j j

2j +−

+= ∑

=

onde:

K = número de amostras nj= número de casos na amostra j

Page 68: apostila de estatistica 2012

68 Rj=Soma de postos na amostra (coluna) j N= Σnj, número de casos em todas as amostras combinadas

∑=

k

1j

= Somatório sobre todas as K amostras (colunas)

Se K > 3, usar tabela de Chi-Quadrado com (k-1) graus de liberdade.

5. MEDIDAS DE CORRELAÇÃO

Determinação da existência de correlação entre duas variâncias pode constituir o objetivo de estudo. No caso paramétrico, a medida empregada é o coeficiente de correlação momento-produto, r, de Pearson. Existem medidas NP de correlação para dados tanto nominais como ordinais. 5.1. Prova de Contingência - C

A entrada de dados é por tabela de contingência.

A1 A2 A. Ak B1 2 3 .. 4 B2 B. Br

C = 2

2

N χ+χ

, sendo N = total observado.

ij

i

j

2ijij

E

)EO(

2

∑ −=χ

GL = (k-1)(r-1)

Supondo que C = 0,39, então, isto significa que a correlação expressa por um coeficiente de contingência entre determinada variável x e a outra variável y é de 0,39.

Onde não há associação o coeficiente deve anular-se, C = 0 E quando as variáveis apresentam completa dependência entre si, ou seja são perfeitamente correlacionadas, o coeficiente deve ser igual a 1 ( C = 1). Contudo, pode não atingir este valor mesmo quando variáveis perfeitamente relacionadas estão envolvidas.

As limitações da prova são aquelas impostas para a prova de χ2. Não se pode comparar dois valores de C, a menos que provenham de tabelas de contingências de mesmo tamanho. 5.2. Coeficiente de Correlação de Spearman - rs

É uma técnica bastante difundida por ser uma das provas não paramétricas mais antigas. Exige escala de medida no mínimo ordinal. Exemplo: deseja-se saber se a intensidade de coloração de determinada colônia está em função da quantidade de fonte de Carbono fornecida pelo meio de cultura antes e depois de serem incubadas a 25°C.

Page 69: apostila de estatistica 2012

69

Faz-se o ranqueamento ou ordenação dos resultados:

Escore Meio de cultura Antes Depois

di di2

BDA 1 3 -2 4 ECA 2 1 +1 1 ESA 3 4 -1 1 V8 4 2 +2 4

di = xj - yj, para evitar valores negativos, eleva-se ao quadrado (di2)

rs = NN

di61

3

2

−∑−

Page 70: apostila de estatistica 2012

70

REFERÊNCIAS SELECIONADAS

• CENTENO, A.J. Curso de estatística aplicada à biologia. 2. ed. Goiânia: Editora da UFG, 2002.

234p.

• FERREIRA, P.V. Estatística experimental aplicada a Agronomia. 3. ed. Maceió: EDUFAL, 2000. 419p.

• PIMENTEL-GOMES, F.; GARCIA, C.H. Estatística aplicada a experimentos agronômicos e florestais: exposição com exemplos e orientações para uso de aplicativos. 3. ed. Piracicaba: FEALQ, 2002. 309p.

• STEEL, R.G.D.; TORRIE, J.H.; DICKEY, D.A. Principles and procedures of statistics: a biometrical approach. 3. ed. New York: McGraw-Hill, 1996. 666p.

• STORCK, L.; GARCIA, D.C.; LOPES, S.J.; ESTEFANEL, V. Experimentação vegetal. Santa Maria: UFSM, 2000. 198p.

• VIEIRA, S. Estatística experimental. 2. ed. São Paulo: Atlas, 2002. 185p.

• ZIMMERMANN, F.J.P. Estatística aplicada à pesquisa agrícola. Santo Antônio de Goiás: Embrapa Arroz e Feijão, 2004. 402p.