teste t independente -...

32
Teste t Para Amostras Independentes

Upload: phungdieu

Post on 20-Sep-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Teste t

Para Amostras Independentes

Instalando o Ambiente Estatístico R

“Googar” R e ir ao “site”

Ir em “Download – CRAN”, Brasil – primeira opção(UFPR)

Clicar em “Downlod R for Windows”

Clicar em “Install R for the first time”

Clicar em “Download R xxx for Windows”

Executar “R xxx win.exe”

Aceitar os termos de uso

Exemplo

• Um cientista quer saber se há diferença entre as temperaturas do ar no cerrado e na floresta do Parque Estadual da Serra Azul.

Fechar o Excel

Comandos no R>dados<-read.table("temperatura.txt",h=T) -enter-

>dados -enter-área temp1 temp2 temp3 temp4 temp5

1 Cerrado 37.0 35.0 37.5 33.5 34.5

2 Cerrado 36.0 36.0 35.0 35.0 36.0

3 Cerrado 36.0 36.0 35.0 34.0 34.0

4 Cerrado 38.0 38.0 34.0 33.0 31.0

5 Cerrado 35.0 35.0 34.0 34.0 34.0

6 Cerrado 36.5 36.5 35.5 34.5 34.0

7 Cerrado 36.5 36.0 35.0 34.0 33.0

8 Cerrado 34.0 33.0 33.0 32.5 32.0

9 Cerrado 35.0 35.0 33.5 31.5 32.0

10 Cerrado 34.5 35.0 34.5 34.5 34.5

11 Floresta 31.0 31.0 31.0 30.0 28.0

12 Floresta 35.0 35.0 32.5 31.0 29.0

13 Floresta 33.0 33.0 31.0 30.0 28.5

14 Floresta 34.0 32.5 32.0 31.0 29.5

15 Floresta 34.0 32.0 31.5 30.0 29.0

16 Floresta 34.0 33.5 33.0 30.5 30.0

17 Floresta 33.0 32.0 31.0 30.0 29.5

18 Floresta 34.0 32.0 31.0 29.0 28.0

19 Floresta 30.5 29.5 29.0 28.0 27.5

20 Floresta 33.0 32.0 31.0 30.0 29.0

> dados<-read.table(“temperatura.txt", h=T)

O comando read.table vai ler os dados no arquivo “temperatura.txt” e encaminhá-los para o objeto dados. A opção h=T ou header=TRUE indica que a primeira linha do arquivo contém os nomes das variáveis.

O R procura os arquivos para importação na pasta padrão do Windows, que é Meus Documentos. Obs.: todo texto no R vem entre aspas. Por exemplo, nome de arquivo: “temperatura.txt”.

> dados

Digite dados na linha de comando para verificar o que o objeto dados contém.

Roteiro do teste t independente

1 - Pergunta

2 - Estrutura de dados

3 - Estatística Descritiva

4 - Estabelecer as Hipóteses e o nível de significância

5 - Estatística t Calculada e o valor de p associado5.1 - Pergunta

5.2 - Estrutura de dados

5.3 - Estatística Descritiva

5.4 - Estabelecer as Hipóteses e o nível de significância

5.5 - Estatística F Calculada o valor de p associado

5.6 - Comparar p com α e concluir

6 - Comparar p com α e concluir

Tese F

Test

e T

1 – Pergunta

• Ambientes diferentes (cerrado ou floresta) apresentam diferentes temperaturas do ar?

2 – Estruturas dos Dados• Y=f(x)

• Temperatura = f(ambiente)

quantitativa qualitativa (2 categorias)

cerrado ou floresta

2 amostras independentes de temperaturas

Cerrado Floresta

32

34

36

38

Ambiente

Tem

petu

ra (ºC

)

Figura 1. Temperatura do ar nos ambientes cerrado e floresta às 16:15.

Gráfico de Caixa

>boxplot(temp1~área,data=dados,xlab="Amb

iente",ylab="Tempetura (°C)")

O comando boxplot desenha gráficos de caixa (ver Sônia Vieira, 2006, Introdução à Bioestatística para interpretação)

tempe1~área equivale à temp1=f(área), ou seja, a temperatura é uma função da área, ambiente. O eixo Y é temperatura e o eixo X é o ambiente.

data=dados significa que minha variável está no objeto dados.

xlab: título do eixo X

ylab: título do eixo Y

3 – Estatística Descritiva da Amostra:

• Temperatura às 16:15 (“temp.1”)

Média�̅cerrado= 35,9°C �̅floresta= 33,2°C

Desvio padrãoscerrado= 1,23°C sfloresta= 1,42°C

Variâncias2

cerrado= 1,50°C2

s2floresta= 2,00°C2

Estatística Descritiva no R

• Temperatura do ar (às 16:15h) – coluna “temp1”

> tapply(dados$temp1,dados$área,mean)

Cerrado Floresta

35.85 33.15

> tapply(dados$temp1,dados$área,sd)

Cerrado Floresta

1.225878 1.415195

> tapply(dados$temp1,dados$área,var)

Cerrado Floresta

1.502778 2.002778

> tapply(dados$temp1,dados$área,mean)

tapply calcula a média das temperaturas (dados$temp1) agrupadas

segundo os ambientes (dados$áreas).

dados$temp1: o símbolo $ separa a variável temp1 do objeto dados.

Esta codificação indica que a variável temp1 se encontra no objeto

dados.

mean: a estatística a ser calculada é a média

Outras estatísticas:

sd: a estatística a ser calculada é o desvio padrão

var: a estatística a ser calculada é a variância

4 – Hipóteses e α:

• ��: μ���� = μ������

• os ambientes apresentam temperaturas médias do ar iguais

• ��:• os ambientes apresentam temperaturas médias do ar

diferentes

• α= 0,05 ou 5% (nível de significância)

5 – Estatística t calculada

• Há duas formas de calcular o valor de t a partir

das amostras:

1. Uma para quando as variâncias populacionais

são iguais (σ2cerrado= σ2

floresta)

2. Outra para quando as variâncias populacionais

são diferentes (σ2cerrado≠ σ2

floresta)

• Então há a necessidade de se determinar se

as variâncias populacionais são iguais ou não

através do teste F

Teste F

• 5.1 - Pergunta

As variâncias populacionais são iguais?

• 5.2 - Estrutura de dadosY=f(x)

Temperatura= f(ambiente)

• 5.3 - Estatística Descritiva:• S2

cerrado = 1,50°C²

• S2loresta = 2,00°C²

• 5.4 - Hipóteses e nível de significância:

H0: σ2

cerrado= σ2floresta

H�: σ2

cerrado≠σ2floresta

α = 0,05

Teste F

• 5.5 F = 0,75

grau de liberdade numerador (n-1) = (10-1)= 9 grau de liberdade denominador (n’-1) = (10-1) = 9

O valor de p associado ao F calculado:

p = 0,6757

• 5.7 – Comparar p com α:Se o p for menor que o α, rejeito H�Se o p for maior que o α, aceito H�

Como p>α (p>0,05), então aceita-se H0

• 5.8 – Conclusão:

Concluo que as variâncias do Cerrado (1,50°C2) e da Floresta (2,00°C2) não diferem significativamente (p>0,05). Então devo utilizar o teste t para variâncias iguais.

Teste F para Comparação de

Variâncias no programa R> var.test(temp1~área,data=dados)

F test to compare two variances

data: temp1 by área

F = 0.7503, num df = 9, denom df = 9, p-value = 0.6757

alternative hypothesis: true ratio of variances is notequal to 1

95 percent confidence interval:

0.1863755 3.0208916

sample estimates:

ratio of variances

0.7503467

> var.test(temp1~área,data=dados)

var.test: Calcula o valor da estatística F e o valor p

associado da função temp1~área a partir das variáveis

contidas no objeto dados (data=dados)

5 – Estatística t Calculada e Valor

de p

t = 4,56

Graus de liberdade = 18

p = 0,0002426

Estatística t e valor de p no programa R

> t.test(temp1~área,data=dados,var.equal=TRUE,

alternative="two.sided")

Two Sample t-test

data: temp1 by área

t = 4.5602, df = 18, p-value = 0.0002426

alternative hypothesis: true difference in means isnot equal to 0

95 percent confidence interval:

1.456092 3.943908

sample estimates:

mean in group Cerrado mean in group Floresta

35.85 33.15

> t.test(temp1~área,data=dados,var.equal=TRUE,

alternative="two.sided")

t.test: Calcula o teste t para amostras independentes da função .

data=dados: As variáveis estão contidas no objeto dados.

var.equal=TRUE: as variâncias populacionais são iguais.

var.equal=FALSE: as variâncias populacionais são diferentes.

alternative="two.sided": na hipótese alternativa há duas forma da

desigualdade ocorrer (��� < ����� ou ��� > �����)

6 – Comparar p com α e concluir

• p=0,0002426 e α = 0,05

– Se o p for menor que o α, rejeito H�– Se o p for maior que o α, aceito H�

• p <α

• Rejeito H�: μ����=μ������

e Aceito H�: μ����≠μ������(μ����>μ������)

6 – Comparar p com α e concluir

• Rejeito H0

• Concluo que, às 16:15, a média da temperatura do ar no cerrado (35,9 ±1,23°C, média ± desvio padrão) é significativamente maior do que a média da temperatura do ar na Floresta (33,2 ±1,42°C) (p<0,05).

Laboratório de Estatística Aplicada LEA – Gauss

Professor: Roberto Leung

Alunos:Bruna Fernanda (matemática)

Edenilson Meurer (biologia)

Hérica Dias (engenharia de alimentos)

Júlio César (engenharia de alimentos)

Pablo Henrique (biologia)

Pollyanna Nogueira (engenharia de alimentos)