estatística: aplicação ao sensoriamento remoto ser 204...

Estatística: Aplicação ao Sensoriamento Remoto

SER 204 - ANO 2019

Estimação Pontual

Camilo Daleles Rennó [email protected]

http://www.dpi.inpe.br/~camilo/estatistica/

Quais os valores possíveis de X? Valores inteiros (número de tentativas bem-sucedidas) Mínimo 0 (nenhuma bola vermelha) Máximo 3 (todas 3 são bolas vermelhas) X: {0, 1, 2, 3}

Qual a distribuição de probabilidade de X? X é discreto A probabilidade de sucesso p é igual para todas tentativas O número de sorteios é pré-definido (n = 3) e o número de sucessos é a v.a. X

Distribuição: Binomial Quais os parâmetros que definem esta Binomial? n e p

n = 3

p = ?

Inferência Estatística

DISTRIBUIÇÃO CONHECIDA PARÂMETRO(S) DESCONHECIDO(S)

Considere o experimento: retiram-se 3 bolas de uma urna (com reposição). Define-se uma v.a. X cujo valor representa o número total de bolas vermelhas dentre as 3 escolhidas. Qual a média e variância de X?

2


Numa imagem, um pixel é selecionado ao acaso. Define-se uma v.a. X cujo valor representa seu valor digital. Qual a probabilidade deste pixel possuir valor entre 100 e 150?

Quais os valores possíveis de X? Considerando uma imagem 8 bits... Mínimo 0 (região escura) Máximo 255 (região clara) X: {0, 1, ..., 255}

Qual a distribuição de probabilidade de X? X é discreto Desconhecida (discreta) Que parâmetros são necessários para definir esta distribuição? ???????

DISTRIBUIÇÃO DESCONHECIDA

3


amostra

inferir certas características da população

distribuição desconhecida e/ou

parâmetros desconhecidos

n elementos (ou objetos) da população ex: sortear n pixels de uma imagem (com ou sem reposição) n realizações da v.a. ex: medir a reflectância de um objeto n vezes

a amostra constitui um conjunto de n v.a. X1, X2, ..., Xn com mesma distribuição (conhecida ou não)

Amostra Aleatória

4

Como uma amostra aleatória é um conjunto de n v.a.:

cada amostragem resulta num conjunto distinto de valores e portanto pode levar a uma conclusão distinta

Amostra Aleatória

5

Sorteio de 10 bolas

bolas vermelhas são maioria

mesma proporção

só há bolas vermelhas na urna!

Conclusão:

Grandes questões: • Quão representativa é a amostra disponível para a análise? tamanho de amostra e métodos de obtenção das amostras • Que características devem ser observadas para representar a população? estimação de parâmetros • Quão confiável é conclusão atingida pela pesquisa? erros

Estimação de Parâmetros

População Amostra

Distribuição de Probabilidade (ou FDP)

Parâmetros

Distribuição Amostral (Frequências)

Estatísticas (valor fixo)

estimar

(variável aleatória)

pontual (estatísticas) por intervalo (intervalos de confiança)

Estimação

OBS: estatística: é a v.a. que estima (pontualmente) um parâmetro (populacional) as vezes é chamada simplesmente de estimador estimativa: é o valor do estimador obtido para uma amostra específica

6

Distribuição Amostral

É muito comum utilizar um conjunto de valores observados (amostra) para tentar “enxergar” a verdadeira distribuição da população.

Esta capacidade, é claro, depende do tamanho e representatividade da amostra. Obs1: Tipos de amostragem e tamanho ideal de uma amostra serão discutidos em

“Teoria de Amostragem”. Obs2: Testes estatísticos formais que visam comprovar se uma população segue ou

não uma distribuição específica serão discutidos durante o curso. Existem pelos menos 3 representações gráficas que podem ser utilizadas para

avaliar a distribuição amostral: • histograma (gráfico de frequências) • frequência acumulada (ogiva de Galton) • boxplot

7

Histograma

Muito utilizado para v.a. discretas e indica a frequência absoluta ou relativa de cada valor observado na amostra. Recomenda-se que não haja espaços entre as colunas para que o histograma não seja confundido com um gráfico de barras.

Exemplo: amostra de 500 valores de uma v.a. discreta X [0, 10].

8

Para v.a. contínuas, é necessário dividir os dados em classes com intervalos regulares ou não. A definição do número e da largura dos intervalos é fundamental para a boa representação da distribuição amostral. No entanto, esta definição é bastante arbitrária, dependendo basicamente do tamanho e da variação encontrada na amostra. Para isso, muitas fórmulas são encontradas na literatura (p.ex. Sturges, Rice, Doane, Scott e Freedman-Diaconi).

Frequência Acumulada

É uma alternativa bastante utilizada para representar a distribuição amostral de v.a. contínuas pois não requer a discretização em classes de faixas de valores como no histograma. Além disso, pode ser usada para identificar rapidamente a mediana e quantis.

Exemplo: amostra de 50 valores de uma v.a. contínua X.

9

É muito útil na comparação com distribuições teóricas mas requer um certo “treinamento” para enxergar as características peculiares de cada distribuição como assimetrias e valores raros por exemplo.

mediana

1o quartil

3o quartil

“buracos” no dado

Frequência Acumulada

10

Distribuição uniforme

Distribuição assimétrica à direita (maior frequência de valores baixos)

Distribuição Gaussiana

2 populações?

Boxplot

11

É uma ótima alternativa para mostrar graficamente a dispersão de observações

de uma amostra e são muito úteis para comparar conjuntos de dados pois

causam grande impacto visual e são fáceis de entender.

Há muitas variações de boxplot, mas em geral representam:

a) mediana

b) 1o e 3o quartis

c) mínimos e máximos

d) valores raros (“outliers”)

Ex: amostra com 20 valores

0

20

40

60

80

100

120

DIQ (distância interquartil)

1,5*DIQ

1,5*DIQ

1o quartil

3o quartil

mediana

último ponto superior

último ponto inferior

outliers 1,5*DIQ

outliers extremos

Boxplot

0

20

40

60

80

100

120

B C D A

a) qual é a distribuição mais simétrica?

D

b) qual é a distribuição mais assimétrica?

A

c) quais as 2 distribuições que mais se

confundem entre si?

A e B

d) quais as 2 distribuições que mais se

distinguem entre si?

B e C

método dos momentos método da máxima verossimilhança

Estimação Pontual de

• média populacional

De que maneira os valores da amostra podem ser combinados a fim de se produzir uma “boa” estimativa de ?

Seja X uma v.a. normalmente distribuída com a média () e a variância (2) desconhecidas. Retira-se uma amostra de tamanho n com a finalidade de se estimar e 2.

13




ˆk é o k-ésimo estimador de

Qual é o melhor estimador pontual?

• não tendencioso

ˆ( )kE

• variância mínima

ˆ ˆ( ) ( )k jVar Var k j


Exato Impreciso

Inexato Preciso

Tiro ao alvo

Suponha que seja possível produzir k diferentes estimadores para , sendo

14

(exatidão)

(precisão)




X1ˆ

n

i

i

x

n

1

( )N

j j

j

x FR X x

dados agrupados (v.a. discreta)


média amostral

15

Ex. amostra com n = 5 {3,4; 4,5; 2,6; 3,8; 6,0}

Como não há nenhuma razão para acreditar que um valor da amostra é mais importante do que o outro:

3, 4 4, 5 2, 6 3, 8 6, 0

5

4,06X





( )E X

• verificando a tendenciosidade de

1 2 nX X XE

n

1 2) ( ) ( nE X E X E X

n

n

n

estimador não tendencioso

X

16

Interpretação (teórica): se calculássemos a média dos de todas amostras (de tamanho n) possíveis de serem obtidas, o resultado seria

X

1 2 nE X X X

n





( )Var X 1 2 nX X XVar

n

1 2

2

( ) ( ) ( )nVar X Var X Var X

n

2

2

n

n

2

n

• calculando a variância de (avaliação de precisão) X

17

Se as amostras forem independentes, ou seja, se elas não guardarem nenhuma relação entre si.

2 + 2 + ... + 2

1 2

2

nVar X X X

n





( )E X 2

( )Var Xn

1

n

i

i

x

Xn

18

A precisão da média amostral depende da variação original dos dados (2) e do tamanho da amostra (n)

Quanto maior o tamanho da amostra (n), mais precisa será a estimativa de


• média populacional ( )E X 2

( )Var Xn

19

2~ ( 100, 25)X N

5n

10n

50n

Simulando-se a partir de amostras de uma v.a. X

Estimação Pontual de 2


• variância populacional 2

De que maneira os valores da amostra podem ser combinados a fim de se produzir uma “boa” estimativa de 2?

2

2 1ˆ

n

i

i

x X

n

Mas será um estimador tendencioso?

20

Como não há nenhuma razão para acreditar que um valor da amostra é mais importante do que o outro e é desconhecido:

2 2 2

1 1

2n n

i i i

i i

X X X XX X




2

2 1ˆ

n

i

i

x X

n

2 2

1 1

2n n

i i

i i

X X X nX

1

1

n

i ni

i

i

X

X X nXn

2 2

1

n

i

i

X nX

2 2 2

1

2n

i

i

X nX nX

21




2 2

2 1ˆ

n

i

i

X nX

E En

2 2

1

1 n

i

i

E X E Xn

2 2

1

1 n

i

i

E X E Xn

2( )iVar X 22

i iE X E X 2 2

iE X 2 2 2

iE X

22

2

2 1ˆ

n

i

i

x X

n




2 2

2 1ˆ

n

i

i

X nX

E En

2 2

1

1 n

i

i

E X E Xn

2 2

1

1 n

i

i

E X E Xn

2

( )Var Xn

22E X E X 2 2E X

22 2E X

n

23

2

2 1ˆ

n

i

i

x X

n




2 2

2 1ˆ

n

i

i

X nX

E En

2 2

1

1 n

i

i

E X E Xn

2 2

1

1 n

i

i

E X E Xn

22 2 2

n

2 2 2

iE X

2

2 2E Xn

2 2n

n

21n

n

estimador tendencioso!

24

2

2 1ˆ

n

i

i

x X

n

2

2 1

1ˆ

n

i

i

x X

n

n

n




2

2 1

1

n

i

i

x X

sn

2 2E s


(ver Estimadores.xls)

variância amostral

25

Interpretação (teórica): se calculássemos a média dos de todas amostras (de tamanho n) possíveis de serem obtidas, o resultado seria 2

2s

Curiosidade: (precisão aumenta com o tamanho da amostra!) 4

2 2

1Var s

n



26

2~ ( 100, 25)X N

5n

10n

50n

Simulando-se a partir de amostras de uma v.a. 2s

2 2( )E s

Considere que n bolas são escolhidas ao acaso (com reposição), definindo-se Y como o número de bolas vermelhas entre as n selecionadas, qual a distribuição de Y?

Y ~ Binomial(n, p)

?Y

n

Estimação Pontual de p

Numa urna, há N bolas, sendo K vermelhas e N – K azuis. Assim, pode-se dizer que K/N representa a proporção p de bolas vermelhas na urna (que por sua vez, representa a probabilidade de se selecionar uma bola vermelha desta urna).

Mas se N e K são desconhecidos, como estimar p?

Proporção Amostral p̂

1

n

i

i

Y X

Xi ~ Bernoulli p = P(Xi = 1) P(sucesso)

ˆ( )E p Y

En

( )E Y

n

npp

n

ˆ( )Var p Y

Varn

2

( )Var Y

n

2

npq pq

n n

27

Qual é o melhor estimador pontual de p?


Quanto maior o tamanho da amostra (n), mais precisa será a estimativa de p

Quanto mais p se aproxima de 0,5 (50%), menos precisa será sua estimativa

5 0,5n p

10 0,5n p

50 0,5n p


• proporção populacional p ˆ( )E p p

28

, 0,5~ ( )BinomialX n p Simulando-se a partir de amostras de uma v.a. p̂

ˆ( )pq

Var pn


• proporção populacional p ˆ( )E p p

29

Simulando-se a partir de amostras de uma v.a. p̂

ˆ( )pq

Var pn

~ )5( ,BinomiaX l n p

5 0,5n p

5 0,05n p

1

1

( )

( )

N

j j Nj

j j

j

x FA X x

X x FR X xn

1

n

i

i

x

Xn

Estimação Pontual de e 2

X• média amostral Valor

Freq. Absoluta

Freq. Relativa

0 1 1/12

1 2 1/6

2 4 1/3

3 3 1/4

4 1 1/12

5 1 1/12

Total 12 1

Exemplo: uma amostra (n = 12) é retirada de uma população e os seguintes valores são observados: 0, 2, 3, 5, 2, 1, 2, 1, 3, 3, 4, 2. Calcule a média e variância amostrais.

distribuição amostral

0 2 3 ... 2 7

12 3X

0*1 1*2 2*4 3*3 4*1 5*1 7

12 3X

1 1 1 1 1 1 70* 1* 2* 3* 4* 5*

12 6 3 4 12 12 3X

(usando FA)

(usando FR)

(dados brutos)

(dados agrupados)

30

2

2 2

1 12

( ) ( )

1 1

N N

j j j j

j j

x X FA X x x FA X x nX

sn n

(dados agrupados)

2 2

1

1

n

i

i

x nX

n

2

2 1

1

n

i

i

x X

sn

Estimação Pontual de e 2

• variância amostral s2

Exemplo: uma amostra (n = 12) é retirada de uma população e os seguintes valores são observados: 0, 2, 3, 5, 2, 1, 2, 1, 3, 3, 4, 2. Calcule a média e variância amostrais.

22 2 22 2 2 77 7 7

32 3 3 3(0 2 ... 2 ) 12*(0 ) (2 ) ... (2 )

1,8811 11

s

Valor Freq.

Absoluta Freq.

Relativa 0 1 1/12

1 2 1/6

2 4 1/3

3 3 1/4

4 1 1/12

5 1 1/12

Total 12 1

22 2 22 2 2 77 7 7

32 3 3 3(0 *1 1 *2 ... 5 *1) 12*(0 ) *1 (1 ) *2 ... (5 ) *1

1,8811 11

s

distribuição amostral

(dados brutos)

7

3X

31

Estimação Pontual de , 2 e p

Observações:

• , 2 e p são parâmetros que representam a população e portanto são valores fixos sendo, em geral, desconhecidos

• Não confunda variância amostral (s2) com variância da média amostral (Var( )) X

32

• De modo geral, as amostras devem ser obtidas de modo independente uma das outras, ou seja, o valor de uma amostra não deve ter relação com o(s) valor(es) das outras amostras (exceção em estudos de séries temporais ou dados espaciais, onde estuda-se exatamente esta relação)

X• , s2 e são estatísticas calculadas a partir da amostra e representam variáveis aleatórias (cada conjunto de amostras pode apresentar um valor diferente)

p̂

Utilização de amostras não independentes

33

T1

A resposta do sensor representa a integração das respostas de todos objetos que estão no campo de visada

deslocamento


34

T1 T2 T3 T4

área de sobreposição (redundância)


35

T1 T2 T3 T4

X1 X2 X3 X4

Xi: valor que representa a resposta do sensor no tempo Ti ( elemento de resolução)

Note que estes valores não são independentes (devido a sobreposição)

Resolução Espacial

Tamanho do Pixel


36

X

9

6

2

3

6

2

6

10

6

5

7

1

7

8

5

Suponha que X representa um conjunto de amostras independentes de uma v.a. qualquer obtidas numa determinada sequência (série temporal por exemplo)

3,2 1 10,1 0,8 0,1i i i iX X X X

X X X X′, X″ e X‴ resultam do cálculo de médias móveis (tamanho 3) aplicado sobre X


37

X

9

6

2

3

6

2

6

10

6

5

7

1

7

8

5

5,9

2,5

3,2

5,3

2,8

6

9,2

6,3

5,3

6,2

2,2

6,5

7,6

1 10,1 0,8 0,1i i i iX X X X

X X X



X′, X″ e X‴ resultam do cálculo de médias móveis (tamanho 3) aplicado sobre X

1 10,2 0,6 0,2i i i iX X X X

1 1 / 3i i i iX X X X


38

X

9

6

2

3

6

2

6

10

6

5

7

1

7

8

5

1 10,1 0,8 0,1i i i iX X X X

X X X

1 10,2 0,6 0,2i i i iX X X X

1 1 / 3i i i iX X X X

X



5,9 5,8 5,67

2,5 3 3,67

3,2 3,4 3,67

5,3 4,6 3,67

2,8 3,6 4,67

6 6 6

9,2 8,4 7,33

6,3 6,6 7

5,3 5,6 6

6,2 5,4 4,33

2,2 3,4 5

6,5 6 5,33

7,6 7,2 6,67


39

X

9

6

2

3

6

2

6

10

6

5

7

1

7

8

5

5,9 5,8 5,67

2,5 3 3,67

3,2 3,4 3,67

5,3 4,6 3,67

2,8 3,6 4,67

6 6 6

9,2 8,4 7,33

6,3 6,6 7

5,3 5,6 6

6,2 5,4 4,33

2,2 3,4 5

6,5 6 5,33

7,6 7,2 6,67

1 10,1 0,8 0,1i i i iX X X X

X X X

1 10,2 0,6 0,2i i i iX X X X

1 1 / 3i i i iX X X X

X




40

X

9

6

2

3

6

2

6

10

6

5

7

1

7

8

5

5,9 5,8 5,67

2,5 3 3,67

3,2 3,4 3,67

5,3 4,6 3,67

2,8 3,6 4,67

6 6 6

9,2 8,4 7,33

6,3 6,6 7

5,3 5,6 6

6,2 5,4 4,33

2,2 3,4 5

6,5 6 5,33

7,6 7,2 6,67

1 10,1 0,8 0,1i i i iX X X X

X X X

1 10,2 0,6 0,2i i i iX X X X

1 1 / 3i i i iX X X X

X




41

X

9

6

2

3

6

2

6

10

6

5

7

1

7

8

5

5,9 5,8 5,67

2,5 3 3,67

3,2 3,4 3,67

5,3 4,6 3,67

2,8 3,6 4,67

6 6 6

9,2 8,4 7,33

6,3 6,6 7

5,3 5,6 6

6,2 5,4 4,33

2,2 3,4 5

6,5 6 5,33

7,6 7,2 6,67

1 10,1 0,8 0,1i i i iX X X X

X X X

1 10,2 0,6 0,2i i i iX X X X

1 1 / 3i i i iX X X X

X



s2

X 5,31 6,90

s2

X 5,31 6,90

5,31

5,31

5,31

s2

X 5,31 6,90

5,31 4,39

5,31 2,68

5,31 1,62


42

X

9

6

2

3

6

2

6

10

6

5

7

1

7

8

5

5,9 5,8 5,67

2,5 3 3,67

3,2 3,4 3,67

5,3 4,6 3,67

2,8 3,6 4,67

6 6 6

9,2 8,4 7,33

6,3 6,6 7

5,3 5,6 6

6,2 5,4 4,33

2,2 3,4 5

6,5 6 5,33

7,6 7,2 6,67

Conclusão: a utilização de amostras não independentes (autocorrelacionadas) afetam mais a estimação da variância do que a estimação da média

X

X X X

1 10,2 0,6 0,2i i i iX X X X

1 1 / 3i i i iX X X X

1 10,1 0,8 0,1i i i iX X X X

X

X

X



Distribuições amostrais

Um parâmetro pode ser estimado através de um único valor (estimador pontual)

Como o estimador é uma v.a., então há, pelo menos teoricamente, uma distribuição associada a esse estimador.

Conhecer essas distribuições é fundamental para se entender o quão próximas ou

distintas poderão ser as estimativas obtidas para as diferentes amostras

amostra X1, X2, ..., Xn

XX

f(x)

0

?

43

Se amostras de tamanho n fossem obtidas e para cada uma fosse calculada , poderíamos esperar que todas tivessem o mesmo valor?

X

Muito pouco provável!

~ (?,?)X N2

~ ( , )X Nn

~ ?X

Distribuição amostral relacionada com

~ ?X

2~ ?( , )iX distribuição desconhecida, desconhecido, mas 2 conhecido

1 2 nX X X

n

Se : 2~ ( , )X N

Se n for grande (ou seja, adotando-se o TLC):

2

E X Var Xn

mesmo não se conhecendo a distribuição de X

44

1 2, , , nX X X X amostra aleatória

X

2

~ ( , )X Nn

~ (0,1)

n

XN

Distribuição amostral relacionada com s2

45

Antes de apresentar a distribuição relacionada com s2, é preciso apresentar a

distribuição 2 (lê-se qui-quadrado).

Distribuição 2

2 1 2

2

1( ) 0

2 ( 2)

g x

gf x x e x

g

( )E X g

( ) 2Var X g2~ gX (lê-se: X tem distribuição qui-quadrado com g graus

de liberdade)

0 +

g 2

0 +

g > 2

Propriedades:

a) se , então 2 2

1~Z ~ (0,1)Z N

b) se , então 2

1

~n

i n

i

X

2

1~iX

46

{1,2,3,...}g

Uma variável aleatória X tem distribuição 2 se sua função densidade de probabilidade for dada por:

g 0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995

1 7,88 6,63 5,02 3,84 2,71 0,016 0,0039 0,0010 0,00016 0,00004

2 10,60 9,21 7,38 5,99 4,61 0,21 0,10 0,051 0,020 0,010

3 12,84 11,34 9,35 7,81 6,25 0,58 0,35 0,22 0,11 0,072

4 14,86 13,28 11,14 9,49 7,78 1,06 0,71 0,48 0,30 0,21

5 16,75 15,09 12,83 11,07 9,24 1,61 1,15 0,83 0,55 0,41

6 18,55 16,81 14,45 12,59 10,64 2,20 1,64 1,24 0,87 0,68

7 20,28 18,48 16,01 14,07 12,02 2,83 2,17 1,69 1,24 0,99

8 21,95 20,09 17,53 15,51 13,36 3,49 2,73 2,18 1,65 1,34

9 23,59 21,67 19,02 16,92 14,68 4,17 3,33 2,70 2,09 1,73

10 25,19 23,21 20,48 18,31 15,99 4,87 3,94 3,25 2,56 2,16

11 26,76 24,72 21,92 19,68 17,28 5,58 4,57 3,82 3,05 2,60

12 28,30 26,22 23,34 21,03 18,55 6,30 5,23 4,40 3,57 3,07

13 29,82 27,69 24,74 22,36 19,81 7,04 5,89 5,01 4,11 3,57

14 31,32 29,14 26,12 23,68 21,06 7,79 6,57 5,63 4,66 4,07

15 32,80 30,58 27,49 25,00 22,31 8,55 7,26 6,26 5,23 4,60

16 34,27 32,00 28,85 26,30 23,54 9,31 7,96 6,91 5,81 5,14

17 35,72 33,41 30,19 27,59 24,77 10,09 8,67 7,56 6,41 5,70

18 37,16 34,81 31,53 28,87 25,99 10,86 9,39 8,23 7,01 6,26

19 38,58 36,19 32,85 30,14 27,20 11,65 10,12 8,91 7,63 6,84

20 40,00 37,57 34,17 31,41 28,41 12,44 10,85 9,59 8,26 7,43

21 41,40 38,93 35,48 32,67 29,62 13,24 11,59 10,28 8,90 8,03

22 42,80 40,29 36,78 33,92 30,81 14,04 12,34 10,98 9,54 8,64

23 44,18 41,64 38,08 35,17 32,01 14,85 13,09 11,69 10,20 9,26

24 45,56 42,98 39,36 36,42 33,20 15,66 13,85 12,40 10,86 9,89

25 46,93 44,31 40,65 37,65 34,38 16,47 14,61 13,12 11,52 10,52

26 48,29 45,64 41,92 38,89 35,56 17,29 15,38 13,84 12,20 11,16

27 49,64 46,96 43,19 40,11 36,74 18,11 16,15 14,57 12,88 11,81

28 50,99 48,28 44,46 41,34 37,92 18,94 16,93 15,31 13,56 12,46

29 52,34 49,59 45,72 42,56 39,09 19,77 17,71 16,05 14,26 13,12

30 53,67 50,89 46,98 43,77 40,26 20,60 18,49 16,79 14,95 13,79

40 66,77 63,69 59,34 55,76 51,81 29,05 26,51 24,43 22,16 20,71

50 79,49 76,15 71,42 67,50 63,17 37,69 34,76 32,36 29,71 27,99

60 91,95 88,38 83,30 79,08 74,40 46,46 43,19 40,48 37,48 35,53

70 104,21 100,43 95,02 90,53 85,53 55,33 51,74 48,76 45,44 43,28

80 116,32 112,33 106,63 101,88 96,58 64,28 60,39 57,15 53,54 51,17

90 128,30 124,12 118,14 113,15 107,57 73,29 69,13 65,65 61,75 59,20

100 140,17 135,81 129,56 124,34 118,50 82,36 77,93 74,22 70,06 67,33

Distribuição 2

0 + 2

t

2 2( )g tP

2

10( 3,25) ?P

2

10( 3,25) 0,975P

47

g 0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995

1 7,88 6,63 5,02 3,84 2,71 0,016 0,0039 0,0010 0,00016 0,00004

2 10,60 9,21 7,38 5,99 4,61 0,21 0,10 0,051 0,020 0,010

3 12,84 11,34 9,35 7,81 6,25 0,58 0,35 0,22 0,11 0,072

4 14,86 13,28 11,14 9,49 7,78 1,06 0,71 0,48 0,30 0,21

5 16,75 15,09 12,83 11,07 9,24 1,61 1,15 0,83 0,55 0,41

6 18,55 16,81 14,45 12,59 10,64 2,20 1,64 1,24 0,87 0,68

7 20,28 18,48 16,01 14,07 12,02 2,83 2,17 1,69 1,24 0,99

8 21,95 20,09 17,53 15,51 13,36 3,49 2,73 2,18 1,65 1,34

9 23,59 21,67 19,02 16,92 14,68 4,17 3,33 2,70 2,09 1,73

10 25,19 23,21 20,48 18,31 15,99 4,87 3,94 3,25 2,56 2,16

11 26,76 24,72 21,92 19,68 17,28 5,58 4,57 3,82 3,05 2,60

12 28,30 26,22 23,34 21,03 18,55 6,30 5,23 4,40 3,57 3,07

13 29,82 27,69 24,74 22,36 19,81 7,04 5,89 5,01 4,11 3,57

14 31,32 29,14 26,12 23,68 21,06 7,79 6,57 5,63 4,66 4,07

15 32,80 30,58 27,49 25,00 22,31 8,55 7,26 6,26 5,23 4,60

16 34,27 32,00 28,85 26,30 23,54 9,31 7,96 6,91 5,81 5,14

17 35,72 33,41 30,19 27,59 24,77 10,09 8,67 7,56 6,41 5,70

18 37,16 34,81 31,53 28,87 25,99 10,86 9,39 8,23 7,01 6,26

19 38,58 36,19 32,85 30,14 27,20 11,65 10,12 8,91 7,63 6,84

20 40,00 37,57 34,17 31,41 28,41 12,44 10,85 9,59 8,26 7,43

21 41,40 38,93 35,48 32,67 29,62 13,24 11,59 10,28 8,90 8,03

22 42,80 40,29 36,78 33,92 30,81 14,04 12,34 10,98 9,54 8,64

23 44,18 41,64 38,08 35,17 32,01 14,85 13,09 11,69 10,20 9,26

24 45,56 42,98 39,36 36,42 33,20 15,66 13,85 12,40 10,86 9,89

25 46,93 44,31 40,65 37,65 34,38 16,47 14,61 13,12 11,52 10,52

26 48,29 45,64 41,92 38,89 35,56 17,29 15,38 13,84 12,20 11,16

27 49,64 46,96 43,19 40,11 36,74 18,11 16,15 14,57 12,88 11,81

28 50,99 48,28 44,46 41,34 37,92 18,94 16,93 15,31 13,56 12,46

29 52,34 49,59 45,72 42,56 39,09 19,77 17,71 16,05 14,26 13,12

30 53,67 50,89 46,98 43,77 40,26 20,60 18,49 16,79 14,95 13,79

40 66,77 63,69 59,34 55,76 51,81 29,05 26,51 24,43 22,16 20,71

50 79,49 76,15 71,42 67,50 63,17 37,69 34,76 32,36 29,71 27,99

60 91,95 88,38 83,30 79,08 74,40 46,46 43,19 40,48 37,48 35,53

70 104,21 100,43 95,02 90,53 85,53 55,33 51,74 48,76 45,44 43,28

80 116,32 112,33 106,63 101,88 96,58 64,28 60,39 57,15 53,54 51,17

90 128,30 124,12 118,14 113,15 107,57 73,29 69,13 65,65 61,75 59,20

100 140,17 135,81 129,56 124,34 118,50 82,36 77,93 74,22 70,06 67,33

Distribuição 2

0 + 2

t

2 2( )g tP

2

10( 3,25) ?P

2

10( 3,25) 0,975P

2

15( ?) 0,9P

2

15( 8,55) 0,9P

48

Distribuição amostral relacionada com s2

2~ ( , )iX N Se

2

2

( )~ ?iX

~ ?iX

~ (0,1)iX

N

2

2

12

( )~iX

2

1

2

( )

~ ?

n

i

i

X

2

21

2

( )

~

n

i

in

X

Substituindo-se por tem-se que X

2

2112

( )

~

n

i

in

X X

(perde-se 1 grau de liberdade)

mas

2

2 2 21

1

( )

( ) ( 1)1

n

i ni

i

i

X X

s X X n sn

22

12

( 1)~ n

n s

49


distribuição normal com e 2 desconhecidos

? ? ? -3,5 0,5 100,9

Graus de liberdade

50

De modo geral, pode-se entender “grau de liberdade” como o número de valores que, no

final de um cálculo de uma estatística, estão “livres para variarem”, ou seja, que têm

o comportamento de variáveis aleatórias.

2~ ,X N

Por exemplo: deseja-se avaliar os desvios em torno da média a partir de uma

amostra de 3 valores retirados de uma população normalmente distribuída.

1 2 3, ,X X X Amostra:

Quais são os valores possíveis de serem obtidos nesta amostra?

R: Neste caso, posso escolher “livremente” quaisquer 3 valores entre - e +

( é conhecida)

Graus de liberdade

51

Agora, se é desconhecido e o substituímos por ... X

1 2 3, ,X X X X X X Amostra:

Como então 1 2 3 / 3X X X X 3

1

0i

i

X X

Assim, ao se escolher os dois primeiros valores, o terceiro é necessariamente

conhecido. Neste caso, perde-se 1 grau de liberdade

As perdas de graus de liberdade acontecem sempre que um parâmetro é substituído por

seu estimador

? ? ? -1,5 0,1 1,4

31,5 0,1 ) 0(X X


2~ ?( , )iX distribuição desconhecida, e 2 também desconhecidos

52


X

Vimos que tem distribuição normal desde que 2 seja conhecida! X

Antes de apresentar a distribuição relacionada com quando desconhecemos 2, é

preciso apresentar a distribuição t de Student.

X

Distribuição t de Student

( 1) 22[( 1) 2]

( ) 1( 2)

g

g xf x x

gg g

( ) 0E X

( )2

gVar X

g

~ gX t (lê-se: X tem distribuição t de Student com g graus de liberdade)

Propriedades:

~ g

Zt

W

g

tg

- + 0

a) se ~ (0,1)Z N 2~ gW e então

b) se g então (0,1)gt N

53

{1,2,3,...}g

Uma variável aleatória X tem distribuição t de Student se sua função densidade de probabilidade for dada por:

Distribuição t de Student

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20- + 0 t

( )gP T t

g 0,1 0,05 0,025 0,01 0,005

1 3,078 6,314 12,706 31,821 63,656

2 1,886 2,920 4,303 6,965 9,925

3 1,638 2,353 3,182 4,541 5,841

4 1,533 2,132 2,776 3,747 4,604

5 1,476 2,015 2,571 3,365 4,032

6 1,440 1,943 2,447 3,143 3,707

7 1,415 1,895 2,365 2,998 3,499

8 1,397 1,860 2,306 2,896 3,355

9 1,383 1,833 2,262 2,821 3,250

10 1,372 1,812 2,228 2,764 3,169

11 1,363 1,796 2,201 2,718 3,106

12 1,356 1,782 2,179 2,681 3,055

13 1,350 1,771 2,160 2,650 3,012

14 1,345 1,761 2,145 2,624 2,977

15 1,341 1,753 2,131 2,602 2,947

16 1,337 1,746 2,120 2,583 2,921

17 1,333 1,740 2,110 2,567 2,898

18 1,330 1,734 2,101 2,552 2,878

19 1,328 1,729 2,093 2,539 2,861

20 1,325 1,725 2,086 2,528 2,845

21 1,323 1,721 2,080 2,518 2,831

22 1,321 1,717 2,074 2,508 2,819

23 1,319 1,714 2,069 2,500 2,807

24 1,318 1,711 2,064 2,492 2,797

25 1,316 1,708 2,060 2,485 2,787

26 1,315 1,706 2,056 2,479 2,779

27 1,314 1,703 2,052 2,473 2,771

28 1,313 1,701 2,048 2,467 2,763

29 1,311 1,699 2,045 2,462 2,756

30 1,310 1,697 2,042 2,457 2,750

40 1,303 1,684 2,021 2,423 2,704

50 1,299 1,676 2,009 2,403 2,678

60 1,296 1,671 2,000 2,390 2,660

120 1,289 1,658 1,980 2,358 2,617 1,282 1,645 1,960 2,326 2,576

10( ?) 0,01P T

10( 2,764) 0,01P T

54

~ ?X

n

(0,1)N

2

2

( 1)~ ?

n s

2

1n

2

2

( 1)

( 1)

X

n

n s

n

X

ns

~ ?X

s

n

1~ n

Xt

s

n

55

2~ ( , )iX N Se


2

~ ( , )X Nn

Lembrete:

~ (0,1)X

Ns

n

Se n é grande (n > 100), então:

Distribuição amostral relacionada com X

distribuição normal com e 2 desconhecidos

1 ~ ?X2

11 1

1

~ ( , )X Nn

Distribuição amostral relacionada com e

56

1X 2X

1 2 1 2

2 2

1 2

1 2

( ) ( )~ ?

X X

n n

(0,1)N

2

1, 1 1~ ( , )iX N 2

2, 2 2~ ( , )iX N desconhecidas, mas conhecidas j2

j

2

22 2

2

~ ( , )X Nn

1 2 ~ ?X X2 2

1 21 2 1 2

1 2

~ ( , )X X Nn n

11 1,1 1,2 1,, , , nX X X X

2 amostras aleatórias independentes

22 2,1 2,2 2,, , , nX X X X

Normal Padrão

f(X)

0

X

1

2

1 2 1 2

2 2

1 2

1 2

2 2

1 1 2 2

2 2

1 2

1 2

( ) ( )

~ ?( 1) ( 1)

2

X X

n n

n s n s

n n


57

1X 2X

2

1, 1 1~ ( , )iX N 2

2, 2 2~ ( , )iX N e desconhecidas j2

j

11 1,1 1,2 1,, , , nX X X X


22 2,1 2,2 2,, , , nX X X X

f(X)

0

X

1

2 1 2 1 2

2 2

1 2

1 2

( ) ( )~ ?

X X

n n

(0,1)N2 2

1 1 2 2

2 2

1 2

( 1) ( 1)~ ?

n s n s

1 2

2

2n n

1 2 2n nt


58

1X 2X

1 2

1 2 1 2

2 2

1 2

1 2

22 2

1 1 2 2

2 2

1 2

1 2

( ) ( )

~( 1) ( 1)

2

n n

X X

n nt

n s n s

n n

(fazendo 2 2 2

1 2 )

1 2

1 2 1 2

1 2

22 2

1 1 2 2

1 2

( ) ( )

1 1

~1 ( 1) ( 1)

2

n n

X X

n nt

n s n s

n n

1 2

1 2 1 222 2

1 1 2 2

1 2 1 2

( ) ( )~

( 1) ( 1) 1 1

2

n n

X Xt

n s n s

n n n n

rearranjando os termos...

abordagem homocedástica


59

1X 2X

(considerando 2 2

1 2 ) 1 2 1 2

2 2

1 2

1 2

( ) ( )~ ?

X X

n n

(0,1)N

1 2 1 2

2 2

1 2

1 2

( ) ( )~ g

X Xt

s s

n n

22 2

1 2

1 2

2 22 2

1 2

1 2

1 21 1

s s

n ng

s s

n n

n n

Importante: a seleção de qual abordagem (homo ou heterocedástica) deve ser adotada é feita com base em teste de hipótese realizado previamente

abordagem heterocedástica

60

Distribuição amostral relacionada com e 2

1s2

2s

Antes de apresentar a distribuição relacionada com e , é preciso

apresentar a distribuição F.

2

1s2

2s

Distribuição F (de Snedecor)

2

2

( )2

gE X

g

2

2 1 2

2

1 2 2

2 ( 2)( )

( 2) ( 4)

g g gVar X

g g g

1 2,~ g gX F (lê-se: X tem distribuição F com g1 e g2 graus de liberdade)

Propriedades:

1 2

1,

2

/~

/g g

U gF

V ga) se

1

2~ gU 2

2~ gV e então

0 +

b) se 1 2,~ g gX F então

2 1,

1~ g gF

X 1 2 2 1, ,

1( ) ( )g g g gP F F P F

F

0 + F

1 2,g gF

0 + 1

F

2 1,g gF

61

Uma variável aleatória X tem distribuição F se sua função densidade de probabilidade for dada por:

1 1 2

1

/ 2 ( ) 2

/ 2 11 2 1 1

1 2 2 2

[( ) 2]( ) 1 0

( 2) ( 2)

g g g

gg g g gf x x x x

g g g g

1 {1,2,3,...}g

2 {1,2,3,...}g

Distribuição F

0 + F

1 2,( ) 0,025g gP F F

g1

g2

15,20( ?) 0,025P F

15,20( 2,57) 0,025P F

62

Distribuição F

0 + F

1 2,( ) 0,025g gP F F

g1

g2

25,5( ?) 0,025P F

5,25( ?) 0,025P F

63

Distribuição F

0 + F

1 2,( ) 0,025g gP F F

g1

g2

25,5( ?) 0,025P F

5,25( 3,13) 0,025P F

5,25( ?) 0,025P F

25,5

1( ) 0,025

3,13P F

25,5( 0,319) 0,025P F

64

2

1 1

2

1

( 1)~ ?

n s

1

2

1n

2

2 2

2

2

( 1)~ ?

n s

2

2

1n

1 2

2 2

1 21, 12 2

2 1

~ n n

sF

s

65

Distribuição amostral relacionada com e 2

1s2

2s

2

1, 1 1~ ( , )iX N 2

2, 2 2~ ( , )iX N e desconhecidas j2

j

11 1,1 1,2 1,, , , nX X X X


22 2,1 2,2 2,, , , nX X X X

f(X)

0

X

1

2

2

1 1

2

1

1

2

2 2

2

2

2

( 1)

1~ ?

( 1)

1

n s

n

n s

n

2

1 1

2

1 1

2

2 2

2

2 2

( 1)

( 1)

( 1)

( 1)

n s

n

n s

n

2 2

1 2

2 2

1 2

s

s

1 21, 1n nF

Y ~ Binomial(n, p)

ˆY

pn


Proporção Amostral

1

n

i

i

Y X

Xi ~ Bernoulli p = P(Xi = 1) P(sucesso)

ˆ( )E p p ˆ( )pq

Var pn

66

Se n for grande (ou seja, adotando-se o TLC):

ˆ ~ ( , )pq

p N pn

Qual a distribuição de ? p̂

ˆ~ (0,1)

p pN

pq

n

p̂

Y1 ~ Binomial(n1, p1)

11

1

ˆY

pn


1 1ˆ( )E p p

1 11

1

ˆ( )p q

Var pn

67

Se n1 e n2 forem grandes (ou seja, adotando-se o TLC):

1 2 1 2

1 1 2 2

1 2

ˆ ˆ~ (0,1)

p p p pN

p q p q

n n

Y2 ~ Binomial(n2, p2)

22

2

ˆY

pn

2 2ˆ( )E p p

2 22

2

ˆ( )p q

Var pn

1 11 1

1

ˆ ~ ( , )p q

p N pn

2 22 2

2

ˆ ~ ( , )p q

p N pn

1p̂ 2p̂

Distribuições amostrais (Resumo)

para

(0,1)N

1nt

se 2 é conhecida

se 2 é desconhecida

para s2 2

1n

para 1 21, 1n nF

2

1

2

2

s

s

68

X

para

se e são conhecidas

se e são desconhecidas, mas

2

12

2

2

12

22 2

1 2

(0,1)N

1 2 2n nt

gt se e são desconhecidas, mas 2

12

22 2

1 2

1 2X X

para (0,1)Np̂

para (0,1)N1 2ˆ ˆp p

estatística: aplicação ao sensoriamento remoto ser 204...

Documents