análise multivariada aplicada à contabilidade › pluginfile.php › 1796005 › mod...análise...

Post on 06-Jul-2020

13 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Análise Multivariada Aplicada à Contabilidade

Prof. Dr. Marcelo Botelho da Costa Moraes

www.marcelobotelho.com

mbotelho@usp.br

Turma: 2º / 2016

1

Mestrado e Doutorado em

Controladoria

e Contabilidade

Agenda – Aula 2/15

• Inferência Estatística:• Amostragem;

• Tamanho da Amostra;

• Estimação;

• Testes de Hipóteses:• Testes de Normalidade.

2

Distribuição de Probabilidade

3

Inferência Estatística

• Obter conclusões sobre uma população a partir de uma amostra

• A amostra deve ser representativa da população em estudo

• População é o conjunto de todos os elementos e resultados sob investigação e a amostra é qualquer subconjunto da população (BUSSAB; MORETTIN, 2006)

4

Principais Técnicas e Amostragem

5

Técnicas de Amostragem

Aleatória

Não-aleatória

Simples

Estratificada

Sistemática

Conglomerado

Por conveniência

Por julgamento

Por quotas

Bola de Neve

Fonte: Adaptado de Cabral (2006, apud FÁVERO et al, 2009)

Amostragem Probabilística ou Aleatória• A probabilidade de cada elemento da população

fazer parte da amostra é igual, e todas as amostras selecionadas são igualmente prováveis

• Amostragem Aleatória:• Simples

• Estratificada

• Sistemática

• Conglomerado

6

Amostragem Aleatória Simples

• Em uma população com N elementos, da qual se deseja extrair uma amostra com n observações,

existem 𝑁𝑛

possíveis amostradas, com

probabilidade de 1/𝑁𝑛

de cada amostra ser

selecionada

• Todos os elementos (N) são numerados (de 1 até N) e por meio de um procedimento aleatório, nobservações são escolhidas

7

Amostragem Aleatória Simples

• Exemplo: deseja-se entrevistar n = 5 clientes de um cabelereiro que possui um total de 60 clientes cadastrados. Quantas amostras diferentes de tamanho n podem ser extraídas da população? Qual a probabilidade de que uma amostra seja selecionada? Extrair uma amostra aleatória.

• Há 605

=60!

5! 60−5 !=

60∙59∙58∙57∙56

5!= 5.461.512

amostras diferentes

8

Amostragem Aleatória Simples

• A probabilidade de que determinada amostra seja selecionada é de 1/5.461.512

• Os clientes foram numerados de 1 a 60, por meio de um procedimento aleatório foram selecionados os seguintes números

24 02 14 58 35

9

Amostragem Estratificada

• A população é estratificada (dividida em um número de subpopulações que não se superpõem), chamadas de estratos ou camadas

• Se os elementos selecionados em cada estrato constituem amostras aleatórias simples, então temos a amostragem aleatória estratificada (simples)

10

Amostragem Estratificada

• Em uma população com tamanho N é dividida em kestratos de tamanhos N1, N2, ..., Nk

• Para cada estrato uma amostra é selecionada, resultando em k subpopulações de tamanhos n1, n2, ..., nk. A alocação é proporcional se:

𝑛1

𝑁1=

𝑛2

𝑁2= ⋯ =

𝑛𝑘

𝑁𝑘

• O tamanho da amostra pode ser obtido de acordo com:

𝑛1 =𝑁1

𝑁∙ 𝑛, para i = 1, 2, ..., k

• Em que n = n1 + n2 + ... + nk

11

Amostragem Estratificada

• Exemplo: deseja-se realizar uma pesquisa sobre “dieta e saúde” com as mulheres do Rio de Janeiro. Para isso, a população é dividida em categorias de idade (5-14, 15-24, 25-34, 35-44, 45-54, 55-64, 65-74) e, para cada intervalo, 5% da população será entrevistada, ou seja, haverá um respeito à proporção de cada faixa etária na população total

12

Amostragem Sistemática

• Geralmente utilizada quando os elementos da população estão ordenados (se não estiverem ordenados a amostragem será de forma aleatória)

• Deve-se selecionar o intervalo da amostra (k) obtido pelo quociente entre o tamanho da população e o tamanho da amostra. A partir daí, deve-se escolher um elemento a cada k-ésimo elemento da lista, de forma sucessiva, até atingir o tamanho da amostra (n)

• A amostragem sistemática depende do primeiro elemento escolhido, que pode ser um elemento qualquer entre 1 e k

13

Amostragem Sistemática

• Exemplo: deseja-se verificar a qualidade de determinado produto em uma linha de produção. Neste caso, a cada 20 peças produzidas, seleciona-se determinado produto

14

Amostragem por Conglomerados, Grupos ou Áreas• A população total é subdividida em várias partes

relativamente pequenas, e algumas dessas subdivisões (ou conglomerados) são selecionados aleatoriamente para integrar a amostra global

• Dentro de cada conglomerado, podem-se selecionar todos os elementos ou apenas parte deles

• Se os conglomerados são subdivisões geográficas, este tipo de amostragem é chamada de amostragem por área

• A amostragem por conglomerados é frequentemente utilizada, uma vez que muitas populações já estão agrupadas em subgrupos naturais ou geográficos (baixo custo)

15

Amostragem por Conglomerados, Grupos ou Áreas• Exemplo: deseja-se estudar a renda da população

da cidade de Manaus e, para isso, a população foi dividida em bairros

• Alguns bairros (10% deles) foram selecionados aleatoriamente e, para cada bairro, selecionou-se de maneira aleatória 10% do total de moradores

16

Amostragem não-Probabilística ou não-Aleatória• A probabilidade de cada elemento da população

fazer parte da amostra não é igual, portanto, as amostras selecionadas não são igualmente prováveis

• Amostragem Aleatória:• Por conveniência

• Por julgamento

• Por quotas

• Bola de neve

17

Amostragem por Conveniência

• Aplicado quando a participação é voluntária ou os elementos da amostra são escolhidos por uma questão de conveniência ou simplicidade, o que faz com que a amostra não seja representativa da população

• Em função disso, deve ser utilizada somente em casos especiais e com argumento bastante convincente que justifique sua utilização

• Porém, se a amostra estudada for homogênea, qualquer técnica de amostragem pode ser empregada, inclusive amostragem acidental ou por conveniência

18

Amostragem por Conveniência

• Exemplo: um pesquisador deseja estudar o comportamento dos preços dos imóveis residenciais em lançamento em Florianópolis e, para tanto, desenvolve sua amostragem por meio da coleta de dados publicados nos cadernos de imóveis de dois jornais da cidade

• Os jornais podem não apresentar todos os lançamento de imóveis, porém, devem ser significantes

• Cuidado com o viés de conveniência

19

Amostragem por Julgamento

• A amostragem é escolhida segundo a opinião (julgamento prévio) de um especialista

• Exemplo: pesquisa com alunos de mestrado e doutorado em Economia para identificar os livros mais relevantes e didáticos da área. Para selecionar os alunos, recorreu-se a um especialista no assunto

• Não é representativa da população nem científica

20

Amostragem por Quotas

• Difere da amostragem estratificada pelo fato da seleção dos elementos da população não ser aleatória. Os passos a serem aplicados• Passo 1: selecionar as variáveis de controle ou características

relevantes da população para o estudo em questão• Passo 2: definir as quotas dividindo a população em

categorias, em função das variáveis de controle definidas no passo anterior

• Passo 3: para cada categoria, selecionar os elementos

• Vantagens: rapidez, economia e facilidade de administração. Porém, nem sempre é garantido que a amostra é representativa da população

21

Amostragem por Quotas

• Exemplo: uma empresa deseja lançar um novo produto de emagrecimento e seu público-alvo são mulheres entre 15 e 40 anos das classes sociais A e B

• A população é dividida em categorias de acordo com as variáveis de controle) idade e classe social

• Uma amostra de 5% da população recebe uma amostra grátis do produto

22

Amostragem de Propagação Geométrica ou Bola de Neve (Snowball)

• Identificam-se um ou mais indivíduos da população-alvo, e estes identificam outras observações que pertencem à mesma população

• O processo é repetido sucessivamente, até que a amostra final seja composta de todos os elementos identificados

• Bastante utilizado quando os elementos da população são raros ou de difícil acesso, sua vantagem é aumentar a possibilidade de localização da característica desejada da população e baixo custo

• Pode causar viés na identificação de amigos ou pessoas consideradas especialistas

23

Amostragem de Propagação Geométrica ou Bola de Neve (Snowball)

• Exemplo: uma escola de idiomas pretende atrair novos alunos e, para cada aluno matriculado, oferece um desconto na mensalidade se ele trouxer um novo aluno para a escola

• O processo se repete até que a escola consiga atingir um número mínimo de alunos matriculados

24

Tamanho da Amostra

• Amostra representativa da população para estimar a:• Média de uma população infinita

• Média de uma população finita

• Proporção de uma população infinita

• Proporção de uma população finita

• Apenas para amostragem aleatória simples

25

Tamanho da Amostra para Estimar a Média da População Infinita

Tamanho da Amostra Necessária

𝑛 =𝑧𝛼 ∙ 𝜎

𝑒

2

• Em que:

zα = abscissa da distribuição normal padrão, fixado um nível de significância α

σ = desvio padrão da população

e = erro amostral (máxima diferença permitida entre a média populacional µ e a média amostral 𝑥)

26

Tamanho da Amostra para Estimar a Média da População Infinita

• Exemplo: determinar o tamanho de uma amostra para estudar o número médio de clientes que ficam inadimplentes todo mês em determinada empresa financeira

• A média amostral não deve ser afastar da média populacional por mais de 0,10, com grau de confiança de 90% (zα = 1,64)

• Desvio padrão de 7 clientes (populacional)

𝑛 =1,64 ∙ 7

0,10

2

= 13.179

27

Tamanho da Amostra para Estimar a Média da População Finita

Tamanho da Amostra Necessária

𝑛 =𝑧𝛼

2 ∙ 𝜎2 ∙ 𝑁

𝑒2 𝑁 − 1 + 𝑧𝛼2 ∙ 𝜎2

• Em que:

zα = abscissa da distribuição normal padrão, fixado um nível de significância α

σ = desvio padrão da população

N = tamanho da população

e = erro amostral (máxima diferença permitida entre a média populacional µ e a média amostral 𝑥)

28

Tamanho da Amostra para Estimar a Média da População Finita

• Exemplo: mesmo exemplo anterior, imagine que a empresa financeira seja pequena com N = 10.000 clientes (população)

• A média amostral não deve ser afastar da média populacional por mais de 0,10, com grau de confiança de 90% (zα = 1,64)

• Desvio padrão de 7 clientes (populacional)

𝑛 =(1,64)2∙ (7)2∙ 10000

(0,10)2 10000 − 1 + (1,64)2∙ (7)2= 5.686

29

Tamanho da Amostra para Estimar a Média da População Finita

• É possível obter a população infinita ao multiplicar o valor obtido pelo fator de correção para populações finitas

𝑁

𝑁 + 𝑛 − 1• Em que n é o tamanho da amostra para população

infinita

30

Tamanho da Amostra para estimar a Proporção de População Infinita• Se a variável for qualitativa (nominal ou ordinal) e a

população infinita, a dimensão da amostra (n) aleatória simples pode ser calculada pela seguinte expressão

𝑛 =𝑧𝛼

2 ∙ 𝑝 ∙ 𝑞

𝑒2

• Em que:

zα = abscissa da distribuição normal padrão, fixado um nível de significância α 𝑝 = estimativa da proporção p

𝑞 = 1 − 𝑝

e = erro amostral (máxima diferença permitida entre 𝑝 e 𝑝)

• Comum o uso de 𝑝 ∙ 𝑞 = 0,25 (estimativa de p = 0,5)

31

Tamanho da Amostra para estimar a Proporção de População Infinita

• Exemplo: um pesquisador deseja determinar o tamanho de uma amostra para estudar a proporção de eleitores que votarão em determinado candidato na eleição para presidente

• Deseja que a proporção amostral não se afaste da proporção populacional em mais de 2%, com probabilidade de 98% (zα =2,33)

𝑛 =(2,33)2∙ 0,25

(0,02)2= 3.393

32

Tamanho da Amostra para estimar a Proporção de População Finita• Se a variável for qualitativa (nominal ou ordinal) e a

população finita, a dimensão da amostra (n) aleatória simples pode ser calculada pela seguinte expressão

𝑛 =𝑧𝛼

2 ∙ 𝑝 ∙ 𝑞 ∙ 𝑁

𝑒2(𝑁 − 1) + 𝑧𝛼2 ∙ 𝑝 ∙ 𝑞• Em que:

zα = abscissa da distribuição normal padrão, fixado um nível de significância α 𝑝 = estimativa da proporção p

𝑞 = 1 − 𝑝

N = tamanho da população

e = erro amostral (máxima diferença permitida entre 𝑝 e 𝑝)

33

Tamanho da Amostra para estimar a Proporção de População Finita

• Exemplo: um pesquisador deseja determinar o tamanho de uma amostra para estudar a proporção de eleitores que votarão em determinado candidato a prefeito em Bocaina (SP), que tem aproximadamente 12.000 habitantes

• Para o mesmo erro e nível de confiança

𝑛 =(2,33)2∙ 0,25 ∙ 12000

(0,02)2∙ 12000 − 1 + 2,33 2 ∙ 0,25= 2.645

• Podemos utilizar o mesmo fator de correção para populações finitas

34

Estimação

35

Estimação

• Tirar conclusões sobre uma população a partir de dados extraídos de uma amostra representativa dessa população

• Os parâmetros podem ser estimados pontualmente, por meio de um único ponto (estimação pontual) ou por meio de um intervalo (estimação por intervalos)

36

Estimação

• Parâmetro função do conjunto de valores da população

• Estatística função do conjunto de valores da amostra

• Estimativa valor assumido pelo parâmetro em determinada amostra

37

Estimação

• Estimação pontual: estimador dos momentos, método dos mínimos quadrados e o método da máxima verossimilhança

• Estimação intervalar ou intervalo de confiança (IC): IC para média populacional quando a variância é conhecida, IC para média populacional quando a variância é desconhecida, IC para variância populacional e IC para a proporção

38

Estimação

Parâmetro Populacional

Pontual Intervalar

Média A previsão do índice Ibovespapara o final de 2009 é de 74.000

pontos

A previsão do índice Ibovespapara o final de 2009 está entre

70.000 e 78.000 pontos

Proporção Mato Grosso do Sul terá 4% da população obesa em 2010

Mato Grosso do Sul terá entre 3,5% e 4,5% da população obesa

em 2010

39

Fonte: Adaptado de Bruni (2007, apud FÁVERO et al, 2009)

Métodos de Estimação Pontual

• Estimador dos Momentos

• Método dos Mínimos Quadrados

• Método da Máxima Verossimilhança

40

Estimador dos Momentos

• Utiliza a média e variância amostral para estimar os parâmetros da população

• Média da variável aleatória x

𝜇 = 𝑥𝑖

𝑛• Estimador amostral

𝑥𝑚 = 𝑥𝑖

𝑛

41

Estimador dos Momentos

• Os estimadores gerados nem sempre atendem a outras propriedades, já que, por exemplo, o estimador da variância (s2

m) é tendencioso

𝑠2𝑚 =

(𝑥𝑖− 𝑥)2

𝑛≠ 𝑠2 =

(𝑥𝑖− 𝑥)2

𝑛 − 1

42

Método dos Mínimos Quadrados

• Deseja-se estimar os parâmetros de uma regressão linear simples (aula futura) como uma variável dependente (Y) e uma variável explicativa (X)

• Obtém a reta que melhor ajusta os pontos de um diagrama de dispersão

43

Método da Máxima Verossimilhança• Deve-se conhecer o tipo de distribuição da

população

• Entre as possíveis estimativas dos parâmetros da população são escolhidos os valores que maximizam a probabilidade (verossimilhança) de que os valores obtidos na amostra sigam a distribuição da população

• Uma v.a. x tem uma fdp dada por:𝑓(𝑥𝑖; 𝜃𝑘)

• Em que θi, i = 1, 2, ..., k são parâmetros da função

44

Método da Máxima Verossimilhança• Quando os parâmetros não são conhecidos, devem

ser estimados a partir de valores de x obtidos de uma amostra

• Tem-se a função de verossimilhança:função de verossimilhança = 𝐿(𝜃𝑘; 𝑥𝑖)

• O método consiste em achar os valores do parâmetro θk que maximizem a função de verossimilhança ou a probabilidade de que a amostra pertença a uma população cuja distribuição tenha função de densidade f

45

Estimativa Intervalar ou Intervalos de Confiança• IC para média populacional quando a variância é

conhecida

• IC para média populacional quando a variância é desconhecida

• IC para variância populacional

• IC para a proporção

46

Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Conhecida

• Seja X ~ N(µ,σ2) e σ2 conhecido, considera-se que

𝑧 = 𝑥−𝜇0

𝜎/ 𝑛~𝑁(0,1)

𝑃 −𝑧𝑐 < 𝑧 < 𝑧𝑐 = 1 − 𝛼

• Em que 𝑧𝑐 é o valor crítico da variável aleatória z

47

Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Conhecida

48

α /2 α/2

𝒛𝜶/𝟐𝝈 𝒙 𝒛𝜶/𝟐𝝈 𝒙

RA

µ 𝒙

Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Conhecida

• Exemplo: uma v.a. com distribuição normal e variância conhecida de 25. Retira-se uma amostra de 16 valores e calcula-se a média amostral = 18. Construa um intervalo de confiança de 95% (zc = 1,96) para a média populacional

𝑃 𝑥 − 𝑧𝑐𝜎

𝑛< 𝜇 < 𝑥 + 𝑧𝑐

𝜎

𝑛= 95%

𝑃 18 − 1,965

16< 𝜇 < 18 + 1,96

5

16= 95%

𝑃 15,55 < 𝜇 < 20,45 = 95%

Logo o intervalo [15,55; 20,45] contém a média populacional com 95% de confiança

49

Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Desconhecida

• Seja X ~ N(µ,σ2) e σ2 desconhecido, considera-se

usar o estimador (s) que 𝑡 = 𝑥−𝜇0

𝑠/ 𝑛~𝑡𝑛−1

𝑃 −𝑡𝑐 < 𝑡 < 𝑡𝑐 = 1 − 𝛼

• Em que 𝑡𝑐 é o valor crítico da variável aleatória t da distribuição t de Student

50

Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Desconhecida

51

α /2 α/2

-𝒕𝒄

RA

µ𝒕

𝒕𝒄

Intervalo de Confiança para a Média Populacional (µ) quando a Variância Populacional (σ2) é Desconhecida

• Exemplo: uma v.a. com distribuição normal e variância desconhecida. Retira-se uma amostra de 16 valores e calcula-se a média amostral = 18 e a variância amostral = 25. Construa um intervalo de confiança de 95% (tc = 2,131) para a média populacional

𝑃 𝑥 − 𝑡𝑐𝑠

𝑛< 𝜇 < 𝑥 + 𝑡𝑐

𝑠

𝑛= 95%

𝑃 18 − 2,1315

16< 𝜇 < 18 + 2,131

5

16= 95%

𝑃 15,34 < 𝜇 < 20,66 = 95%

Logo o intervalo [15,34; 20,66] contém a média populacional com 95% de confiança

52

Intervalo de Confiança para a Variância Populacional• Seja X ~ N(µ,σ2) e como o estimador de σ2 é s2,

considera-se que a v.a. (n−1)∙𝑠2

𝜎2 ~𝜒𝑛−12

P 𝜒𝑖𝑛𝑓2 < 𝜒𝑛−1

2 < 𝜒sup2 = 1 − 𝛼

Ou

P(n − 1) ∙ 𝑠2

𝜒2𝑖𝑛𝑓

< 𝜎2 <(n − 1) ∙ 𝑠2

𝜒2𝑠𝑢𝑝

= 1 − 𝛼

53

Intervalo de Confiança para a Variância Populacional

54

X2 sup

X2

X2 inf

RA

α/2

α /2

Intervalo de Confiança para a Variância Populacional• Exemplo: uma amostra de 12 elementos, extraída

de uma população normal, forneceu variância = 9,14. construa um intervalo de confiança de 90% para a variância dessa população

• Tabela Qui-quadrado com 11 graus de liberdade, tem-se

X2inf = 4,575

X2sup = 19,675

55

Intervalo de Confiança para a Variância Populacional• Logo

𝑃(n − 1) ∙ 𝑠2

𝜎2< 𝜎2 <

(n − 1) ∙ 𝑠2

𝜎2= 1 − 𝛼

𝑃11 ∙ 9,14

19,675< 𝜎2 <

11 ∙ 9,14

4,575= 90%

𝑃 5,11 < 𝜎2 < 21,98 = 90%

Logo o intervalo [5,11; 21,98] contém a variância populacional com 90% de confiança

56

Intervalo de Confiança para Proporções

• Seja Y ~ binomial e a proporção amostral 𝑝 =𝑌

𝑛.

Logo 𝑝~𝑁 𝑝,𝑝𝑞

𝑛se n é grande. Considera-se que

𝑧 = 𝑝−𝑝

𝑝𝑞

𝑛

~𝑁(0,1)

𝑃 −𝑧𝑐 < 𝑧 < 𝑧𝑐 = 1 − 𝛼

• Em que 𝑧𝑐 é o valor crítico da variável aleatória z

57

Intervalo de Confiança para Proporções

58

α /2 α/2

𝒛𝜶/𝟐𝝈 𝒙 𝒛𝜶/𝟐𝝈 𝒙

RA

µ 𝒙

Intervalo de Confiança para Proporções• Exemplo: uma amostra de 100 peças foi retirada de uma máquina e

verificou-se que quatro delas eram defeituosas. Construa um intervalo de confiança de 95% (zc = 1,96) para a proporção de produtos defeituosos produzidos nessa máquina

𝑝 =𝑌

𝑛=

4

100= 0,04

𝑃 𝑝 − 𝑧𝑐𝑝𝑞

𝑛< 𝑝 < 𝑝 + 𝑧𝑐

𝑝𝑞

𝑛= 1 − 𝛼

𝑃 0,04 − 1,960,04 ∙ 0,96

100< 𝑝 < 0,04 + 1,96

0,04 ∙ 0,96

100= 95%

𝑃 0,03925 < 𝑝 < 0,04075 = 95%

Logo o intervalo [3,925%; 4,075%] contém a proporção de produtos defeituosos com 95% de confiança

59

Testes de Hipóteses

60

Testes de Hipóteses

• Testes de hipóteses podem ser utilizados para determinar se uma indicação sobre o valor de um parâmetro de população deve ou não ser rejeitado

• Quando os testes assumem premissas sobre a distribuição de parâmetros da população são chamados de testes paramétricos

• A hipótese nula, denotada por H0, é uma suposição preliminar sobre um parâmetro populacional

• A hipótese alternativa, denotada por H1, é o oposto do que é formulado na hipótese nula

61

Hipóteses

• A parte da igualdade das hipóteses sempre aparece na hipótese nula

• Em geral, um teste de hipótese sobre o valor de uma média populacional µ deve ter uma das seguintes três formas (onde µ0 é o valor da hipótese da média populacional)

62

𝑯𝟎: 𝝁 ≥ 𝝁𝒐

𝑯𝟏: 𝝁 < 𝝁𝒐

Unicaudal(cauda inferior)

𝑯𝟎: 𝝁 ≤ 𝝁𝒐

𝑯𝟏: 𝝁 > 𝝁𝒐

Unicaudal(cauda superior)

𝑯𝟎: 𝝁 = 𝝁𝒐

𝑯𝟏: 𝝁 ≠ 𝝁𝒐

Bicaudal

Erro do Tipo I

• Erro do Tipo I é rejeitar H0 quando a hipótese é verdadeira

• A probabilidade de fazer um Erro do Tipo I quando a hipótese nula é verdadeira enquanto igualdade é chamado de nível de significância (α)

63

Erro do Tipo II

• Erro do Tipo II é aceitar H0 quando a hipótese é falsa

• É difícil controlar a probabilidade de fazer um Erro do Tipo II

• Estatísticos evitam o risco de cometer um Erro do Tipo II usando a expressão "não rejeitar H0 " ao invés de "aceitar H0”

64

Tipos de Erros

65

Conclusão

Condição da População

H0 Verdadeira H0 Falsa

Não Rejeitar H0 Decisão Correta (1 – α)

Erro do Tipo II (β)

Rejeitar H0 Erro do Tipo I (α) Decisão Correta (1 – β)

Tipos de Erros

66

Etapas do Teste de Hipóteses –Método do p-value (p-valor ou valor-p)Passo 1. Desenvolver as hipóteses nula e alternativa

Passo 2. Definir o nível de significância α

Passo 3. Escolher uma estatística de teste adequada

Passo 4. Retirar uma amostra e calcular o valor da estatística do teste

Passo 5. Determinar o p-value que corresponde à probabilidade associada ao valor observado da amostra

Passo 6. Rejeitar H0 se o p-value ≤ α (caso contrário, não rejeitar)

67

Etapas do Teste de Hipóteses –Método do valor críticoPasso 1. Desenvolver as hipóteses nula e alternativa

Passo 2. Definir o nível de significância α

Passo 3. Escolher uma estatística de teste adequada

Passo 4. Fixar a região crítica do teste (com base no α estabelecido)

Passo 5. Retirar uma amostra e calcular o valor da estatística do teste

Passo 6. Rejeitar H0 se a estatística pertencer à região crítica (caso contrário, não rejeitar)

68

Testes Paramétricos

• Aplicados em situações em que se conhece a distribuição que melhor representa os dados analisados

• Exigem suposições específicas sobre a(s) população(ões) da(s) qual(ais) as amostras foram extraídas

• Exigem que duas hipóteses sejam satisfeitas: (1) que a variável dependente tenha distribuição normal; e (2) que as variâncias populacionais sejam homogêneas no caso da comparação de duas ou mais populações

69

Testes para Normalidade Univariada• Kolmogorov-Smirnov (K-S)

• Shapiro-Wilk

70

Teste de Kolmogorov-Smirnov (K-S)

• Teste de aderência que compara a distribuição de frequência acumulada de um conjunto de valores observados da amostra com uma distribuição esperada ou teórica

• Neste caso, determina se uma amostra é proveniente de uma população com distribuição normal

• Utilizado quando a média e o desvio padrão da população são conhecidos

71

Teste de Kolmogorov-Smirnov (K-S)

• Seja Fesp(X) uma função distribuição esperada (normal) de frequências relativas acumuladas da variável X, em que Fesp(X) ~ N(µ,σ), e Fobs(X) a distribuição de frequências relativas acumuladasobservada da variável X

• Deseja-se testar se Fobs(X) = Fesp(X) contra a alternativa de que Fobs(X) ≠ Fesp(X)

72

Teste de Kolmogorov-Smirnov (K-S)

• A estatística do teste é

𝐷 = max{|𝐹𝑒𝑠𝑝 𝑋𝑖 − 𝐹𝑜𝑏𝑠 𝑋𝑖 |; |𝐹𝑒𝑠𝑝 𝑋𝑖 −𝐹𝑜𝑏𝑠 𝑋𝑖−1 |} para i = 1, ..., n

• Em que:

Fesp(Xi) = frequência relativa acumulada esperada na categoria i

Fobs(Xi) = frequência relativa acumulada observada na categoria i

Fobs(Xi-1) = frequência relativa acumulada observada na categoria i - 1

73

Teste de Kolmogorov-Smirnov (K-S)

• Para uso do teste K-S para parâmetros estimados a partir de uma amostra (ao invés da população), perde-se poder explicativo

• Nessa situação utilizar a correção de Lilliefors(1967)

74

Teste de Kolmogorov-Smirnov (K-S)

• Procedimento para aplicação do teste

1. Fixar a hipótese nula (H0) e a hipótese alternativa (H1). A hipótese nula afirma que a amostra provém de uma distribuição N(µ,σ). A hipótese alternativa afirma que a amostra não provém de uma distribuição N(µ,σ)

2. Fixar o nível de significância α do teste

3. A estatística escolhida é a de Komogorov-Smirnov

75

Teste de Kolmogorov-Smirnov (K-S)

• Procedimento para aplicação do teste

4. Os valores críticos da estatística K-S (D) estão na tabela respectiva

5. Calcular o valor real da estatística K-S, conforme equação anterior

6. Decisão: se o valor da estatística pertencer a região crítica (D > Dc), rejeita-se H0. Caso contrário, não se rejeita H0

76

Teste de Kolmogorov-Smirnov (K-S)

• Exemplo: considere os dados da tabela, relativos à produção mensal de máquinas de costura nos últimos 12 meses. Verifique se os dados seguem uma distribuição normal, com α =5%

77

1 2 3 4 5 6 7 8 9 10 11 12

32 38 40 28 25 23 39 45 50 25 38 42

Teste de Kolmogorov-Smirnov (K-S)

78

Xi Fabs Fac Fracabs zi Fracesp |𝐹𝑒𝑠𝑝 𝑋𝑖 −

𝐹𝑜𝑏𝑠 𝑋𝑖 |

|𝐹𝑒𝑠𝑝 𝑋𝑖 −

𝐹𝑜𝑏𝑠 𝑋𝑖−1 |

23 1 1 0,08 -1,43 0,0764 0,0036 0,0764

25 2 3 0,25 -1,20 0,1151 0,1349 0,0351

28 1 4 0,33 -0,85 0,1977 0,1323 0,0523

32 1 5 0,42 -0,39 0,3483 0,0717 0,0183

38 2 7 0,58 0,30 0,6179 0,0379 0,1979

39 1 8 0,67 0,41 0,6591 0,0109 0,0791

40 1 9 0,75 0,53 0,7019 0,0481 0,0319

42 1 10 0,83 0,76 0,7764 0,0536 0,0264

45 1 11 0,92 1,10 0,8643 0,0557 0,0343

50 1 12 1,0 1,68 0,9535 0,0465 0,0335

Teste de Kolmogorov-Smirnov (K-S)

• Procedimento para realização do teste

1. A hipótese nula afirma (H0) que a amostra provém de uma distribuição N(µ,σ). A hipótese alternativa (H1) afirma que a amostra não provém de uma distribuição N(µ,σ)

2. O nível de significância α = 5%

3. A estatística escolhida é a de Komogorov-Smirnov

79

Teste de Kolmogorov-Smirnov (K-S)

• Procedimento para realização do teste

4. Os valores críticos da estatística K-S para n = 12 e α = 5% na tabela o valor D = 0,375

5. O valor real da estatística K-S, conforme equação anterior, é D = 0,199

6. Decisão: como o valor da estatística não pertence a região crítica D < 0,375 (Dc), não se rejeita H0. A amostra é obtida de uma distribuição normal

80

Teste de Shapiro-Wilk

• Testa se a variável em estudo possui ou não uma distribuição normal

• No caso de pequenas amostras (n < 30) o teste de Shapiro-Wilk é mais apropriado que o teste K-S

𝑊 =𝑏2

(𝑥𝑖 − 𝑥)2, 𝑝𝑎𝑟𝑎 𝑖 = 1,… , 𝑛

𝑏 =

𝑖=1

𝑁/2

𝑎𝑛−1+1 ∙ (𝑥𝑛−𝑖+1 − 𝑥𝑖)

• Em que

xi são os valores da variável x em ordem crescente

𝑥 é a média de x

ai são constantes geradas a partir da média, variância e covariância de nordens com distribuição normal padrão

81

Teste de Shapiro-Wilk

• Valores pequenos de W indicam que a distribuição da variável não é normal

82

Teste de Shapiro-Wilk

• Procedimento para aplicação do teste

1. Fixar a hipótese nula (H0) e a hipótese alternativa (H1). A hipótese nula afirma que a amostra provém de uma distribuição normal. A hipótese alternativa afirma que a amostra não provém de uma distribuição normal

2. Fixar o nível de significância α do teste

3. Para n ≤ 30 a estatística escolhida é a de Shapiro-Wilk

83

Teste de Shapiro-Wilk

• Procedimento para aplicação do teste

4. Os valores críticos da estatística de Shapiro-Wilk(W) estão na tabela respectiva

5. Calcular o valor real da estatística de Shapiro-Wilk, conforme equação anterior

6. Decisão: se o valor da estatística pertencer a região crítica (W > Wc), rejeita-se H0. Caso contrário, não se rejeita H0

84

Teste de Shapiro-Wilk

• Exemplo: considere os dados da tabela (ordenados), relativos à produção mensal de máquinas de costura nos últimos 12 meses. Verifique se os dados seguem uma distribuição normal, com α =5%

85

1 2 3 4 5 6 7 8 9 10 11 12

23 25 25 28 32 38 38 39 40 42 45 50

Teste de Shapiro-Wilk

• Procedimento para realização do teste

1. A hipótese nula afirma (H0) que a amostra provém de uma distribuição normal. A hipótese alternativa (H1) afirma que a amostra não provém de uma distribuição normal

2. O nível de significância α = 5%

3. Como n ≤ 30 a estatística escolhida é a de Shapiro-Wilk

86

Teste de Shapiro-Wilk

• Procedimento para realização do teste

4. Os valores críticos da estatística de Shapiro-Wilkpara n = 12 e α = 5% na tabela o valor W = 0,859

5. O valor real da estatística de Shapiro-Wilk, conforme equação anterior, b = 27,971 e W = 0,939

6. Decisão: como o valor da estatística não pertence a região crítica W > 0,859 (Wc), não se rejeita H0. A amostra é obtida de uma distribuição normal

87

Teste de Levene para Homogeneidade de Variâncias• Para comparar duas ou mais populações é

necessário supor homogeneidade de variâncias

• A hipótese numa afirma que as variâncias populacionais estimadas a partir de k amostras representativas são homogêneas ou iguais

• A hipótese alternativa afirma que pelo menos uma variância populacional é diferente das demais

𝐻0: 𝜎21 = 𝜎2

2 = ⋯ = 𝜎2𝑛

𝐻1: ∃𝑖,𝑗: 𝜎2𝑖 ≠ 𝜎2

𝑗 (𝑖, 𝑗 = 1,… , 𝑘)

88

Teste de Levene para Homogeneidade de Variâncias• A estatística do teste de Levene

𝑊 =(𝑁 − 𝑘)

(𝑘 − 1)∙

𝑖=1𝑘 ( 𝑍𝑖 − 𝑍)2

𝑖=1𝑘

𝑗=1𝑛𝑗

( 𝑍𝑖𝑗 − 𝑍)2~𝑠𝑜𝑏 𝐻0

𝐹𝑘−1,𝑁−𝑘,𝛼

• Em queni é a dimensão de cada uma das k amostras (i = 1, ..., k)N é a dimensão da amostra global (N = n1 + n2 + ... + nk)

𝑍𝑖𝑗 = 𝑋𝑖𝑗 − 𝑋 , i = 1, ..., k e j = 1, ..., nk

Xij é a observação j da amostra i 𝑍𝑖 é a média de Zi na amostra i 𝑍 é a média de Zi na amostra global

89

Teste de Levene para Homogeneidade de Variâncias• Procedimento para aplicação do teste

1. Fixar a hipótese nula (H0) e a hipótese alternativa (H1). A hipótese nula afirma que as variâncias populacionais são homogêneas. A hipótese alternativa afirma que pelo menos uma das variâncias populacionais é diferente das demais

2. Fixar o nível de significância α do teste

3. A estatística escolhida é o teste W de Levene

90

Teste de Levene para Homogeneidade de Variâncias• Procedimento para aplicação do teste

4. Fixar a região crítica com a Tabela F

5. Calcular o valor real da estatística W, conforme equação anterior

6. Decisão: se o valor da estatística pertencer a região crítica (W > Fc), rejeita-se H0. Caso contrário, não se rejeita H0

91

Teste de Levene para Homogeneidade de Variâncias• Exemplo: uma empresa farmacêutica pretende

comparar a satisfação dos consumidores segundo alguns critérios: qualidade do produto, preços, prazo de entrega, disponibilidade do produto, entre outros

• Para isso, foi aplicado um questionário a partir dos critérios listados, resultado em uma pontuação que varia de 1 a 100

• Foram entrevistados 24 consumidores com o objetivo de comparar a satisfação entre homens e mulheres

• Teste a variância dos grupos ao nível de 5% de significância

• Dados na ‘Plan2’ da planilha Cap4-Exemplos.xlsx

92

Teste de Levene para Homogeneidade de Variâncias• Cálculo do W𝑊

=(24 − 2)

(2 − 1)

∙12 × 14,778 − 10,931 2 + 12 × 7,083 − 10,931 2

1146,907= 6,814

93

Teste de Levene para Homogeneidade de Variâncias• Procedimento para realização do teste

1. A hipótese nula afirma (H0) que as variâncias populacionais dos grupos são iguais. A hipótese alternativa (H1) afirma que as variâncias são diferentes

2. O nível de significância α = 5%

3. A estatística escolhida é o teste W de Levene

94

Teste de Levene para Homogeneidade de Variâncias• Procedimento para realização do teste

4. A região crítica, de acordo com a tabela é Fc = F2,9,5% = 4,26

5. O valor real da estatística W, conforme equação anterior, é W = 6,814

6. Decisão: como o valor da estatística não pertence a região crítica W > 4,26 (Fc), não se rejeita H0. concluindo que as variâncias populacionais dos grupos são homogêneas

95

Obrigado pela Atenção!!!

Até a próxima aula

mbotelho@usp.br

www.marcelobotelho.com

96

top related