estatística e modelos probabilísticos - coe241classes/est-prob-2019/slides/aula_16.pdf · a...

30
Rosa Leão – 2019 Estatística e Modelos Probabilísticos - COE241 Aula de hoje Para que serve a inferência estatística ? Método dos Momentos Maximum Likehood Estimator (MLE) Teste de hipótese: definições

Upload: others

Post on 10-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Estatística e Modelos Probabilísticos - COE241

Aula de hoje

Para que serve a inferência estatística ?

Método dos Momentos

Maximum Likehood Estimator (MLE)

Teste de hipótese: definições

Page 2: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Para que serve a inferência estatística ?

Para qualquer modelo probabilístico é necessário estimar os parâmetros das funções distribuição de probabilidade que serão usadas

A estimativa pode ser feita a partir de dados coletados do sistema

Exemplo: taxa de chegada de clientes no sistema, taxa de serviço de um recurso, taxa de falha de um equipamento, etc

Page 3: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Para que serve a inferência estatística ?

As estimativas são baseadas nos resultados coletados do sistema durante um certo tempo

O conjunto de todos os resultados possíveis de serem obtidos durante a execução do sistema é denominado população

Em geral somente um sub-conjunto da população está disponível

Métodos de inferência estatística tem o objetivo de estimar características de uma população a partir de um sub-conjunto da população denominado amostra

Page 4: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

A medida que o tamanho da amostra aumenta, as estimativas se tornam mais representativas da população

A inferência estatística envolve as seguintes tarefas:

Estimativa de parâmetros do modelo

Teste de hipotése a respeito de parâmetros e distribuição de probabilidade da população

Para que serve a inferência estatística ?

Page 5: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Amostra aleatória

Definição:

O conjunto de variáveis aleatórias X1 , X

2 , ...,

XN é uma amostra aleatória de tamanho N da

população que possui a função distribuição F

X(x), dado que elas são independentes e

identicamente distribuídas com FXi(x) =F

X(x),

para todo i e todo x.

Page 6: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Estatística

Definição:

Qualquer função W(X1 , X

2 , ..., X

N ) calculada

a partir dos valores X1 , X

2 , ..., X

N é chamada

de uma estatística.

Exemplo: média amostral:

variância amostral:

X n=1n ∑i=1

nX i

S2=

1n−1

∑i=1

n X i−X n

2

Page 7: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Estimador

Definição:

Qualquer estatística (X1 , X

2 , ..., X

N )

usada para estimar um parâmetro da população é chamada um estimador para

Page 8: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Propriedades desejáveis para um estimador

Não tendencioso (unbiased): na média o estimador deve fornecer o valor verdadeiro.

Eficiente: deve apresentar a menor variância quando comparado com outros

Consistente: deve convergir em probabilidade para o valor verdadeiro

Page 9: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Estimador não tendencioso

Definição:

Uma estatística (X1 , X

2 , ..., X

N ) é uma

estimador não tendencioso do parâmetro se E[(X

1 , X

2 , ..., X

N )] =

A média amostral e a variância amostral são estimadores não tendenciosos.

Page 10: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Estimador eficiente

Definição:

Um estimador 1 do parâmetro é mais

eficiente que um estimador 2, dado que:

1 e

2 são estimadores não tendenciosos

de

Var[1 ] ≤ Var[

2] para todo

Var[1 ] < Var[

2] para algum

Page 11: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Estimador consistente

Definição:

Um estimador do parâmetro é consistente se ele converge em probabilidade para

Onde N é o tamanho da amostra

limN ∞ P [∣−∣]=0

Page 12: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Métodos para estimativa de parâmetros

Método dos momentos

Método da máxima verossimilhança (maximum likehood)

Page 13: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método dos Momentos

Suponha a estimativa de um ou mais parâmetros da variável aleatória X

Defina o K-ésimo momento amostral da v.a. X como:

Igualando o valor obtido para o momento amostral com a expressão do momento da v.a. X, temos uma equação

M k=∑i=1n X i

k /n , i=1, 2, ...

E [X k]=M k

Page 14: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método dos Momentos

O número de equações a serem resolvidas é igual ao número de parâmetros que temos que estimar para v.a. X

Exemplo: Se a v.a. X tem três parâmetros, precisamos de três equações:

E [X ]=M 1

E [X 2]=M 2

E [X 3]=M 3

Page 15: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método dos Momentos: exemplo

Page 16: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Maximum likelihood estimation (MLE)

MLE is a method of estimating the parameters of a statistical model given observations, by finding the parameter values that maximize the likelihood of making the observations given the parameters.

Observations Parameters

Compute parameters values that make the observed results the most probable

Page 17: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Maximum likelihood estimation (MLE)

For example, one may be interested in the heights of adult female penguins, but is unable to measure the height of every single penguin in a population due to cost or time constraints.

Assuming that the heights are normally distributed with some unknown mean and variance, the mean and variance can be estimated with MLE while only knowing the heights of some sample of the overall population.

MLE would accomplish this by taking the observed mean and variance and finding particular parameters values that make the observed results the most probable given the model.

Page 18: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método MLE

Função densidade conjunta das v.a. Xi

Page 19: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método MLE – função likehood

Função likehood das v.a. Xi

Page 20: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método MLE

Objetivo é obter os estimadores de

1

2 , ...,

k que maximizam a probabilidade

de ocorrência da sequência de observações

Page 21: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método MLE

Os valores de 1

2 , ...,

k que maximizam

a função likehood são os “maximum likehood estimators-MLE” dos parâmetros

1

2 , ...,

k

Os MLE dos parâmetros são os valores para os quais a sequência de amostras tem a maior probabilidade de ocorrer pois maximizam a função densidade conjunta

Page 22: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método MLE: exemplo 1

Page 23: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método MLE: exemplo 1Maximizar L(p) é equivalente a maximizar o logaritmo natural de L(p)

Calcular a segunda derivada de ln L(p) e verificar se é negativa para afirmar que o valor encontrado para p maximiza ln L(p)

L p= p∑ x

i 1− pn−∑ x

i ,0 p1ln L p=∑

i=1n x i ln pn−∑

i=1n x i ln 1− p

d ln L pdp

=∑i=1n x i1

pn−∑i=1n xi −1

1− pp=1

n∑i=1n x i

(ln(x))'= 1/x (ln(g(x))'= 1/g(x) * g'(x)

Page 24: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Método MLE: exemplo 2

d (L(λ))

d (λ)=−n+

1λ ∑

i=1

n

xi

−n+ 1λ∑

i=1

n

xi=0

λ=1n ∑i=1

n

xi

Page 25: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Testes Estatísticos

São procedimentos que nos permitem decidir quando aceitar ou rejeitar uma determinada hipótese baseados na informação contida em uma amostra

Duas hipóteses devem ser definidas:

Hipótese nula - H0

Hipótese contraditória – H1 : é a hipótese

alternativa que gostaríamos de aceitar caso a hipótese nula seja falsa. Deve ser escolhida de acordo com o interesse.

Page 26: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Testes Estatísticos: Regiões

O teste é baseado em um conjunto de variáveis aleatórias X

1 , X

2 , ..., X

N que é uma

amostra aleatória de tamanho N da população

O teste irá dividir o espaço de observações em duas regiões:

R(H0) – região de aceitação

R(H1) – região crítica ou de rejeição

Page 27: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Testes Estatísticos: Tipos de Erros

Tipo de erro I: A hipótese nula (H0) é verdadeira mas

a amostra está na região de rejeição do teste. Logo a hipótese H

0 será rejeitada quando deveria ser aceita.

A probabilidade de ocorrer este erro é também chamada de nível de significância do teste.

Page 28: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Testes Estatísticos: Tipos de Erros

Tipo de erro II: A hipótese nula (H0) é falsa mas a

amostra está na região de aceitação do teste. Logo a hipótese H

0 será aceita quando deveria ser rejeitada.

A probabilidade de ocorrer este erro é

é chamada a potência do teste (power of the test)

Page 29: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Testes Estatísticos: Tipos de Erros

Page 30: Estatística e Modelos Probabilísticos - COE241classes/est-prob-2019/slides/aula_16.pdf · A medida que o tamanho da amostra aumenta, ... representativas da população A inferência

Rosa Leão – 2019

Testes Estatísticos: Tipos de Erros

Verdadeiro positivo

Verdadeiro negativo

Falso positivo

Falso negativo