análise de dados circulares - ime-usprizbicki/projetocirc.pdf · 2008. 12. 27. · circular...

Instituto de Matemática e Estatística da Universidade

de São Paulo - IME-USP

Projeto de Iniciação Cientí�ca

Análise de Dados Circulares

Aluno:

Rafael Izbicki

Orientador:

Prof. Dr. Luís Gustavo Esteves

10 de Dezembro de 2008

Sumário

1 Introdução 2

2 Resumo 2

3 Métodos e Resultados 3

3.1 Notações e Convenções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3.2 Análise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3.3 Modelos Probabilísticos Circulares . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.4 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.4.1 Distâncias e Funções de Perda no Círculo . . . . . . . . . . . . . . . . . 11

3.4.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4 Conclusões 22

A Demonstrações adicionais 24

A.1 Teorema (3.2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

A.2 Teorema (3.5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1

1 Introdução

Medidas circulares ocorrem naturalmente em muitas áreas do conhecimento, tais como

biologia, geogra�a e meteorologia, dentre outras (Mardia, [6]). Em geral, medidas circulares

são registradas em fenômenos com observações direcionais (direção do movimento de um

animal após um determinado estímulo, direção do vento, etc.), assim como em fenômenos

periódicos (horário de chegada de um paciente a um hospital).

Em decorrência da natureza periódica de tais características, as técnicas estatísticas de-

senvolvidas para variáveis reais (na reta) não são, em geral, apropriadas (Fisher, [4]). Deste

modo, algumas técnicas de descrição de dados e procedimentos de inferência estatística es-

pecí�cos foram desenvolvidos durante as últimas décadas para situações envolvendo caracte-

rísticas circulares.

Nesse projeto, pretendemos fazer um estudo do problema de análise de dados circulares,

englobando as principais técnicas de descrição de dados, os modelos probabilísticos usual-

mente adotados e os procedimentos de inferência estatística desenvolvidos, sob as abordagens

clássica e bayesiana.

2 Resumo

Neste projeto, vários aspectos relacionados a medidas circulares foram estudados.

Como técnicas de análise para dados na reta mostram-se inadequadas para o tratamento de

dados circulares, novas medidas de tendência central, assim como medidas de variabilidade,

precisam ser de�nidas. Desta forma, inicialmente, estudaram-se algumas destas medidas,

bem como a sua utilização em análises descritivas de dados circulares (seção (3.2)).

Posteriormente, alguns modelos probabilísticos usualmente adotados para dados circulares

foram estudados. Mais especi�camente, estudou-se a distribuição uniforme e a distribuição

de von Mises. Também foi estudada uma forma de se caracterizar a distribuição de von Mises

(seção (3.3)).

2

Foram também contemplados alguns aspectos relativos à inferência para dados circulares,

tanto sob a abordagem clássica quanto sob a abordagem bayesiana, quando consideramos

uma amostra aleatória simples da distribuição de von Mises (seção (3.4)), como estimação

pontual e testes de hipótese. Em particular, estudou-se o teste para uma hipótese precisa

(ou seja, com medida de Lebesgue nula (Pereira e Stern, [12])) e aplicou-se o FBST a este

caso. Algumas propriedades deste teste foram então analisadas.

Alguma convenções usuais utilizadas no estudo de dados circulares encontram-se na seção

(3.1).

3 Métodos e Resultados

3.1 Notações e Convenções

Para o estudo de dados circulares, algumas convenções são em geral feitas. Primeiramente,

variáveis aleatórias provindas de amostras são representadas por letras gregas, assim como

parâmetros da população de interesse. Isso não é usual na estatística para dados na reta.

Além disso, não é costume diferenciar variáveis aleatórias ainda não observadas (grafadas

usualmente em letras maiúsculas) de seus valores já observados (grafados usualmente em

letras minúsculas).

Cada medida circular pode ser vista como um ponto em um círculo de raio 1. Uma

amostra de n dados circulares é usualmente representada por φ1, . . . , φn, com 0 ≤ φi < 2π,

∀i ∈ {1, . . . , n}, em que φi é o ângulo entre o eixo x e o i-ésimo ponto observado, no sentido

anti-horário, como mostrado na Figura 1.

Uma notação comumente empregada é a representação de pontos em um plano através de

números complexos. Para tanto, é costume utilizar a fórmula de Euler, eiφ = cosφ+ i senφ.

Um número (a, b) ∈

Figura 1: Representação de um dado circular

na Figura 1.

Uma família de funções de grande utilidade no presente estudo é formada pelas funções

de Bessel modi�cadas do primeiro tipo (Mardia et al, [9]), i.e.,

Ip(κ) =1

2π

∫ 2π0

cos(pφ) exp[κ cosφ]dφ, p ∈ {0, 1, . . .}.

Diz-se que Ip(κ) é a função de Bessel modi�cada do primeiro tipo de ordem p aplicada no

ponto κ. Alguns modelos probabilísticos envolvem tais funções.

3.2 Análise Descritiva

Com o objetivo de representar as observações gra�camente, usualmente utiliza-se o grá�co

de dispersão no círculo, em que cada observação é representada por um ponto. Um exemplo

deste grá�co encontra-se na Figura 2, para um conjunto de dados simulados. Alternativa-

mente, pode-se usar também o chamado rose diagram (Mardia et al, [9]), como mostrado na

Figura 3, para o mesmo conjunto de dados. A área de cada setor desse grá�co é proporcional

à freqüência observada na amostra dos valores pertencentes à respectiva região, como em

um histograma usual. Esses grá�cos podem ser facilmente contruídos através de funções dos

pacotes CircStats e circular (Jammalamadaka et al, [5]), implementados para o R [13].

Para dados circulares, não faz sentido utilizar a média amostral, adotada usualmente

para dados na reta, como medida de centralidade. Por exemplo, suponhamos que estamos

4

Figura 2: Diagrama de dispersão para dados circulares

Figura 3: Grá�co do tipo rose diagram

interessados em saber o horário em que costumam ocorrer assaltos em um determinado local

e temos uma amostra de tamanho 2 com os valores (23:00hs, 01:00hs). Então, convertendo

essa amostra para ângulos e calculando a média amostral, obtém-se o equivalente a 12:00hs,

valor que evidentemente é inadequado.

Deste modo, dada uma amostra φ1, . . . , φn, de�ne-se como direção média (ou ângulo mé-

dio), φ̄, o ângulo entre o eixo x e o vetor (Pn

i=1 cosφin

,Pn

i=1 senφin

) ≡ (C̄, S̄). Tal vetor é o centro

de massa dos pontos (cosφ1, senφ1), . . . ,(cosφn, senφn) em

Figura 4: Comparação entre dois ρ's diferentes

A partir de R̄, podem-se criar diferentes medidas de dispersão, apesar de sua utilização

não ser usual. Um medida simples de dispersão é dada por V = 1− R̄, chamada de variância

circular amostral. É importante ressaltar que 0 ≤ V ≤ 1. Usualmente, de�ne-se o desvio

padrão circular como v = [−2 log(1− V )]1/2. Tem-se que v ≥ 0. Maiores detalhes sobre tais

medidas podem ser encontrados em (Mardia et al, [9]).

Uma variável aleatória circular φ é uma variável aleatória cujo suporte é [0, 2π). Para uma

variável aleatória circular φ com função distribuição de probabilidades F (φ), de�ne-se µφ, a

direção média (ou ângulo médio), e ρφ, o comprimento médio resultante (Mardia et al, [9]),

através da relação

ρφeiµφ =

∫ 2π0

exp[iφ]dF (φ) = E[cosφ] + iE[senφ]. (3.2.1)

A variância circular, νφ, e o desvio-padrão circular, σφ, são de�nidos como νφ = 1− ρφ e

σφ = [−2 log(1− νφ)]1/2. A partir de agora, sempre que possível, o índice φ será omitido com

a �nalidade de não carregar a notação.

As seguintes relações serão usadas mais adiante:

n∑i=1

cos(φi − µ) =n∑i=1

(cosφi cosµ+ senφi senµ) = cosµ(n∑i=1

cosφi) + senµ(n∑i=1

senφi) =

6

= nR̄[cosµ cos φ̄+ senµ sen φ̄] = nR̄ cos(φ̄− µ) (3.2.2)

e

n∑i=1

sen(φi − φ̄) =n∑i=1

(senφi cos φ̄− cosφi sen φ̄) = nS̄ cos φ̄− nC̄ sen φ̄ = 0. (3.2.3)

3.3 Modelos Probabilísticos Circulares

A seguir apresentamos duas distribuições de probabilidade circulares importantes.

De�nição 3.1. Seja φ uma variável aleatória tal que sua densidade é dada por

f(φ) =1

2πI[0,2π[(φ)

Dizemos então que φ tem distribuição uniforme no intervalo [0, 2π[, e escrevemos

φ ∼ U(0, 2π).

Observa-se que a direção média de uma variável aleatória com distribuição uniforme não

está bem de�nida.

De�nição 3.2. Seja φ uma variável aleatória tal que sua densidade é dada por

f(φ) =1

2πI0(κ)exp[κ cos(φ− θ)]I[0,2π[(φ),

em que κ ≥ 0, θ ∈ [0, 2π) e I0(κ) é a função de Bessel modi�cada do primeiro tipo de

ordem 0.

Dizemos então que φ, dados θ e κ, tem distribuição de von Mises com ângulo médio θ e

parâmetro de concentração κ, e escrevemos φ|θ, κ ∼ VM(θ, κ).

Nota-se que, quando κ = 0, a distribuição de φ resultante nada mais é que a distribuição

uniforme em [0, 2π), qualquer que seja o valor de θ.

Iremos mostrar a seguir que, para uma variável aleatória φ que segue distribuição de von

Mises com ângulo médio θ e parâmetro de concentração κ, a direção média, µ, é θ, e o

comprimento médio resultante, ρ, vale A(κ), com A(κ) = I1(κ)/I0(κ). Para tanto, denotando

7

2πI0(κ) por C, temos que:

E[cosφ] =∫ 2π

0

cosφ

Cexp[κ cos(φ− θ)]dφ =

∫ 2π−θ0−θ

cos(ψ + θ)

Cexp[κ cosψ]dψ =

=

∫ 2π0

1

C(cosψ cos θ − senψ sen θ) exp[κ cosψ]dψ = E[cosψ] cos θ − E[senψ] sen θ, (3.3.1)

em que ψ ∼ VM(0, κ). Analogamente, mostra-se também que

E[senφ] = E[senψ] cos θ + E[cosψ] sen θ. (3.3.2)

Temos também que∫

senψC exp[κ cosψ]dψ = −

exp[κ cosψ]κC , de modo que

E[senψ] = 0. (3.3.3)

Dessa forma, temos, a partir de (3.3.1), (3.3.2) e (3.3.3), as seguintes relações:

E[cosφ] = E[cosψ] cos θ (3.3.4)

E[senφ] = E[cosψ] sen θ. (3.3.5)

Também temos que

E[cosψ] ≡∫ 2π

0

cosψ

Cexp[κ cosψ]dψ =

R 2π0 cosψ exp[κ cosψ]dψ

2π2πI0(κ)

2π

=I1(κ)

I0(κ)≡ A(κ). (3.3.6)

Assim, de (3.3.4), (3.3.5) e (3.3.6), sai que

E[cosφ] = A(κ) cos θ

E[senφ] = A(κ) sen θ.

Como A(κ) ≥ 0 (Mardia et al, [9]), temos que

A(κ) =√

E2[cosφ] + E2[senφ] =√ρ2(cos2 µ+ sen2 µ) = ρ,

e então, da relação (3.2.1), µ = θ.

A Figura 5 traz a função densidade de probabilidades para diferentes distribuições de

von Mises, todas com ângulo médio π. Pode-se observar que quanto maior o parâmetro de

concentração, menor a variabilidade.

Uma forma de se caracterizar a distribuição de von Mises é através da distribuição Normal

Multivariada, como mostra o teorema a seguir:

8

Figura 5: Densidade de variáveis Von Mises com ângulo médio π e parâmetro de precisão 5 (preto), 3

(vermelho), 2 (verde) e 1 (azul)

Teorema 3.1. Seja (X, Y ) um vetor aleatório tal que (X, Y ) ∼ Normal(µ,Σ), com

µ =

md

e

Σ =

σ2 00 σ2

Sejam φ ∈ [0, 2π) e r dados pela transformação (bijetora) a seguir:

reiφ = X + iY,

i.e., (r, φ) é a representação em coordenadas polares de (X, Y ). Então a distribuição de φ,

condicional em r = 1, é de von Mises com parâmetros κ =√

(m/σ2)2 + (d/σ2)2 e θ tal que

sen θ = dκσ2

e cos θ = mκσ2

, ou seja, κeiθ = mσ2

+ i dσ2.

9

Demonstração. Primeiramente, observamos que o jacobiano da transformação dada no teo-

rema vale

J =

∣∣∣∣∣∣∣cosφ −r senφ

senφ r cosφ

∣∣∣∣∣∣∣ = r.

Sejam κ e θ como no teorema. Temos que:

f(r,φ)(r, φ) = rf(X,Y )(r cosφ, r senφ)I[0,2π[(φ) =r

2πσ2exp{− 1

2σ2[(r cosφ−m)2+(r senφ−d)2]}I[0,2π[(φ).

Logo,

f(φ)(φ|r = 1) ∝ exp{−1

2σ2[cos2 φ− 2m cosφ+m2 + sen2 φ− 2d senφ+ d2]}I[0,2π[(φ) ∝

∝ exp[mσ2

cosφ+d

σ2senφ]I[0,2π[(φ).

Se m = d = 0, temos imediatamente que a distribuição de φ, condicional em r = 1, é

uniforme em [0, 2π[, isto é, VM(θ,0), e o teorema está veri�cado. Se m2 + d2 6= 0, e tomando

κ e θ como no teorema:

fφ|r=1(φ) ∝ exp{κ[m

κσ2cosφ+

d

κσ2senφ]} = exp{κ cos(φ− θ)}.

Logo, φ|r = 1 ∼ VM(θ, κ).

Geometricamente, esse teorema a�rma que se tomamos, em

3.4 Inferência

3.4.1 Distâncias e Funções de Perda no Círculo

Com o objetivo de se realizar estimações pontuais acerca do parâmetro de interesse, deve-

se estabelecer, do ponto de vista bayesiano, uma função de perda (ou, alternativamente, de

utilidade), L(a, θ), que indica o modo como o decisor é punido para cada possível decisão a

(estimativa pontual) e estado da natureza θ (valor do parâmetro) (DeGroot, [2]). Usualmente,

para variáveis na reta, utiliza-se a perda quadrática, i.e., Lq(a, θ) = (a− θ)2. A estimativa de

Bayes de θ com relação à perda L(a, θ) é, então, o valor de a que minimiza o valor esperado

da perda a posteriori, i.e., arg mina E[L(a, θ)|x], em que x é a amostra observada.

Nota-se, contudo, que a perda quadrática, bem como a perda absoluta (La(a, θ) = |a−θ|),

não parecem razoáveis para uma variável circular. Isso ocorre devido à natureza periódica de

um ângulo. Por exemplo, há uma diferença de 100 entre 3500 e 00, bem com entre 100 e 00,

ou seja, 3500 e 100 são equidistantes de 00. Contudo, tratando esses ângulos como números

na reta, temos que 10 está mais próximo de 0 que 350 de 0.

Com a �nalidade de solucionar tal problema, iremos a seguir de�nir duas medidas de

distância no círculo e, a partir delas, duas funções de perda alternativas às usuais para

variáveis na reta.

Sejam θa, θb ∈ [0, 2π). Podemos de�nir as seguintes funções de [0, 2π) × [0, 2π) em

numérico anterior: neste caso, temos que dcos(3500, 00) = 1 − cos(−3500) = 1 − cos(100) =

dcos(100, 00), ao passo que de(350, 0) =

√(350)2 6=

√(10)2 = de(10, 0). Em palavras, a

distância dcos é a mesma para 3500 e 00 e para 100 e 00, contudo isso não é preservado na

distância euclidiana (o que faz com que a perda quadrática torne-se, em geral, inadequada

para dados circulares). Esta preservação também ocorre para a distância dabs∗.

Desta maneira, é natural de�nir as seguintes funções de perda para o círculo: Lcos(a, θ) =

dcos(a, θ) e Labs∗(a, θ) = dabs∗(a, θ). A Figura 6 mostra a função Lcos(a, θ) quando θ = π/4.

Figura 6: A função de perda Lcos(a, θ), para θ = π/4

O valor a que minimiza E[Lcos(a, θ)|x] é justamente µθ|x, o ângulo médio da distribuição a

posteriori de θ, dado x. De fato, sendo ρθ|x o comprimento médio resultante da distribuição

12

a posteriori de θ, dado x, temos:

E[Lcos(a, θ)|x] = 1− E[cos(θ − a)|x] = 1− cos(a)E[cosθ|x] + sen(a)E[sen θ|x] =

= 1 + ρθ|x

[− cos(a)E[cosθ|x]

ρθ|x+ sen(a)

E[sen θ|x]ρθ|x

]=

= 1 + ρθ|x[− cos(a) cosµθ|x + sen(a) senµθ|x] =

= 1− ρθ|x cos(a− µθ|x) = (∗∗)

Como cos(a − µθ|x) é maximizado quando a = µθ|x, esse é o valor que minimiza (∗∗).

Nota-se que, quando se utiliza esse valor de a para estimar θ, então quanto maior o valor do

comprimento médio resultante a posteriori, ρθ|x, menor a perda esperada.

Uma representação grá�ca da função de perda Labs∗(a, θ), para θ = π/4, encontra-se na

Figura 7. Suponhamos que θ seja uma variável aleatória circular contínua e sejam a1 ∈ [0, π)

e a2 ∈ [π, 2π) tais que P(a1 < θ < a1 + π) = 1/2 e P(a2 − π < θ < a2) = 1/2. Então, o valor

de a que minimiza o valor esperado da perda a posteriori é a = arg maxx∈{a1,a2} fθ|x(x). Esse

valor é muitas vezes chamado de mediana circular da distribuição a posteriori (Mardia et al,

[9]). Observa-se que, em alguns casos, o mínimo de Labs∗(a, θ) pode ser atingido em vários

pontos.

Observa-se ainda que a perda 0/1 continua tendo um papel importante na análise de

dados circulares. A estimativa de Bayes com relação à perda 0/1 é a moda da distribuição a

posteriori.

3.4.2 Resultados

O seguinte teorema é bastante útil para �ns inferenciais de dados que seguem distribuição

de von Mises:

Teorema 3.3. Sejam φ1, . . . , φn|θ, κ condicionalmente independentes e identicamente distri-

buídas VM(θ, κ). Temos então que (C, S) ≡ (∑n

i=1 cosφi,∑n

i=1 senφi) é su�ciente para o par

(θ, κ).

13

Figura 7: A função de perda Labs∗(a, θ), para θ = π/4

Demonstração. Temos que

f(φ, . . . , φn|θ, κ) =

=n∏i=1

1

2πI0(κ)exp[κ cos(φi − θ)]I[0,2π[(φi) =

= [1

2πI0(κ)]n exp[κ

n∑i=1

(cos(φi − θ))]n∏i=1

(I[0,2π[(φi)) =

=

[1

2πI0(κ)

]n n∏i=1

(I[0,2π[(φi)) exp

[κ cos θ

n∑i=1

(cosφi) + κ sen θn∑i=1

(senφi)

](3.4.1)

Assim, do critério da fatoração de Neyman (DeGroot, [2]), segue o resultado.

Sejam φ, . . . , φn|θ, κ condicionalmente independentes e identicamente distribuídos VM(θ, κ).

Temos então que os estimadores de máxima verossimilhança de θ e κ são dados, respectiva-

mente, por θ̂ = φ̄ e κ̂ tal que A(κ̂) = R̄, em que A(κ) = I1(κ)/I0(κ). Isso pode ser veri�cado

facilmente através do logaritmo da função de verossimilhança. De fato, usando (3.2.2) para

14

µ = θ e (3.4.1):

logLφ1,...,φn(θ, κ) = −n log 2π − n log I0(κ) + κn∑i=1

cos(φi − θ) =

= −n log 2π − n log I0(κ) + nκR̄ cos(φ̄− θ) = (∗).

Como a função cosseno atinge seu máximo em 0, obtemos θ̂ = φ̄.

Agora, derivando-se (∗) com relação à κ, temos:

∂Lφ,...,φn(θ, κ)

∂κ= −nI

′0(κ)

I0(κ)+ nR̄ cos(φ̄− θ).

Como vale a relação I ′0(κ) = I1(κ), (Mardia et al, [9]) temos que κ̂ é tal que A(κ̂) = R̄.

Observa-se que, mesmo quando κ é conhecido, o estimador de máxima verossimilhança de

θ é φ̄.

Com a �nalidade de se realizar inferência bayesiana sobre uma população que segue uma

distribuição de von Mises, com κ conhecido, temos o seguinte teorema:

Teorema 3.4. Suponhamos que, a priori, θ ∼ VM(θ0, κ0) e que φ1, . . . , φn|θ, κ sejam condici-

onalmente independentes e identicamente distribuídos VM(θ, κ), e suponhamos κ conhecido.

Sejam r∗1 = κ0 cos θ0 + κ∑n

i=1 cosφi e r∗2 = κ0 sen θ0 + κ

∑ni=1 senφi. Sejam ainda κ

∗ e θ∗

tais que κ∗eiθ∗

= r∗1 + ir∗2. Temos então que θ|φ1, . . . , φn, κ ∼ VM(θ∗, κ∗).

Demonstração. Sejam θ, φ1, . . . , φn como no teorema. Temos que:

f(θ|φ1, . . . , φn, κ) ∝ f(φ1, . . . , φn|θ, κ)f(θ|κ) ∝ exp[κn∑i=1

cos(φi − θ)] exp[κ0 cos(θ − θ0)] =

= exp[κn∑i=1

(cosφi cos θ + senφi sen θ) + κ0(cos θ cos θ0 + sen θ sen θ0)] =

= exp[cos θ(κ0 cos θ0 + κn∑i=1

cosφi) + sen θ(κ0 sen θ0 + κn∑i=1

senφi)] =

= exp[cos(θ)r∗1 + sen(θ)r∗2] = (∗).

Se κ∗ = 0, então r∗1 = r∗2 = 0, e o resultado vale, já que teremos f(θ|φ1, . . . , φn, κ) ∝ 1 e

VM(θ∗, κ∗ = 0) ∼ U(0, 2π).

15

Suponhamos então κ∗ 6= 0. Teremos que:

(∗) = exp[κ∗(cos θ r∗1

κ∗+ sen θ

r∗2κ∗

)] = exp[κ∗(cos θ cos θ∗ + sen θ sen θ∗)] = exp[κ∗ cos(θ − θ∗)],

de onde segue o resultado.

Esta conjugação está descrita em uma versão para a distribuição de von Mises multidi-

mensional em Mardia et al, [8]. Observa-se que quando κ0 = 0, isto é, a distribuição a priori

é uniforme, então, a posteriori, a direção média de θ é a direção média amostral.

Sejam φ1, . . . , φn|θ, κ condicionalmente independentes e identicamente distribuídos VM(θ, κ),

com κ conhecido. Suponhamos que, a priori, θ ∼ VM(θ0, κ0). Temos então, pelo Teorema

(3.4), que θ|φ1, . . . , φn, κ ∼ VM(θ∗, κ∗), com κ∗eiθ∗

= r∗1 + ir∗2, r

∗1 = κ0 cos θ0 + κ

∑ni=1 cosφi

e r∗2 = κ0 sen θ0 + κ∑n

i=1 senφi. Como o valor máximo da distribuição von Mises é atingido

justamente no valor de seu ângulo médio, temos que as estimativas de Bayes com perda 0/1 e

com perda Lcos(a, θ) coincidem e são iguais a θ∗. Esse também é o valor da mediana circular

da distribuição a posteriori.

Pode-se também calcular, para este caso, a distribuição preditiva de novas observações

φn+1, . . . , φn+m que, condicionalmente a θ e a κ, são independentes e identicamente distri-

buídos VM(θ, κ), sendo também condicionalmente independentes de φ1, . . . , φn. Utilizando

a mesma notação do Teorema (3.4), temos:

f(φn+1, . . . , φn+m|φ1, . . . , φn, κ) =∫ 2π

0

f(φn+1, . . . , φn+m|θ, κ)f(θ|φ1, . . . , φn, κ)dθ =

=

∫ 2π0

1

[2πI0(κ)]mexp{κ[

n+m∑i=n+1

cos(φi − θ)]}1

2πI0(κ∗)exp{κ∗ cos(θ − θ∗)}dθ

=1

[2πI0(κ)]m2πI0(κ∗)

∫ 2π0

exp{[κn+m∑i=n+1

cosφi + κ∗ cos θ∗] cos θ + [κ

n+m∑i=n+1

senφi + κ∗ sen θ∗] sen θ}dθ =

=I0(R

∗)

[2πI0(κ)]mI0(κ∗), R∗ = {[κ

n+m∑i=n+1

cosφi + κ∗ cos θ∗]2 + [κ

n+m∑i=n+1

senφi + κ∗ sen θ∗]2}1/2.

A derivação desta distribuição preditiva, para m = 1, encontra-se em (Bagchi et al, [1]).

16

Para o caso geral em que m ∈ N, a distribuição preditiva foi encontrada neste trabalho.

A forma da densidade preditiva não é de fácil tratamento analítico, de modo que o trata-

mento via simulação deste problema é mais simples.

Com a �nalidade de analisarmos a sensibilidade da distribuição a posteriori frente aos

dados, suponhamos que temos, a priori, θ ∼ VM(π, κ0) e que φ1, . . . , φn|θ sejam condicio-

nalmente independentes e identicamente distribuídos VM(θ, 1). Suponhamos que os valores

observados são φ1 = . . . = φn = 0. Então, utilizando o Teorema (3.4), vemos que, a posteri-

ori, θ|φ1, . . . , φn tem distribuição de von Mises com parâmetro de concentração κ∗ = |κ0−n|.

Assim, se κ0 = n, teremos, a posteriori, uma distribuição uniforme. A Figura 8 traz as

distribuições a priori e a posteriori para este caso.

Figura 8: Distribuições a priori e a posteriori para o exemplo dado

Muitas vezes, tem-se interesse em testar a hipótese H0 : θ = θ1 contra H0 : θ 6= θ1,

θ1 ∈ [0, 2π). Podemos, sem perda de generalidade, restringir-nos ao caso em que θ1 = 0, uma

vez que, caso isso não valha, podemos fazer um rotação nos dados e uma reparametrização

da distribuição a priori de forma a cair nesse caso. Ainda no contexto em que κ é conhecido,

o Teste da Razão de Verossimilhanças (TRV) (DeGroot, [2]) é aquele que rejeita a hipótese

H0 quando

λ(φ1, . . . , φn) =supθ∈Θ0 L(θ;φ1, . . . , φn)

supθ∈Θ L(θ;φ1, . . . , φn)≤ C ⇐⇒ exp{

n∑i=1

κ cosφi+n∑i=1

κ cos(φi−φ̄)} ≤ C ⇐⇒

17

⇐⇒ exp{κnC̄ − κnC̄ cos φ̄− κnS̄ sen φ̄} ≤ C ⇐⇒ exp{κnC̄ − κnR̄} ≤ C.

Desta forma, o p-valor dado pelo TRV para uma amostra observada φobs1 , . . . , φobsn é dado

por

P(C̄ − R̄ ≤ C̄obs − R̄obs|θ = 0),

com

C̄obs =

∑ni=1 cosφ

obsi

n,

S̄obs =

∑ni=1 senφ

obsi

n

e

R̄obs = [(C̄obs)2 + (S̄obs)2]1/2.

Como a distribuição de C̄ − R̄|θ = 0 não é conhecida, para que o p-valor seja calculado é

necessário simular a distribuição desta estatística. Uma alternativa é utilizar o fato de que

−2 log λ(φ1, . . . , φn) = 2κn(R̄− C̄)|θ = 0 ≈ χ21,

contudo para o uso de tal aproximação é necessária uma amostra grande.

Um segundo possível teste, talvez mais intuitivo, baseia-se no uso da distância circular

dcos. A idéia deste teste é utilizar como p-valor em favor de H0 a probabilidade do ângulo

médio amostral, φ̄, estar mais distante (segundo dcos) de 0 que o ângulo médio amostral

observado, φ̄obs, sob H0, isto é,

P(dcos(φ̄, 0) ≥ dcos(φ̄obs, 0)|θ = 0) = P(cos φ̄ ≤ cos φ̄obs|θ = 0).

Como a distribuição de φ̄ sob H0 não é conhecida, para que o p-valor seja calculado, é

necessário simular a distribuição desta estatística.

Observa-se também que dcos(a, 0) ≤ dcos(b, 0) ⇐⇒ dabs∗(a, 0) ≤ dabs∗(b, 0), de modo que

se a distância utilizada no teste anterior fosse dabs∗, e não dcos, o mesmo procedimento seria

obtido.

Do ponto de vista bayesiano, tal hipótese pode ser testada utilizando-se o FBST (Pereira

e Stern, [12]), que propõe como medida de evidência em favor de H0 o e-valor, que, para a

18

hipótese dada, utilizando-se a distribuição a priori dada pelo Teorema 3.4, é

1− 2 min{P(0 < θ ≤ θ∗|φ1, . . . , φn, κ), 1− P(0 < θ ≤ θ∗|φ1, . . . , φn, κ)}.

Pode-se observar que o cálculo do e-valor é mais simples que o do p-valor dado pelo TRV,

uma vez que, para o seu cálculo, é necessário apenas um método para cálcular a função

de distribuição acumulada de variáveis aleatórias com distribuição de Von Mises. Funções

que implementam tais métodos estão disponíveis em pacotes para o R como o CircStats e o

circular (Jammalamadaka et al, [5]). Além disso, trata-se de um teste exato, uma vez que

não é ncessário recorrer a resultados assintóticos.

A seguir apresentamos três �guras que têm a �nalidade de comparar os testes citados em

alguns aspectos. Para que tal comparação fosse possível, utilizou-se como valor de corte para

o FBST o valor que faria com que o tamanho do teste fosse dado por α = 5%.

A Figura 9 traz para cada um dos testes citados a região de aceitação (azul) e rejeição

(vermelho) para cada possível amostra (φ1, φ2) de tamanho 2.

A Figura 10 traz para cada um dos testes citados a região de aceitação (azul) e rejeição

(vermelho) para cada possível combinação (C̄, S̄).

A Figura 11 traz a função poder de cada um dos testes citados para diferentes pontos.

O seguinte teorema, cuja demonstração encontra-se no Apêndice A, apresenta alguns

comportamentos limites do e-valor para o caso estudado.

Teorema 3.5. Suponhamos que, a priori, θ ∼ VM(θ0, κ0) e que φ1, . . . , φn, . . . |θ, κ sejam

condicionalmente independentes e identicamente distribuídos VM(θ, κ), e suponhamos κ co-

nhecido. Sejam r∗1n = κ0 cos θ0 + κ∑n

i=1 cosφi e r∗2n = κ0 sen θ0 + κ

∑ni=1 senφi. Sejam

ainda κ∗n e θ∗n tais que κ

∗neiθ∗n = r∗1n + ir

∗2n. Consideremos a sequência de variáveis alea-

tórias evn = 1 − 2 min{P(0 < θ ≤ θ∗n|φ1, . . . , φn, κ), 1 − P(0 < θ ≤ θ∗n|φ1, . . . , φn, κ)} =

1 − 2 min{P(0 < θn ≤ θ∗n|φ1, . . . , φn, κ), 1 − P(0 < θn ≤ θ∗n|φ1, . . . , φn, κ)}, θn ∼ VM(θ∗n, κ∗n)

(pelo teorema 3.4). Temos então que:

(1) evn|θ = θ0 −→ 0 q.c., ∀θ0 ∈ (0, 2π).

(2) Se κ0 = 0, evn|θ = 0 ∼ Unif(0, 2π), ∀n ∈ N.

19

Figura 9: Região de aceitação (azul) e rejeição (vermelho) para os 3 testes. n = 2, κ = 1, α = 5%, distribuição

a priori uniforme.

O teorema acima diz que o e-valor converge quase certamente a 0 quando a hipótese de

que θ = 0 não é verdadeira, e, quando a distribuição a priori é uniforme, tem distribuição

uniforme se θ = 0.

Em geral, o valor de κ não é conhecido. Uma forma de lidar com isso é através do teorema

a seguir:

Teorema 3.6. Sejam φ1, . . . , φn|θ, κ sejam condicionalmente independentes e identicamente

distribuídos VM(θ, κ). Suponhamos que, a priori, o par (θ, κ) seja distribuído segundo a

densidade

f(θ, κ) ∝ 1Ic0(κ)

exp[κR0 cos(θ − θ0)]IR∗+(κ)I[0,2π)(θ).

Temos então que, a posteriori,

20

Figura 10: Região de aceitação (azul) e rejeição (vermelho) para os 3 testes. n = 2, κ = 1, α = 5%,

distribuição a priori uniforme.

Figura 11: Função poder para os 3 testes. n = 100, κ = 1, α = 5%, distribuição a priori uniforme.

21

f(θ, κ|φ1, . . . , φn) ∝1

Ic∗0 (κ)exp[κR∗ cos(θ − θ∗)]IR∗+(κ)I[0,2π)(θ),

com c∗ = c + n, e R∗ e θ∗ tais que R∗eiθ∗

= r∗1 + ir∗2, r

∗1 = R0 cos θ0 + κ

∑ni=1 cosφi e

r∗2 = R0 sen θ0 + κ∑n

i=1 senφi.

Demonstração. Sejam θ, κ, φ1, . . . , φn como no teorema. Temos que:

f(θ, κ|φ1, . . . , φn) ∝ f(φ1, . . . , φn|θ, κ)f(θ, κ) ∝

∝ 1In0 (κ)

exp[κn∑i=1

cos(φi − θ)]1

Ic0(κ)exp[κR0 cos(θ − θ0)]IR∗+(κ)I[0,2π)(θ) =

=1

Ic∗(κ)IR∗+(κ)I[0,2π)(θ) = exp{κ[(R0 cos θ0 +

n∑i=1

cosφi) cos θ + (R0 sen θ0 +n∑i=1

senφi) sen θ]} =

=1

Ic∗0 (κ)exp[κR∗ cos(θ − θ∗)]IR∗+(κ)I[0,2π)(θ).

Uma extensão desse caso para mais dimensões encontra-se em (Nuñez et al., [10]). A

conjugação descrita no Teorema (3.6) nada mais é que a conjugação natural (Paulino et al,

[11]) da distribuição de Von Mises (com ambos os parâmetros desconhecidos), uma vez que

esta pertence à família exponencial.

A forma desta distribuição conjugada não é de fácil tratamento analítico. Nuñez et al.,

[10], propõe uma maneira de simular valores da distribuição a posteriori, com base na técnica

conhecida como Sampling-Importance-Resampling (SIR). Nota-se, contudo, que mesmo via

simulação o problema da inferência sobre uma distribuição de Von Mises quando ambos os

parâmetros são desconhecidos não é simples.

4 Conclusões

Pelo que foi estudado neste projeto, pode-se notar que, de fato, novas técnicas de análise

estatística, bem como novos modelos probabilísticos, são necessários com a �nalidade de

22

analisar dados circulares. Muitas vezes, tais técnicas apresentam uma di�culdade maior de

implementação que as técnicas usuais para variáveis na reta.

Observa-se também que resta muito a ser feito, especialmente do ponto de vista bayesiano,

para o problema de inferência em dados circulares.

Também nota-se que o cálculo do e-valor mostrou-se mais simples se comparado ao p-valor

para o caso estudado, além de se tratar de um teste exato.

23

A Demonstrações adicionais

Neste apêndice iremos demonstrar os Teoremas (3.2) e (3.5).

A.1 Teorema (3.2)

Demonstração do Teorema (3.2). (1) e (2) são imediatos tanto para dcos quanto para dabs∗.

Iremos agora provar (3).

Seja de a distância euclidiana em

suponhamos, sem perda de generalidade, que θa = min{θa, θb, θc}, e θc = max{θa, θb, θc}.

Temos então que |θa − θb|+ |θa − θc|+ |θb − θc| ≤ |0− θb|+ |0− 2π|+ |θb − 2π| = 4π.

(4) |θa − θb| ≥ 2π − |θa − θb|, |θa − θc| < 2π − |θa − θc|, |θb − θc| < 2π − |θb − θc|. Neste

caso, a desigualdade triangular passa a ser 2π− |θa− θb| ≤ |θa− θc|+ |θb− θc|. Para mostrar

que ela vale, basta notar que 2π − |θa − θb| ≤ |θa − θb| ≤ |θa − θc|+ |θb − θc|.

(5) |θa − θb| ≥ 2π − |θa − θb|, |θa − θc| ≥ 2π − |θa − θc|, |θb − θc| < 2π − |θb − θc|. Neste

caso, a desigualdade triangular passa a ser 2π − |θa − θb| ≤ 2π − |θa − θc| + |θb − θc|, que é

equivalente a |θa − θc| ≤ |θb − θc|+ |θa − θb|, que segue da desigualdade usual em 0 t.q. 0 < θ0 − � <

θ0 + � < π. Como ω ∈ A, existe n1 t.q. n > n1 ⇒ θ0 − � < θ∗n(ω) < θ0 + �. Além disso,

n > n1 ⇒ evn(ω) = 1− 2P(0 < θn(ω) ≤ θ∗n(ω)). Notemos também que

25

P(0 < θn(ω) ≤ θ∗n(ω)) =∫ θ∗n(ω)

0

1

2πI0(κ∗n(ω))exp[κ∗n(ω) cos(θ − θ∗n(ω))]dθ

=

∫ θ∗n(ω)0

1

2πI0(κ∗n(ω))exp[κ∗n(ω) cos θ]dθ.

Deste modo,

an ≡∫ θ0−�

0

1

2πI0(κ∗n(ω))exp[κ∗n(ω) cos θ]dθ ≤ P(0 < θn(ω) ≤ θ∗n(ω))

≤∫ θ0+�

0

1

2πI0(κ∗n(ω))exp[κ∗n(ω) cos θ]dθ ≡ bn.

Provaremos que lim an = lim bn = 1/2, de modo que lim P(0 < θn(ω) ≤ θ∗n(ω)) = 1/2 e,

portanto, lim evn(ω) = 0.

Para tanto, �xemos c ∈ (0, π). Temos que fn(θ) ≡ 12πI0(n) exp[n cos θ] é decrescente em

(0, π), pois f ′n(θ) = − sen θ2πI0(n) exp[n cos θ] < 0 quando θ ∈ (0, π). Assim, vale que∫ πcfn(θ)dθ ≤

fn(c)(π − c) −→ 0. Desta forma, pela simetria de fn(θ),∫ c

01

2πI0(n)exp[n cos θ]dθ −→ 1/2, o

que conclui a prova da parte (1), uma vez que κ∗n(ω) −→∞ e 0 < θ0 − �, θ0 + � < π.

(2) Seja n ∈ N. Sejam κ∗ = κ∗n e θ∗ = θ∗n. Do teorema 3.4, temos que κ∗ cos θ∗ = nκC̄ e

κ∗ sen θ∗ = nκS̄, pois κ0 = 0. Seja x ∈ [0, 2π). Temos então que

P(evn ≤ x|θ = 0) = P(min{P(0 < θn ≤ θ∗), 1− P(0 < θn ≤ θ∗)} ≥1− x

2|θ = 0)

= P(P(0 < θn ≤ θ∗) ≤1 + x

2|θ = 0)− P(P(0 < θn ≤ θ∗) ≤

1− x2

|θ = 0) = (∗)

Mas, utilizando o Lema (A.1) e o fato de que κ0 = 0 ⇒ θ∗ = φ̄ e κ∗ = κR, temos que, para

26

y ∈ (0, 1),

P(P(0 < θn ≤ θ∗) ≤ y|θ = 0) =

=

∫

Referências

[1] Bagchi, P. e Guttman, I. (1988).Theoretical considerations of the multivariate von Mises-

Fisher distribuition. Journal of Applied Statistics 15 149-169.

[2] DeGroot, M. H. (1975). Probability and Statistics. Massachusetts: Addison-Wesley Pu-

blishing Company, InC.

[3] Downs, T. D. (1967). Some relationships between the normal and von Mises distributions.

Biometrika 54 684-687.

[4] Fisher, N. I. (1993). Statistical Analysis of Circular Data. Cambridge University Press.

[5] Jammalamadaka S. R. e SenGupta A. (2001) Topics in circular Statistics. World Scien-

ti�c.

[6] Mardia, K. V. (1972). Statistics of Directional Data. London: Academic Press.

[7] Mardia K. V. (1975). Statistics of Directional Data. Journal of the Royal Statistical

Society. Series B (Methodological). 37 349-393.

[8] Mardia K. V. e El-Atoum S. A. M. (1976). Bayesian inference for the von Mises-Fisher

distribution. Biometrika 63 203-206.

[9] Mardia, K. V. e Jupp, P. E. (2000). Directional Statistics. Wiley.

[10] Nuñez, G. A. e Peña, E. G. (2005). A Bayesian Analysis of Directional Data Using the von

Mises-Fisher Distribution . Communications in Statistics - Simulation and Computation

34 989-999.

[11] Paulino, C. D., Turkman, M. A. A. e Murteira, B. (2003). Estatística Bayesiana. Lisboa:

Fundação Calouste Gulbenkian.

[12] Pereira C. A. de B. e Stern J. M. (1999). Evidence and Credibility: a full Bayesian test

of precise hypothesis. Entropy, 1, 99-110.

28

[13] R Development Core Team. R: A language and environment for statistical computing.

R Foundation for Statistical Computing, Vienna, Austria, 2005. URL http://www.R-

project.org. ISBN 3-900051-07-0.

29

IntroduçãoResumoMétodos e ResultadosNotações e ConvençõesAnálise DescritivaModelos Probabilísticos CircularesInferênciaDistâncias e Funções de Perda no CírculoResultados

ConclusõesDemonstrações adicionaisTeorema (3.2)Teorema (3.5)

análise de dados circulares - ime-usprizbicki/projetocirc.pdf · 2008. 12. 27. · circular...

Documents