análise de dados circulares - ime-usprizbicki/projetocirc.pdf · 2008. 12. 27. · circular...

30

Upload: others

Post on 24-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

  • Instituto de Matemática e Estatística da Universidade

    de São Paulo - IME-USP

    Projeto de Iniciação Cientí�ca

    Análise de Dados Circulares

    Aluno:

    Rafael Izbicki

    Orientador:

    Prof. Dr. Luís Gustavo Esteves

    10 de Dezembro de 2008

  • Sumário

    1 Introdução 2

    2 Resumo 2

    3 Métodos e Resultados 3

    3.1 Notações e Convenções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    3.2 Análise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    3.3 Modelos Probabilísticos Circulares . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3.4 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    3.4.1 Distâncias e Funções de Perda no Círculo . . . . . . . . . . . . . . . . . 11

    3.4.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    4 Conclusões 22

    A Demonstrações adicionais 24

    A.1 Teorema (3.2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    A.2 Teorema (3.5) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    1

  • 1 Introdução

    Medidas circulares ocorrem naturalmente em muitas áreas do conhecimento, tais como

    biologia, geogra�a e meteorologia, dentre outras (Mardia, [6]). Em geral, medidas circulares

    são registradas em fenômenos com observações direcionais (direção do movimento de um

    animal após um determinado estímulo, direção do vento, etc.), assim como em fenômenos

    periódicos (horário de chegada de um paciente a um hospital).

    Em decorrência da natureza periódica de tais características, as técnicas estatísticas de-

    senvolvidas para variáveis reais (na reta) não são, em geral, apropriadas (Fisher, [4]). Deste

    modo, algumas técnicas de descrição de dados e procedimentos de inferência estatística es-

    pecí�cos foram desenvolvidos durante as últimas décadas para situações envolvendo caracte-

    rísticas circulares.

    Nesse projeto, pretendemos fazer um estudo do problema de análise de dados circulares,

    englobando as principais técnicas de descrição de dados, os modelos probabilísticos usual-

    mente adotados e os procedimentos de inferência estatística desenvolvidos, sob as abordagens

    clássica e bayesiana.

    2 Resumo

    Neste projeto, vários aspectos relacionados a medidas circulares foram estudados.

    Como técnicas de análise para dados na reta mostram-se inadequadas para o tratamento de

    dados circulares, novas medidas de tendência central, assim como medidas de variabilidade,

    precisam ser de�nidas. Desta forma, inicialmente, estudaram-se algumas destas medidas,

    bem como a sua utilização em análises descritivas de dados circulares (seção (3.2)).

    Posteriormente, alguns modelos probabilísticos usualmente adotados para dados circulares

    foram estudados. Mais especi�camente, estudou-se a distribuição uniforme e a distribuição

    de von Mises. Também foi estudada uma forma de se caracterizar a distribuição de von Mises

    (seção (3.3)).

    2

  • Foram também contemplados alguns aspectos relativos à inferência para dados circulares,

    tanto sob a abordagem clássica quanto sob a abordagem bayesiana, quando consideramos

    uma amostra aleatória simples da distribuição de von Mises (seção (3.4)), como estimação

    pontual e testes de hipótese. Em particular, estudou-se o teste para uma hipótese precisa

    (ou seja, com medida de Lebesgue nula (Pereira e Stern, [12])) e aplicou-se o FBST a este

    caso. Algumas propriedades deste teste foram então analisadas.

    Alguma convenções usuais utilizadas no estudo de dados circulares encontram-se na seção

    (3.1).

    3 Métodos e Resultados

    3.1 Notações e Convenções

    Para o estudo de dados circulares, algumas convenções são em geral feitas. Primeiramente,

    variáveis aleatórias provindas de amostras são representadas por letras gregas, assim como

    parâmetros da população de interesse. Isso não é usual na estatística para dados na reta.

    Além disso, não é costume diferenciar variáveis aleatórias ainda não observadas (grafadas

    usualmente em letras maiúsculas) de seus valores já observados (grafados usualmente em

    letras minúsculas).

    Cada medida circular pode ser vista como um ponto em um círculo de raio 1. Uma

    amostra de n dados circulares é usualmente representada por φ1, . . . , φn, com 0 ≤ φi < 2π,

    ∀i ∈ {1, . . . , n}, em que φi é o ângulo entre o eixo x e o i-ésimo ponto observado, no sentido

    anti-horário, como mostrado na Figura 1.

    Uma notação comumente empregada é a representação de pontos em um plano através de

    números complexos. Para tanto, é costume utilizar a fórmula de Euler, eiφ = cosφ+ i senφ.

    Um número (a, b) ∈

  • Figura 1: Representação de um dado circular

    na Figura 1.

    Uma família de funções de grande utilidade no presente estudo é formada pelas funções

    de Bessel modi�cadas do primeiro tipo (Mardia et al, [9]), i.e.,

    Ip(κ) =1

    ∫ 2π0

    cos(pφ) exp[κ cosφ]dφ, p ∈ {0, 1, . . .}.

    Diz-se que Ip(κ) é a função de Bessel modi�cada do primeiro tipo de ordem p aplicada no

    ponto κ. Alguns modelos probabilísticos envolvem tais funções.

    3.2 Análise Descritiva

    Com o objetivo de representar as observações gra�camente, usualmente utiliza-se o grá�co

    de dispersão no círculo, em que cada observação é representada por um ponto. Um exemplo

    deste grá�co encontra-se na Figura 2, para um conjunto de dados simulados. Alternativa-

    mente, pode-se usar também o chamado rose diagram (Mardia et al, [9]), como mostrado na

    Figura 3, para o mesmo conjunto de dados. A área de cada setor desse grá�co é proporcional

    à freqüência observada na amostra dos valores pertencentes à respectiva região, como em

    um histograma usual. Esses grá�cos podem ser facilmente contruídos através de funções dos

    pacotes CircStats e circular (Jammalamadaka et al, [5]), implementados para o R [13].

    Para dados circulares, não faz sentido utilizar a média amostral, adotada usualmente

    para dados na reta, como medida de centralidade. Por exemplo, suponhamos que estamos

    4

  • Figura 2: Diagrama de dispersão para dados circulares

    Figura 3: Grá�co do tipo rose diagram

    interessados em saber o horário em que costumam ocorrer assaltos em um determinado local

    e temos uma amostra de tamanho 2 com os valores (23:00hs, 01:00hs). Então, convertendo

    essa amostra para ângulos e calculando a média amostral, obtém-se o equivalente a 12:00hs,

    valor que evidentemente é inadequado.

    Deste modo, dada uma amostra φ1, . . . , φn, de�ne-se como direção média (ou ângulo mé-

    dio), φ̄, o ângulo entre o eixo x e o vetor (Pn

    i=1 cosφin

    ,Pn

    i=1 senφin

    ) ≡ (C̄, S̄). Tal vetor é o centro

    de massa dos pontos (cosφ1, senφ1), . . . ,(cosφn, senφn) em

  • Figura 4: Comparação entre dois ρ's diferentes

    A partir de R̄, podem-se criar diferentes medidas de dispersão, apesar de sua utilização

    não ser usual. Um medida simples de dispersão é dada por V = 1− R̄, chamada de variância

    circular amostral. É importante ressaltar que 0 ≤ V ≤ 1. Usualmente, de�ne-se o desvio

    padrão circular como v = [−2 log(1− V )]1/2. Tem-se que v ≥ 0. Maiores detalhes sobre tais

    medidas podem ser encontrados em (Mardia et al, [9]).

    Uma variável aleatória circular φ é uma variável aleatória cujo suporte é [0, 2π). Para uma

    variável aleatória circular φ com função distribuição de probabilidades F (φ), de�ne-se µφ, a

    direção média (ou ângulo médio), e ρφ, o comprimento médio resultante (Mardia et al, [9]),

    através da relação

    ρφeiµφ =

    ∫ 2π0

    exp[iφ]dF (φ) = E[cosφ] + iE[senφ]. (3.2.1)

    A variância circular, νφ, e o desvio-padrão circular, σφ, são de�nidos como νφ = 1− ρφ e

    σφ = [−2 log(1− νφ)]1/2. A partir de agora, sempre que possível, o índice φ será omitido com

    a �nalidade de não carregar a notação.

    As seguintes relações serão usadas mais adiante:

    n∑i=1

    cos(φi − µ) =n∑i=1

    (cosφi cosµ+ senφi senµ) = cosµ(n∑i=1

    cosφi) + senµ(n∑i=1

    senφi) =

    6

  • = nR̄[cosµ cos φ̄+ senµ sen φ̄] = nR̄ cos(φ̄− µ) (3.2.2)

    e

    n∑i=1

    sen(φi − φ̄) =n∑i=1

    (senφi cos φ̄− cosφi sen φ̄) = nS̄ cos φ̄− nC̄ sen φ̄ = 0. (3.2.3)

    3.3 Modelos Probabilísticos Circulares

    A seguir apresentamos duas distribuições de probabilidade circulares importantes.

    De�nição 3.1. Seja φ uma variável aleatória tal que sua densidade é dada por

    f(φ) =1

    2πI[0,2π[(φ)

    Dizemos então que φ tem distribuição uniforme no intervalo [0, 2π[, e escrevemos

    φ ∼ U(0, 2π).

    Observa-se que a direção média de uma variável aleatória com distribuição uniforme não

    está bem de�nida.

    De�nição 3.2. Seja φ uma variável aleatória tal que sua densidade é dada por

    f(φ) =1

    2πI0(κ)exp[κ cos(φ− θ)]I[0,2π[(φ),

    em que κ ≥ 0, θ ∈ [0, 2π) e I0(κ) é a função de Bessel modi�cada do primeiro tipo de

    ordem 0.

    Dizemos então que φ, dados θ e κ, tem distribuição de von Mises com ângulo médio θ e

    parâmetro de concentração κ, e escrevemos φ|θ, κ ∼ VM(θ, κ).

    Nota-se que, quando κ = 0, a distribuição de φ resultante nada mais é que a distribuição

    uniforme em [0, 2π), qualquer que seja o valor de θ.

    Iremos mostrar a seguir que, para uma variável aleatória φ que segue distribuição de von

    Mises com ângulo médio θ e parâmetro de concentração κ, a direção média, µ, é θ, e o

    comprimento médio resultante, ρ, vale A(κ), com A(κ) = I1(κ)/I0(κ). Para tanto, denotando

    7

  • 2πI0(κ) por C, temos que:

    E[cosφ] =∫ 2π

    0

    cosφ

    Cexp[κ cos(φ− θ)]dφ =

    ∫ 2π−θ0−θ

    cos(ψ + θ)

    Cexp[κ cosψ]dψ =

    =

    ∫ 2π0

    1

    C(cosψ cos θ − senψ sen θ) exp[κ cosψ]dψ = E[cosψ] cos θ − E[senψ] sen θ, (3.3.1)

    em que ψ ∼ VM(0, κ). Analogamente, mostra-se também que

    E[senφ] = E[senψ] cos θ + E[cosψ] sen θ. (3.3.2)

    Temos também que∫

    senψC exp[κ cosψ]dψ = −

    exp[κ cosψ]κC , de modo que

    E[senψ] = 0. (3.3.3)

    Dessa forma, temos, a partir de (3.3.1), (3.3.2) e (3.3.3), as seguintes relações:

    E[cosφ] = E[cosψ] cos θ (3.3.4)

    E[senφ] = E[cosψ] sen θ. (3.3.5)

    Também temos que

    E[cosψ] ≡∫ 2π

    0

    cosψ

    Cexp[κ cosψ]dψ =

    R 2π0 cosψ exp[κ cosψ]dψ

    2π2πI0(κ)

    =I1(κ)

    I0(κ)≡ A(κ). (3.3.6)

    Assim, de (3.3.4), (3.3.5) e (3.3.6), sai que

    E[cosφ] = A(κ) cos θ

    E[senφ] = A(κ) sen θ.

    Como A(κ) ≥ 0 (Mardia et al, [9]), temos que

    A(κ) =√

    E2[cosφ] + E2[senφ] =√ρ2(cos2 µ+ sen2 µ) = ρ,

    e então, da relação (3.2.1), µ = θ.

    A Figura 5 traz a função densidade de probabilidades para diferentes distribuições de

    von Mises, todas com ângulo médio π. Pode-se observar que quanto maior o parâmetro de

    concentração, menor a variabilidade.

    Uma forma de se caracterizar a distribuição de von Mises é através da distribuição Normal

    Multivariada, como mostra o teorema a seguir:

    8

  • Figura 5: Densidade de variáveis Von Mises com ângulo médio π e parâmetro de precisão 5 (preto), 3

    (vermelho), 2 (verde) e 1 (azul)

    Teorema 3.1. Seja (X, Y ) um vetor aleatório tal que (X, Y ) ∼ Normal(µ,Σ), com

    µ =

    md

    e

    Σ =

    σ2 00 σ2

    Sejam φ ∈ [0, 2π) e r dados pela transformação (bijetora) a seguir:

    reiφ = X + iY,

    i.e., (r, φ) é a representação em coordenadas polares de (X, Y ). Então a distribuição de φ,

    condicional em r = 1, é de von Mises com parâmetros κ =√

    (m/σ2)2 + (d/σ2)2 e θ tal que

    sen θ = dκσ2

    e cos θ = mκσ2

    , ou seja, κeiθ = mσ2

    + i dσ2.

    9

  • Demonstração. Primeiramente, observamos que o jacobiano da transformação dada no teo-

    rema vale

    J =

    ∣∣∣∣∣∣∣cosφ −r senφ

    senφ r cosφ

    ∣∣∣∣∣∣∣ = r.

    Sejam κ e θ como no teorema. Temos que:

    f(r,φ)(r, φ) = rf(X,Y )(r cosφ, r senφ)I[0,2π[(φ) =r

    2πσ2exp{− 1

    2σ2[(r cosφ−m)2+(r senφ−d)2]}I[0,2π[(φ).

    Logo,

    f(φ)(φ|r = 1) ∝ exp{−1

    2σ2[cos2 φ− 2m cosφ+m2 + sen2 φ− 2d senφ+ d2]}I[0,2π[(φ) ∝

    ∝ exp[mσ2

    cosφ+d

    σ2senφ]I[0,2π[(φ).

    Se m = d = 0, temos imediatamente que a distribuição de φ, condicional em r = 1, é

    uniforme em [0, 2π[, isto é, VM(θ,0), e o teorema está veri�cado. Se m2 + d2 6= 0, e tomando

    κ e θ como no teorema:

    fφ|r=1(φ) ∝ exp{κ[m

    κσ2cosφ+

    d

    κσ2senφ]} = exp{κ cos(φ− θ)}.

    Logo, φ|r = 1 ∼ VM(θ, κ).

    Geometricamente, esse teorema a�rma que se tomamos, em

  • 3.4 Inferência

    3.4.1 Distâncias e Funções de Perda no Círculo

    Com o objetivo de se realizar estimações pontuais acerca do parâmetro de interesse, deve-

    se estabelecer, do ponto de vista bayesiano, uma função de perda (ou, alternativamente, de

    utilidade), L(a, θ), que indica o modo como o decisor é punido para cada possível decisão a

    (estimativa pontual) e estado da natureza θ (valor do parâmetro) (DeGroot, [2]). Usualmente,

    para variáveis na reta, utiliza-se a perda quadrática, i.e., Lq(a, θ) = (a− θ)2. A estimativa de

    Bayes de θ com relação à perda L(a, θ) é, então, o valor de a que minimiza o valor esperado

    da perda a posteriori, i.e., arg mina E[L(a, θ)|x], em que x é a amostra observada.

    Nota-se, contudo, que a perda quadrática, bem como a perda absoluta (La(a, θ) = |a−θ|),

    não parecem razoáveis para uma variável circular. Isso ocorre devido à natureza periódica de

    um ângulo. Por exemplo, há uma diferença de 100 entre 3500 e 00, bem com entre 100 e 00,

    ou seja, 3500 e 100 são equidistantes de 00. Contudo, tratando esses ângulos como números

    na reta, temos que 10 está mais próximo de 0 que 350 de 0.

    Com a �nalidade de solucionar tal problema, iremos a seguir de�nir duas medidas de

    distância no círculo e, a partir delas, duas funções de perda alternativas às usuais para

    variáveis na reta.

    Sejam θa, θb ∈ [0, 2π). Podemos de�nir as seguintes funções de [0, 2π) × [0, 2π) em

  • numérico anterior: neste caso, temos que dcos(3500, 00) = 1 − cos(−3500) = 1 − cos(100) =

    dcos(100, 00), ao passo que de(350, 0) =

    √(350)2 6=

    √(10)2 = de(10, 0). Em palavras, a

    distância dcos é a mesma para 3500 e 00 e para 100 e 00, contudo isso não é preservado na

    distância euclidiana (o que faz com que a perda quadrática torne-se, em geral, inadequada

    para dados circulares). Esta preservação também ocorre para a distância dabs∗.

    Desta maneira, é natural de�nir as seguintes funções de perda para o círculo: Lcos(a, θ) =

    dcos(a, θ) e Labs∗(a, θ) = dabs∗(a, θ). A Figura 6 mostra a função Lcos(a, θ) quando θ = π/4.

    Figura 6: A função de perda Lcos(a, θ), para θ = π/4

    O valor a que minimiza E[Lcos(a, θ)|x] é justamente µθ|x, o ângulo médio da distribuição a

    posteriori de θ, dado x. De fato, sendo ρθ|x o comprimento médio resultante da distribuição

    12

  • a posteriori de θ, dado x, temos:

    E[Lcos(a, θ)|x] = 1− E[cos(θ − a)|x] = 1− cos(a)E[cosθ|x] + sen(a)E[sen θ|x] =

    = 1 + ρθ|x

    [− cos(a)E[cosθ|x]

    ρθ|x+ sen(a)

    E[sen θ|x]ρθ|x

    ]=

    = 1 + ρθ|x[− cos(a) cosµθ|x + sen(a) senµθ|x] =

    = 1− ρθ|x cos(a− µθ|x) = (∗∗)

    Como cos(a − µθ|x) é maximizado quando a = µθ|x, esse é o valor que minimiza (∗∗).

    Nota-se que, quando se utiliza esse valor de a para estimar θ, então quanto maior o valor do

    comprimento médio resultante a posteriori, ρθ|x, menor a perda esperada.

    Uma representação grá�ca da função de perda Labs∗(a, θ), para θ = π/4, encontra-se na

    Figura 7. Suponhamos que θ seja uma variável aleatória circular contínua e sejam a1 ∈ [0, π)

    e a2 ∈ [π, 2π) tais que P(a1 < θ < a1 + π) = 1/2 e P(a2 − π < θ < a2) = 1/2. Então, o valor

    de a que minimiza o valor esperado da perda a posteriori é a = arg maxx∈{a1,a2} fθ|x(x). Esse

    valor é muitas vezes chamado de mediana circular da distribuição a posteriori (Mardia et al,

    [9]). Observa-se que, em alguns casos, o mínimo de Labs∗(a, θ) pode ser atingido em vários

    pontos.

    Observa-se ainda que a perda 0/1 continua tendo um papel importante na análise de

    dados circulares. A estimativa de Bayes com relação à perda 0/1 é a moda da distribuição a

    posteriori.

    3.4.2 Resultados

    O seguinte teorema é bastante útil para �ns inferenciais de dados que seguem distribuição

    de von Mises:

    Teorema 3.3. Sejam φ1, . . . , φn|θ, κ condicionalmente independentes e identicamente distri-

    buídas VM(θ, κ). Temos então que (C, S) ≡ (∑n

    i=1 cosφi,∑n

    i=1 senφi) é su�ciente para o par

    (θ, κ).

    13

  • Figura 7: A função de perda Labs∗(a, θ), para θ = π/4

    Demonstração. Temos que

    f(φ, . . . , φn|θ, κ) =

    =n∏i=1

    1

    2πI0(κ)exp[κ cos(φi − θ)]I[0,2π[(φi) =

    = [1

    2πI0(κ)]n exp[κ

    n∑i=1

    (cos(φi − θ))]n∏i=1

    (I[0,2π[(φi)) =

    =

    [1

    2πI0(κ)

    ]n n∏i=1

    (I[0,2π[(φi)) exp

    [κ cos θ

    n∑i=1

    (cosφi) + κ sen θn∑i=1

    (senφi)

    ](3.4.1)

    Assim, do critério da fatoração de Neyman (DeGroot, [2]), segue o resultado.

    Sejam φ, . . . , φn|θ, κ condicionalmente independentes e identicamente distribuídos VM(θ, κ).

    Temos então que os estimadores de máxima verossimilhança de θ e κ são dados, respectiva-

    mente, por θ̂ = φ̄ e κ̂ tal que A(κ̂) = R̄, em que A(κ) = I1(κ)/I0(κ). Isso pode ser veri�cado

    facilmente através do logaritmo da função de verossimilhança. De fato, usando (3.2.2) para

    14

  • µ = θ e (3.4.1):

    logLφ1,...,φn(θ, κ) = −n log 2π − n log I0(κ) + κn∑i=1

    cos(φi − θ) =

    = −n log 2π − n log I0(κ) + nκR̄ cos(φ̄− θ) = (∗).

    Como a função cosseno atinge seu máximo em 0, obtemos θ̂ = φ̄.

    Agora, derivando-se (∗) com relação à κ, temos:

    ∂Lφ,...,φn(θ, κ)

    ∂κ= −nI

    ′0(κ)

    I0(κ)+ nR̄ cos(φ̄− θ).

    Como vale a relação I ′0(κ) = I1(κ), (Mardia et al, [9]) temos que κ̂ é tal que A(κ̂) = R̄.

    Observa-se que, mesmo quando κ é conhecido, o estimador de máxima verossimilhança de

    θ é φ̄.

    Com a �nalidade de se realizar inferência bayesiana sobre uma população que segue uma

    distribuição de von Mises, com κ conhecido, temos o seguinte teorema:

    Teorema 3.4. Suponhamos que, a priori, θ ∼ VM(θ0, κ0) e que φ1, . . . , φn|θ, κ sejam condici-

    onalmente independentes e identicamente distribuídos VM(θ, κ), e suponhamos κ conhecido.

    Sejam r∗1 = κ0 cos θ0 + κ∑n

    i=1 cosφi e r∗2 = κ0 sen θ0 + κ

    ∑ni=1 senφi. Sejam ainda κ

    ∗ e θ∗

    tais que κ∗eiθ∗

    = r∗1 + ir∗2. Temos então que θ|φ1, . . . , φn, κ ∼ VM(θ∗, κ∗).

    Demonstração. Sejam θ, φ1, . . . , φn como no teorema. Temos que:

    f(θ|φ1, . . . , φn, κ) ∝ f(φ1, . . . , φn|θ, κ)f(θ|κ) ∝ exp[κn∑i=1

    cos(φi − θ)] exp[κ0 cos(θ − θ0)] =

    = exp[κn∑i=1

    (cosφi cos θ + senφi sen θ) + κ0(cos θ cos θ0 + sen θ sen θ0)] =

    = exp[cos θ(κ0 cos θ0 + κn∑i=1

    cosφi) + sen θ(κ0 sen θ0 + κn∑i=1

    senφi)] =

    = exp[cos(θ)r∗1 + sen(θ)r∗2] = (∗).

    Se κ∗ = 0, então r∗1 = r∗2 = 0, e o resultado vale, já que teremos f(θ|φ1, . . . , φn, κ) ∝ 1 e

    VM(θ∗, κ∗ = 0) ∼ U(0, 2π).

    15

  • Suponhamos então κ∗ 6= 0. Teremos que:

    (∗) = exp[κ∗(cos θ r∗1

    κ∗+ sen θ

    r∗2κ∗

    )] = exp[κ∗(cos θ cos θ∗ + sen θ sen θ∗)] = exp[κ∗ cos(θ − θ∗)],

    de onde segue o resultado.

    Esta conjugação está descrita em uma versão para a distribuição de von Mises multidi-

    mensional em Mardia et al, [8]. Observa-se que quando κ0 = 0, isto é, a distribuição a priori

    é uniforme, então, a posteriori, a direção média de θ é a direção média amostral.

    Sejam φ1, . . . , φn|θ, κ condicionalmente independentes e identicamente distribuídos VM(θ, κ),

    com κ conhecido. Suponhamos que, a priori, θ ∼ VM(θ0, κ0). Temos então, pelo Teorema

    (3.4), que θ|φ1, . . . , φn, κ ∼ VM(θ∗, κ∗), com κ∗eiθ∗

    = r∗1 + ir∗2, r

    ∗1 = κ0 cos θ0 + κ

    ∑ni=1 cosφi

    e r∗2 = κ0 sen θ0 + κ∑n

    i=1 senφi. Como o valor máximo da distribuição von Mises é atingido

    justamente no valor de seu ângulo médio, temos que as estimativas de Bayes com perda 0/1 e

    com perda Lcos(a, θ) coincidem e são iguais a θ∗. Esse também é o valor da mediana circular

    da distribuição a posteriori.

    Pode-se também calcular, para este caso, a distribuição preditiva de novas observações

    φn+1, . . . , φn+m que, condicionalmente a θ e a κ, são independentes e identicamente distri-

    buídos VM(θ, κ), sendo também condicionalmente independentes de φ1, . . . , φn. Utilizando

    a mesma notação do Teorema (3.4), temos:

    f(φn+1, . . . , φn+m|φ1, . . . , φn, κ) =∫ 2π

    0

    f(φn+1, . . . , φn+m|θ, κ)f(θ|φ1, . . . , φn, κ)dθ =

    =

    ∫ 2π0

    1

    [2πI0(κ)]mexp{κ[

    n+m∑i=n+1

    cos(φi − θ)]}1

    2πI0(κ∗)exp{κ∗ cos(θ − θ∗)}dθ

    =1

    [2πI0(κ)]m2πI0(κ∗)

    ∫ 2π0

    exp{[κn+m∑i=n+1

    cosφi + κ∗ cos θ∗] cos θ + [κ

    n+m∑i=n+1

    senφi + κ∗ sen θ∗] sen θ}dθ =

    =I0(R

    ∗)

    [2πI0(κ)]mI0(κ∗), R∗ = {[κ

    n+m∑i=n+1

    cosφi + κ∗ cos θ∗]2 + [κ

    n+m∑i=n+1

    senφi + κ∗ sen θ∗]2}1/2.

    A derivação desta distribuição preditiva, para m = 1, encontra-se em (Bagchi et al, [1]).

    16

  • Para o caso geral em que m ∈ N, a distribuição preditiva foi encontrada neste trabalho.

    A forma da densidade preditiva não é de fácil tratamento analítico, de modo que o trata-

    mento via simulação deste problema é mais simples.

    Com a �nalidade de analisarmos a sensibilidade da distribuição a posteriori frente aos

    dados, suponhamos que temos, a priori, θ ∼ VM(π, κ0) e que φ1, . . . , φn|θ sejam condicio-

    nalmente independentes e identicamente distribuídos VM(θ, 1). Suponhamos que os valores

    observados são φ1 = . . . = φn = 0. Então, utilizando o Teorema (3.4), vemos que, a posteri-

    ori, θ|φ1, . . . , φn tem distribuição de von Mises com parâmetro de concentração κ∗ = |κ0−n|.

    Assim, se κ0 = n, teremos, a posteriori, uma distribuição uniforme. A Figura 8 traz as

    distribuições a priori e a posteriori para este caso.

    Figura 8: Distribuições a priori e a posteriori para o exemplo dado

    Muitas vezes, tem-se interesse em testar a hipótese H0 : θ = θ1 contra H0 : θ 6= θ1,

    θ1 ∈ [0, 2π). Podemos, sem perda de generalidade, restringir-nos ao caso em que θ1 = 0, uma

    vez que, caso isso não valha, podemos fazer um rotação nos dados e uma reparametrização

    da distribuição a priori de forma a cair nesse caso. Ainda no contexto em que κ é conhecido,

    o Teste da Razão de Verossimilhanças (TRV) (DeGroot, [2]) é aquele que rejeita a hipótese

    H0 quando

    λ(φ1, . . . , φn) =supθ∈Θ0 L(θ;φ1, . . . , φn)

    supθ∈Θ L(θ;φ1, . . . , φn)≤ C ⇐⇒ exp{

    n∑i=1

    κ cosφi+n∑i=1

    κ cos(φi−φ̄)} ≤ C ⇐⇒

    17

  • ⇐⇒ exp{κnC̄ − κnC̄ cos φ̄− κnS̄ sen φ̄} ≤ C ⇐⇒ exp{κnC̄ − κnR̄} ≤ C.

    Desta forma, o p-valor dado pelo TRV para uma amostra observada φobs1 , . . . , φobsn é dado

    por

    P(C̄ − R̄ ≤ C̄obs − R̄obs|θ = 0),

    com

    C̄obs =

    ∑ni=1 cosφ

    obsi

    n,

    S̄obs =

    ∑ni=1 senφ

    obsi

    n

    e

    R̄obs = [(C̄obs)2 + (S̄obs)2]1/2.

    Como a distribuição de C̄ − R̄|θ = 0 não é conhecida, para que o p-valor seja calculado é

    necessário simular a distribuição desta estatística. Uma alternativa é utilizar o fato de que

    −2 log λ(φ1, . . . , φn) = 2κn(R̄− C̄)|θ = 0 ≈ χ21,

    contudo para o uso de tal aproximação é necessária uma amostra grande.

    Um segundo possível teste, talvez mais intuitivo, baseia-se no uso da distância circular

    dcos. A idéia deste teste é utilizar como p-valor em favor de H0 a probabilidade do ângulo

    médio amostral, φ̄, estar mais distante (segundo dcos) de 0 que o ângulo médio amostral

    observado, φ̄obs, sob H0, isto é,

    P(dcos(φ̄, 0) ≥ dcos(φ̄obs, 0)|θ = 0) = P(cos φ̄ ≤ cos φ̄obs|θ = 0).

    Como a distribuição de φ̄ sob H0 não é conhecida, para que o p-valor seja calculado, é

    necessário simular a distribuição desta estatística.

    Observa-se também que dcos(a, 0) ≤ dcos(b, 0) ⇐⇒ dabs∗(a, 0) ≤ dabs∗(b, 0), de modo que

    se a distância utilizada no teste anterior fosse dabs∗, e não dcos, o mesmo procedimento seria

    obtido.

    Do ponto de vista bayesiano, tal hipótese pode ser testada utilizando-se o FBST (Pereira

    e Stern, [12]), que propõe como medida de evidência em favor de H0 o e-valor, que, para a

    18

  • hipótese dada, utilizando-se a distribuição a priori dada pelo Teorema 3.4, é

    1− 2 min{P(0 < θ ≤ θ∗|φ1, . . . , φn, κ), 1− P(0 < θ ≤ θ∗|φ1, . . . , φn, κ)}.

    Pode-se observar que o cálculo do e-valor é mais simples que o do p-valor dado pelo TRV,

    uma vez que, para o seu cálculo, é necessário apenas um método para cálcular a função

    de distribuição acumulada de variáveis aleatórias com distribuição de Von Mises. Funções

    que implementam tais métodos estão disponíveis em pacotes para o R como o CircStats e o

    circular (Jammalamadaka et al, [5]). Além disso, trata-se de um teste exato, uma vez que

    não é ncessário recorrer a resultados assintóticos.

    A seguir apresentamos três �guras que têm a �nalidade de comparar os testes citados em

    alguns aspectos. Para que tal comparação fosse possível, utilizou-se como valor de corte para

    o FBST o valor que faria com que o tamanho do teste fosse dado por α = 5%.

    A Figura 9 traz para cada um dos testes citados a região de aceitação (azul) e rejeição

    (vermelho) para cada possível amostra (φ1, φ2) de tamanho 2.

    A Figura 10 traz para cada um dos testes citados a região de aceitação (azul) e rejeição

    (vermelho) para cada possível combinação (C̄, S̄).

    A Figura 11 traz a função poder de cada um dos testes citados para diferentes pontos.

    O seguinte teorema, cuja demonstração encontra-se no Apêndice A, apresenta alguns

    comportamentos limites do e-valor para o caso estudado.

    Teorema 3.5. Suponhamos que, a priori, θ ∼ VM(θ0, κ0) e que φ1, . . . , φn, . . . |θ, κ sejam

    condicionalmente independentes e identicamente distribuídos VM(θ, κ), e suponhamos κ co-

    nhecido. Sejam r∗1n = κ0 cos θ0 + κ∑n

    i=1 cosφi e r∗2n = κ0 sen θ0 + κ

    ∑ni=1 senφi. Sejam

    ainda κ∗n e θ∗n tais que κ

    ∗neiθ∗n = r∗1n + ir

    ∗2n. Consideremos a sequência de variáveis alea-

    tórias evn = 1 − 2 min{P(0 < θ ≤ θ∗n|φ1, . . . , φn, κ), 1 − P(0 < θ ≤ θ∗n|φ1, . . . , φn, κ)} =

    1 − 2 min{P(0 < θn ≤ θ∗n|φ1, . . . , φn, κ), 1 − P(0 < θn ≤ θ∗n|φ1, . . . , φn, κ)}, θn ∼ VM(θ∗n, κ∗n)

    (pelo teorema 3.4). Temos então que:

    (1) evn|θ = θ0 −→ 0 q.c., ∀θ0 ∈ (0, 2π).

    (2) Se κ0 = 0, evn|θ = 0 ∼ Unif(0, 2π), ∀n ∈ N.

    19

  • Figura 9: Região de aceitação (azul) e rejeição (vermelho) para os 3 testes. n = 2, κ = 1, α = 5%, distribuição

    a priori uniforme.

    O teorema acima diz que o e-valor converge quase certamente a 0 quando a hipótese de

    que θ = 0 não é verdadeira, e, quando a distribuição a priori é uniforme, tem distribuição

    uniforme se θ = 0.

    Em geral, o valor de κ não é conhecido. Uma forma de lidar com isso é através do teorema

    a seguir:

    Teorema 3.6. Sejam φ1, . . . , φn|θ, κ sejam condicionalmente independentes e identicamente

    distribuídos VM(θ, κ). Suponhamos que, a priori, o par (θ, κ) seja distribuído segundo a

    densidade

    f(θ, κ) ∝ 1Ic0(κ)

    exp[κR0 cos(θ − θ0)]IR∗+(κ)I[0,2π)(θ).

    Temos então que, a posteriori,

    20

  • Figura 10: Região de aceitação (azul) e rejeição (vermelho) para os 3 testes. n = 2, κ = 1, α = 5%,

    distribuição a priori uniforme.

    Figura 11: Função poder para os 3 testes. n = 100, κ = 1, α = 5%, distribuição a priori uniforme.

    21

  • f(θ, κ|φ1, . . . , φn) ∝1

    Ic∗0 (κ)exp[κR∗ cos(θ − θ∗)]IR∗+(κ)I[0,2π)(θ),

    com c∗ = c + n, e R∗ e θ∗ tais que R∗eiθ∗

    = r∗1 + ir∗2, r

    ∗1 = R0 cos θ0 + κ

    ∑ni=1 cosφi e

    r∗2 = R0 sen θ0 + κ∑n

    i=1 senφi.

    Demonstração. Sejam θ, κ, φ1, . . . , φn como no teorema. Temos que:

    f(θ, κ|φ1, . . . , φn) ∝ f(φ1, . . . , φn|θ, κ)f(θ, κ) ∝

    ∝ 1In0 (κ)

    exp[κn∑i=1

    cos(φi − θ)]1

    Ic0(κ)exp[κR0 cos(θ − θ0)]IR∗+(κ)I[0,2π)(θ) =

    =1

    Ic∗(κ)IR∗+(κ)I[0,2π)(θ) = exp{κ[(R0 cos θ0 +

    n∑i=1

    cosφi) cos θ + (R0 sen θ0 +n∑i=1

    senφi) sen θ]} =

    =1

    Ic∗0 (κ)exp[κR∗ cos(θ − θ∗)]IR∗+(κ)I[0,2π)(θ).

    Uma extensão desse caso para mais dimensões encontra-se em (Nuñez et al., [10]). A

    conjugação descrita no Teorema (3.6) nada mais é que a conjugação natural (Paulino et al,

    [11]) da distribuição de Von Mises (com ambos os parâmetros desconhecidos), uma vez que

    esta pertence à família exponencial.

    A forma desta distribuição conjugada não é de fácil tratamento analítico. Nuñez et al.,

    [10], propõe uma maneira de simular valores da distribuição a posteriori, com base na técnica

    conhecida como Sampling-Importance-Resampling (SIR). Nota-se, contudo, que mesmo via

    simulação o problema da inferência sobre uma distribuição de Von Mises quando ambos os

    parâmetros são desconhecidos não é simples.

    4 Conclusões

    Pelo que foi estudado neste projeto, pode-se notar que, de fato, novas técnicas de análise

    estatística, bem como novos modelos probabilísticos, são necessários com a �nalidade de

    22

  • analisar dados circulares. Muitas vezes, tais técnicas apresentam uma di�culdade maior de

    implementação que as técnicas usuais para variáveis na reta.

    Observa-se também que resta muito a ser feito, especialmente do ponto de vista bayesiano,

    para o problema de inferência em dados circulares.

    Também nota-se que o cálculo do e-valor mostrou-se mais simples se comparado ao p-valor

    para o caso estudado, além de se tratar de um teste exato.

    23

  • A Demonstrações adicionais

    Neste apêndice iremos demonstrar os Teoremas (3.2) e (3.5).

    A.1 Teorema (3.2)

    Demonstração do Teorema (3.2). (1) e (2) são imediatos tanto para dcos quanto para dabs∗.

    Iremos agora provar (3).

    Seja de a distância euclidiana em

  • suponhamos, sem perda de generalidade, que θa = min{θa, θb, θc}, e θc = max{θa, θb, θc}.

    Temos então que |θa − θb|+ |θa − θc|+ |θb − θc| ≤ |0− θb|+ |0− 2π|+ |θb − 2π| = 4π.

    (4) |θa − θb| ≥ 2π − |θa − θb|, |θa − θc| < 2π − |θa − θc|, |θb − θc| < 2π − |θb − θc|. Neste

    caso, a desigualdade triangular passa a ser 2π− |θa− θb| ≤ |θa− θc|+ |θb− θc|. Para mostrar

    que ela vale, basta notar que 2π − |θa − θb| ≤ |θa − θb| ≤ |θa − θc|+ |θb − θc|.

    (5) |θa − θb| ≥ 2π − |θa − θb|, |θa − θc| ≥ 2π − |θa − θc|, |θb − θc| < 2π − |θb − θc|. Neste

    caso, a desigualdade triangular passa a ser 2π − |θa − θb| ≤ 2π − |θa − θc| + |θb − θc|, que é

    equivalente a |θa − θc| ≤ |θb − θc|+ |θa − θb|, que segue da desigualdade usual em 0 t.q. 0 < θ0 − � <

    θ0 + � < π. Como ω ∈ A, existe n1 t.q. n > n1 ⇒ θ0 − � < θ∗n(ω) < θ0 + �. Além disso,

    n > n1 ⇒ evn(ω) = 1− 2P(0 < θn(ω) ≤ θ∗n(ω)). Notemos também que

    25

  • P(0 < θn(ω) ≤ θ∗n(ω)) =∫ θ∗n(ω)

    0

    1

    2πI0(κ∗n(ω))exp[κ∗n(ω) cos(θ − θ∗n(ω))]dθ

    =

    ∫ θ∗n(ω)0

    1

    2πI0(κ∗n(ω))exp[κ∗n(ω) cos θ]dθ.

    Deste modo,

    an ≡∫ θ0−�

    0

    1

    2πI0(κ∗n(ω))exp[κ∗n(ω) cos θ]dθ ≤ P(0 < θn(ω) ≤ θ∗n(ω))

    ≤∫ θ0+�

    0

    1

    2πI0(κ∗n(ω))exp[κ∗n(ω) cos θ]dθ ≡ bn.

    Provaremos que lim an = lim bn = 1/2, de modo que lim P(0 < θn(ω) ≤ θ∗n(ω)) = 1/2 e,

    portanto, lim evn(ω) = 0.

    Para tanto, �xemos c ∈ (0, π). Temos que fn(θ) ≡ 12πI0(n) exp[n cos θ] é decrescente em

    (0, π), pois f ′n(θ) = − sen θ2πI0(n) exp[n cos θ] < 0 quando θ ∈ (0, π). Assim, vale que∫ πcfn(θ)dθ ≤

    fn(c)(π − c) −→ 0. Desta forma, pela simetria de fn(θ),∫ c

    01

    2πI0(n)exp[n cos θ]dθ −→ 1/2, o

    que conclui a prova da parte (1), uma vez que κ∗n(ω) −→∞ e 0 < θ0 − �, θ0 + � < π.

    (2) Seja n ∈ N. Sejam κ∗ = κ∗n e θ∗ = θ∗n. Do teorema 3.4, temos que κ∗ cos θ∗ = nκC̄ e

    κ∗ sen θ∗ = nκS̄, pois κ0 = 0. Seja x ∈ [0, 2π). Temos então que

    P(evn ≤ x|θ = 0) = P(min{P(0 < θn ≤ θ∗), 1− P(0 < θn ≤ θ∗)} ≥1− x

    2|θ = 0)

    = P(P(0 < θn ≤ θ∗) ≤1 + x

    2|θ = 0)− P(P(0 < θn ≤ θ∗) ≤

    1− x2

    |θ = 0) = (∗)

    Mas, utilizando o Lema (A.1) e o fato de que κ0 = 0 ⇒ θ∗ = φ̄ e κ∗ = κR, temos que, para

    26

  • y ∈ (0, 1),

    P(P(0 < θn ≤ θ∗) ≤ y|θ = 0) =

    =

  • Referências

    [1] Bagchi, P. e Guttman, I. (1988).Theoretical considerations of the multivariate von Mises-

    Fisher distribuition. Journal of Applied Statistics 15 149-169.

    [2] DeGroot, M. H. (1975). Probability and Statistics. Massachusetts: Addison-Wesley Pu-

    blishing Company, InC.

    [3] Downs, T. D. (1967). Some relationships between the normal and von Mises distributions.

    Biometrika 54 684-687.

    [4] Fisher, N. I. (1993). Statistical Analysis of Circular Data. Cambridge University Press.

    [5] Jammalamadaka S. R. e SenGupta A. (2001) Topics in circular Statistics. World Scien-

    ti�c.

    [6] Mardia, K. V. (1972). Statistics of Directional Data. London: Academic Press.

    [7] Mardia K. V. (1975). Statistics of Directional Data. Journal of the Royal Statistical

    Society. Series B (Methodological). 37 349-393.

    [8] Mardia K. V. e El-Atoum S. A. M. (1976). Bayesian inference for the von Mises-Fisher

    distribution. Biometrika 63 203-206.

    [9] Mardia, K. V. e Jupp, P. E. (2000). Directional Statistics. Wiley.

    [10] Nuñez, G. A. e Peña, E. G. (2005). A Bayesian Analysis of Directional Data Using the von

    Mises-Fisher Distribution . Communications in Statistics - Simulation and Computation

    34 989-999.

    [11] Paulino, C. D., Turkman, M. A. A. e Murteira, B. (2003). Estatística Bayesiana. Lisboa:

    Fundação Calouste Gulbenkian.

    [12] Pereira C. A. de B. e Stern J. M. (1999). Evidence and Credibility: a full Bayesian test

    of precise hypothesis. Entropy, 1, 99-110.

    28

  • [13] R Development Core Team. R: A language and environment for statistical computing.

    R Foundation for Statistical Computing, Vienna, Austria, 2005. URL http://www.R-

    project.org. ISBN 3-900051-07-0.

    29

    IntroduçãoResumoMétodos e ResultadosNotações e ConvençõesAnálise DescritivaModelos Probabilísticos CircularesInferênciaDistâncias e Funções de Perda no CírculoResultados

    ConclusõesDemonstrações adicionaisTeorema (3.2)Teorema (3.5)