análise de dados em astronomia 3. distribuições de
TRANSCRIPT
3. Distribuições de Probabilidades
Análise de Dados em Astronomia
3. Distribuições de Probabilidades
Laerte Sodré Jr.
AGA0505, 1o. semestre 2019
1 / 24
introdução
aula de hoje
1 distribuições de probabilidades2 a distribuição uniforme3 a distribuição normal ou gaussiana4 o teorema do limite central5 a distribuição binomial6 a distribuição de Poisson7 a distribuição exponencial8 a distribuição beta
9 a distribuição de Cauchy10 a distribuição χ2
11 a distribuição t de Student
12 distribuições em lei de potência
É provável que coisas improváveis aconteçam (Aristóteles)
2 / 24
distribuições de probabilidades
distribuições de probabilidades
clássicasuniformebinomialnormalPoissonexponencial
fauna estatísticaβ, Cauchy, χ2, F, Γ, t, Weibull,...
astrofísicalei de potênciaSchectherlog-normal...
3 / 24
distribuições de probabilidades
distribuição uniforme
distribuição uniforme (entre 0 e X):
P(x|X) =
{ 1X , se 0 ≤ x ≤ X0, de outro modo
média
E(x) =
∫ X
0x
1X
dx =X2
variância
σ2 = E(x2)− E(x)2 =X2
3− X2
4=
X2
12
distribuição cumulativa:
CDF(x) =
∫ x
0
1X
dx =xX
4 / 24
distribuições de probabilidades
distribuição normal ou gaussiana
distribuição gaussiana:
P(x|µ, σ) =1√2πσ
exp[− (x− µ)2
2σ2
]2 parâmetros:
média µdesvio padrão σ (ou variância σ2)
N(x;µ, σ)
distribuição cumulativa:
CDF(x) =
∫ x
−∞N(x′;µ, σ)dx′ =
=12
[1 + erf
(x− µ√
2σ
)],
onde
erf(x) =2√π
∫ x
0e−u2/2du
é chamada de função erro
5 / 24
distribuições de probabilidades
distribuição normal ou gaussiana
distribuição gaussiana:
P(x|µ, σ) =1√2πσ
exp[− (x− µ)2
2σ2
]distribuição cumulativa:
CDF(x) =12
[1 + erf
(x− µ√
2σ
)]
a área total sob a curva é 1a área dentro de ±1σ é 0,68a área dentro de ±2σ é 0.95a área dentro de ±3σ é 0.997um resultado de 2σ teria apenas 5%de chance de ocorrer ao acaso
6 / 24
distribuições de probabilidades
distribuição normal ou gaussiana
Teorema do Limite Central:em condições bem gerais, fazermédias produz uma distribuiçãogaussiana, independentemente dadistribuição a partir da qual os dadossão geradosse x1, x2, ..., xn é um conjunto devariáveis aleatórias com valoresperado µ finito e variância σ2 finita,para N →∞ a soma dessas variáveistende a uma distribuição gaussianade média Nµ e variância Nσ2
a variável
y =
∑Ni=1(xi − µ)∑N
i=1 σ2
tende a uma gaussiana de média nulae variância unitária
uma consequência: os erros demédias de dados vão tender a ser’gaussianos’
7 / 24
distribuições de probabilidades
distribuição normal ou gaussiana
Teorema do Limite Central:em condições bem gerais, fazermédias produz uma distribuiçãogaussiana, independentemente dadistribuição a partir da qual os dadossão geradosexemplo: valores médios em Nsimsimulações de 10 pontos com umadistribuição exponencial
8 / 24
distribuições de probabilidades
distribuição binomial
aplica-se quando há apenas dois resultados possíveis:sucesso/falha, detecção/não-detecção, cara/coroa
dá a probabilidade de n sucessos em N tentativasa probabilidade de sucesso em cada tentativa é a mesma e designada por θas sucessivas tentativas são independentes entre si
P(n|θ,N) =
(Nn
)θn(1− θ)N−n =
N!
n!(N − n)!θn(1− θ)N−n
média e variância:
n̄ =
N∑n=0
nP(n) = Nθ σ2 =
N∑n=0
(n− n̄)2P(n) = Nθ(1− θ)
9 / 24
distribuições de probabilidades
distribuição binomial
exemplo: em uma certa região do céu espera-se o mesmo número de estrelas e galáxiasaté uma certa magnitude
considerando 10 objetos, qual é a probabilidade de se ter 8 ou mais galáxias?no caso: N = 10 e θ = 1/2probabilidade de n ≥ 8 sucessos em N tentativas:
P(n ≥ 8|θ,N) =
N∑n=8
(Nn
)θn(1− θ)N−n =
=1
210
N∑n=8
(Nn
)=
56124' 0.055
assim, a probabilidade de n ≥ 8 galáxias em N = 10 objetos é ∼5.5%
10 / 24
distribuições de probabilidades
distribuição binomial
11 / 24
distribuições de probabilidades
distribuição de Poisson
probabilidade de n eventos ocorreremnum certo intervalo de tempo, ou emcerta região do espaço, se esteseventos ocorrem independentemente ecom uma média fixa
P(n|µ) =µn
n!e−µ
média e variância:
n̄ =∑N
n=0 nP(n) = µ
σ2 =∑N
n=0(n− n̄)2P(n) = µ
12 / 24
distribuições de probabilidades
distribuição de Poisson
aplicações:
contagens em detectores
densidade de estrelas/galáxias
explosões de supernovas
variabilidade de AGNs
...
13 / 24
distribuições de probabilidades
distribuição de Poisson
exemplo:em um detector, o número esperado de fótons de uma fonte é de 4.5 por segundo;qual é a probabilidade de se detectar 6 fótons em 2 segundos?taxa de fótons: λ = 4.5/secnúmero esperado no intervalo de tempo t: µ = λtprobabilidade:
P(n|µ) =µn
n!e−µ =
(4.5× 2)6
6!e−4.5×2 ' 0.09
14 / 24
distribuições de probabilidades
distribuição exponencial
descreve o intervalo de tempo entreeventos que obedecem a um processopoissoniano, isto é, que ocorremcontinuamente e independentemente,com uma taxa média constante, λ > 0:
P(x|λ) =
{λe−λx, se x ≥ 0
0, se x < 0
média e variância:x̄ = 1
λ
σ2 = 1λ2
distribuição cumulativa:
CDF(x|λ) =
{1− e−λx, se x ≥ 0
0, se x < 0
15 / 24
distribuições de probabilidades
distribuição exponencial
exemplo:a taxa de supernovas média em uma galáxia como a Via Láctea é de 1 em 50 anosa última supernova conhecida que explodiu na Via Láctea foi a de Kepler, em 1604qual é a probabilidade de se esperar mais de 400 anos para se observar uma novasupernova?esta probabilidade é dada por ∫ ∞
t0
λe−λtdt = e−λt0 =
= e−400/50 = e−8 ' 0.00033546
ou, ∼ 0.03%
16 / 24
distribuições de probabilidades
a versátil distribuição beta
função beta (0 < x < 1; a, b > 0):
Beta(x; a, b) =Γ(a + b)
Γ(a)Γ(b)xa−1(1− x)b−1
propriedades:
E(x) = a/(a + b)
var(x) = ab/[(a + b)2(a + b + 1)]
moda(x) = (a− 1)/(a + b− 2)
17 / 24
distribuições de probabilidades
distribuição de Cauchy
distribuição de Cauchy ou lorentziana:
P(x|µ, γ) =γ
π[γ2 + (x− µ)2]
parâmetro de localização: µparâmetro de escala γ
como P(x) ∝ 1/x2 para x >> 1, amédia, variância e desvio padrão nãoexistem (“caudas pesadas”)
dada uma amostra {xi} comdistribuição de Cauchy, µ e γ devemser estimados com métodos robustos
µ pode ser estimado pela mediana eγ pelo intervalo entre quartis:2γ = q75 − q25
se x e y são duas variáveis gaussianasindependentes amostradas de N(0, 1),então z = x/y distribui-se comoCauchy com µ = 0 e γ = 1
18 / 24
distribuições de probabilidades
distribuição do χ2
dados: {xi}, i = 1,n:amostrados com N(µ, σ)sejam
zi =xi − µσ
e
Q =
n∑i=1
z2i
Q segue uma distribuição de χ2 comk = n graus de liberdade:
P(Q|k) = χ2(Q|k) =1
2k/2Γ(k/2)Q
k2−1e−
Q2
onde Q > 0 e Γ(x) é a função Γ
Γ(z) =∫∞
0 xz−1e−xdxΓ(n) = (n− 1)! para n inteiro
χ2(Q, k) depende de Q mas nãodiretamente de µ e σ
19 / 24
distribuições de probabilidades
distribuição do χ2
χ2 por grau de liberdade:
χ2dof = χ2(Q/k|k)
estatísticas de χ2dof :
média: 1mediana: ∼ (1− 2
9k )3
desvio padrão:√
2/kskewnewss:
√8/k
curtosis: 12/k
20 / 24
distribuições de probabilidades
distribuição t de Student
dados: {xi}, i = 1,n:amostrados com N(µ, σ)
a variável
t =x̄− µσs/√
N
se distribui com uma pdf t comk = n− 1 graus de liberdadenote que t é baseado nas estimativas x̄e σs, enquanto que o χ2 é baseado nosvalores verdadeiros µ e σa distribuição t aparece nacomparação da média de duasamostras
21 / 24
distribuições de probabilidades
distribuição em lei de potência
muito comum em Astronomia:
exemplos: contagens de galáxias,função de massa inicial de Salpeter
também muito comum em outrasáreas: flutuações no mercadoeconômico, taxa de crescimento deempresas, distribuição de salários, etc
N(> L): número de objetos ou eventoscom uma dada propriedade medida(e.g. a luminosidade) maior do que umcerto valor L
se a distribuição for uma lei depotência com expoente γ, temos:
N(> L) = KLγ+1 (forma integral)
ou
dN = (γ+1)KLγdL (forma diferencial)
essa é uma distribuição independentede escala, pois se f (x) = xγ , entãof (ax) = aγxγ = cte xγ = cte f (x), que éa definição de independência deescala
22 / 24
distribuições de probabilidades
distribuição em lei de potência
média e variância infinitas, a menosque limites sejam determinados: isso éo que ocorre na maioria dos casosconcretos, pois sempre existemlimitações físicas em ambos os ‘lados’da distribuição
exemplo: a função de massa inicial deSalpeter (1955)
ξ(M) = ξ0M−2.35
ξ(M)dM: número de estrelas nascidascom massas entre M e M + dM
23 / 24
distribuições de probabilidades
exercícios
1 Jogue um dado honesto uma vez; quais são o valor médio e a variância esperados?2 Se 60% das estrelas são binárias, qual é a probabilidade de que uma amostra
aleatória de 5 estrelas contenha a) 0, b) 1, c) 2, d) 3, e) 4 e f) 5 binárias?3 Em um levantamento de quasares cobrindo 1000 graus quadrados no céu
encontrou-se 23400 quasares. Se a distribuição projetada destes objetos formodelada como uma distribuição de Poisson, qual é a probabilidade de se observarmenos que 5 objetos em uma certa área de 1 grau quadrado?
4 Sejam 0.5, 0.4 e 0.3 respectivamente as probabailidades de três estrelas explodiremcomo supernovas depois de um certo tempo t. Calcule a probabilidade de que em t:
1 nenhuma explodiu2 todas explodiram3 somente 1 não explodiu4 pelo menos 1 não explodiu
24 / 24