aga 0505 - análise de dados em astronomia i 1. introduçãolaerte/aga0505_19/aula1.pdf ·...

22
AGA 0505 - Análise de Dados em Astronomia I 1. Introdução Laerte Sodré Jr. 1o. semestre, 2019 1 / 22

Upload: others

Post on 08-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

1. Introdução

AGA 0505 - Análise de Dados em Astronomia I

1. Introdução

Laerte Sodré Jr.

1o. semestre, 2019

1 / 22

Page 2: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

introdução

aula de hoje:

Introdução1 objetivo2 o que é ciência3 dados4 o que é estatística?5 probabilidades6 análise de dados exploratória

There are three kinds of lies: lies, damned lies, and statistics.

Mark Twain, citando Disraeli

2 / 22

Page 3: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

introdução

objetivo

vivemos na época do Big DataBig Data: volume, informação, sujeiradados contêm informaçãodesafio: extrair a informação degrandes bases de dadospara isso: descrição dos dados,modelagem dos dados,...mas porquê se preocupar com dados?

3 / 22

Page 4: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

introdução

o que é ciência?

???????

interpretação da natureza através daanálise de observações/experimentos

na Física/Astronomia: usando alinguagem da matemática

interpretação da natureza: via testesde modelos e hipóteses, através daanálise de observações/experimentos

observações/experimentos: os dados

4 / 22

Page 5: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

introdução

o que é ciência?

observações/experimentos: os dados

os dados são centrais em ciência:as conclusões devem ser baseadasem fatos e/ou evidências

os dados têm uma naturezaestatística, devido a incertezas devárias naturezas:nas medidas, nos modelos, nasamostras...

a análise de dados deve serestatística!

o teorema de Bayes oferece umprocedimento lógico para a condução da

análise estatística

5 / 22

Page 6: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

dados

tipos de dados

dados: representação (quantitativa?)da natureza

os dados podem ser de tiposdiferentes:

números inteiros (1,3, 7, -10)números reais ou decimais (pi, e, 4.1)números complexos (1+2i)lógicos (TRUE, FALSE)texto ou character (’CEP1273’,

’NGC 4151’, ’3’)

os dados podem ser de naturezadiferente:

escalares, vetores, matrizes, listasimagens, espectros, cubos de dados,séries temporais, ...

6 / 22

Page 7: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

dados

dados em astronomia

astronomia:ciência observacional e nãoexperimental: em várias circunstânciaso número de objetos de uma dadaamostra é limitado:temos um céu! um universo!

eventos raros/únicos: não repetitíveisnem sempre é possível repetir umaobservação, “rolar um dado” maisvezes

7 / 22

Page 8: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

dados

o que é estatística?

dois significados bem diferentes:estatística como inferência: conjuntode métodos para análise de dados-procura-se tirar alguma conclusão apartir dos dados

estatística descritiva: descrição deum conjunto de dados usandoestatísticas- um ou alguns númerosque resumem certas propriedades dosdadosexemplos: a média de um conjunto demedidas, a FWHM da imagem de umobjeto, a razão sinal-ruído de um sinal

(ciência de dados- mais queestatísticas: visualização,compressão...)

8 / 22

Page 9: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

dados

estatísticas

estatísticas: números que resumem certaspropriedades dos dados

exemplos: média, variância, ...

é uma propriedade apenas dos dados!

quando calculamos a média ou outraestatística de um conjunto de dadosesperamos que isso tenha algumarelação com a média ou outraestatística da distribuição subjacente apartir da qual os dados foram tomados

em geral, quanto mais dados,melhores as estimativasuma boa estatística deve ser robusta,isto é, resistente à presença de dadosespúrios (intrusos ou outliers) nascaudas das distribuiçõesestatísticas podem ser justas(unbiased) ou viesadas (biased):

exemplo: comparação do valor médiodos dados, x̄ com o valor médio µ deuma distribuição ajustada aos dados:a diferença x̄− µ é denominada viés

9 / 22

Page 10: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

probabilidades

probabilidades e estatística

inferência estatística:há uma disputa dentro da Estatística,tendo como base a natureza dasprobabilidades:bayesianos x frequentistasos métodos bayesianos propõem umenfoque lógico para a análise dedados baseado no teorema de Bayesos métodos frequentistas foramlargamente dominantes durante todo oséculo XX

muitos procedimentos frequentistassão muito usados (ex.: estimativa deparâmetros via máximaverossimilhança)

natureza das probabilidades:frequentista: medida da frequência deeventos (em vários experimentos ouensemble de sistemasestatisticamente equivalentes)bayesiana: medida da plausibilidadede uma proposição

10 / 22

Page 11: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

probabilidades

função de distribuição de probabilidades

P(x) pode ser uma função discreta oucontínua

se x é uma variável contínua P(x) éuma função de densidade deprobabilidades:P(x)dx: número entre 0 e 1 que medeo grau de plausibilidade ou frequênciade que x esteja entre x e x + dx

se x é uma variável discreta, P(x) éuma função de massa deprobabilidades:

função de distribuição cumulativa:

F(x) =

∫ x

−∞P(x′)dx′

11 / 22

Page 12: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

probabilidades

dados e probabilidades

algumas definições:população: qualquer coleção deobjetos ou indivíduos que se queranalisaramostra: um grupo extraído dapopulaçãoparâmetro: um número que descrevealguma propriedade da população(ex.: periodicidade do ciclo solar)

dados em estatística:

vamos considerar N medidas de umavariável x: D = {xi}, i = 1...N

D é considerada umarealização/amostragem de umavariável aleatória x, descrita por umafunção de distribuição/massa deprobabilidades P(x)

P(xi): função de distribuição/massa deprobabilidades dos dados, da amostra

12 / 22

Page 13: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

estatística descritiva

objetivo: determinar propriedades dafunção de distribuição/massa deprobabilidades da população ou daamostrase P(x) se refere a uma distribuição:estatísticas da populaçãose P(x) se refere a dados: estatísticasda amostra

em geral se considera estatísticas de

posição: média, mediana, moda,percentis

largura: variância, desvio padrão,desvio absoluto

forma: skewness (distorção), kurtosis

13 / 22

Page 14: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

valores esperados

conexão entre estatísticas e P(x)

o valor esperado de uma certa função Q(x) com respeito a uma distribuição deprobabilidades P(x) é

E[Q] =

∫ ∞−∞

Q(x)P(x)dx E[Q] =1N

N∑i

Qi

o valor esperado permite determinar propriedades de Q e estatísticas para adistribuição de probabilidades P(x):

média: µ =∫∞−∞ xP(x)dx

mediana:∫ xmed

−∞ P(x)dx = 1/2 =∫∞

xmedP(x)dx

desvio quadrático médio (= variância): σ2 =∫∞−∞(x− µ)2P(x)dx

14 / 22

Page 15: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

quantis, quartis e percentis

quantil qp correspondente ao percentilp (em percentagem):

p100

=

∫ qp

−∞P(x)dx

qp pode ser determinado da funçãoinversa da distribuição cumulativa

os quantis são normalmente usadospara dividir uma distribuição emintervalos de mesma probabilidade

mediana: q50

exemplo: quartis- dividem adistribuição em 4 intervalos quecontêm de 0 a 25% da probabilidade,de 25% a 50%, de 50% a 75% e de75% a 100%para distribuições contínuasdeterminam-se os quantiscorrespondentes a 0.25, 0.50(mediana) e 0.75para distribuições discretasordenam-se os dados e identificam-seos pontos que contêm 25% dos dados,50% dos dados (mediana) e 75% dosdados

15 / 22

Page 16: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

estatísticas que medem posição

a média de uma população

µ = E(x) =

∫ ∞−∞

xP(x)dx

ou de um conjunto de medidas

x̄ =1N

N∑i=1

xi

a mediana de uma população∫ xmed

−∞P(x)dx = 1/2 =

∫ ∞xmed

P(x)dx

ou de um conjunto de medidas:ordene xi do valor menor para o maiore os renumere; então

x̄med =

{xj j = N/2 + 0.5, para N ímpar(xj + xj+1)/2 j = N/2, para N par

a mediana é considerada umaestatística mais robusta que a média

16 / 22

Page 17: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

estatísticas que medem posição

a modaxmoda é o valor mais provável de P(x)

dP(x)

dx

∣∣∣∣∣xmoda

= 0

ou, no caso de um conjunto demedidas, é o valor de xi que ocorremais frequentemente;é a posição do pico do histograma dexi

17 / 22

Page 18: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

estatísticas que medem espalhamento

a variância (desvio quadrático médio)de uma população

V =

∫(x− µ)2P(x)dx

ou de um conjunto de medidas (s desample, amostra):

V2s =

1N − 1

N∑i=1

(xi − x̄)2

(N − 1) e não N porque x̄ também é determinado dos dados

o desvio padrão (root mean squaredeviation):

σ =√

V

ou

σs =√

Vs

o desvio absoluto médio em relaçãoa d (d: média ou mediana,(d̄: idempara os dados)

δ =

∫|x− d|P(x)dx

ou

δs =1N

N∑i=1

|xi − d̄|

18 / 22

Page 19: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

estatísticas que medem forma

a skewness (assimetria) de umapopulação

Σ =

∫ (x− µσ

)3

P(x)dx

ou de um conjunto de medidas:

Σs =1N

N∑i=1

(xi − x̄σs

)3

a kurtosis (curtose):

K =

∫ (x− µσ

)4

P(x)dx− 3

ou

Ks =1N

N∑i=1

(xi − x̄σs

)4

− 3

o fator -3 faz a curtose igual a zeropara uma distribuição normal

19 / 22

Page 20: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

estatísticas que medem forma

20 / 22

Page 21: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

incertezas nas estimativas

µ e σ são estimados como x̄ e σs

para N grande a incerteza em x̄ é odesvio padrão da média:

σx̄ =σs√N

e a incerteza em σs é:

σσs =σs√

2(N − 1)=

1√2

√N

N − 1σx̄

a incerteza de σσs é ∼ 40% (√

2)maiorque a de σx̄

algumas vezes se obtém estimativasda largura da distribuição com adistância intraquartil (normalizada parauma gaussiana):

σG = 0.7413(q75 − q25)

21 / 22

Page 22: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_19/aula1.pdf · introdução aula de hoje: Introdução 1 objetivo 2 o que é ciência 3 dados 4 o que é

estatística descritiva

Exercício

Exercício 1: estatística descritiva e análise de variância do arquivo LMC_distance.datFaça uma análise separada e conjuntamente dos indicadores de distância usando Pop. Ie Pop. II. Inicialmente coloque os dados na forma de tabela para análise.

1 calcule estatísticas descritivas em cada caso;2 faça uma análise de variância dos dados;3 compare os desvios padrão com a dispersão σG obtida da distância intraquartil;4 ilustre as análises com figuras relevantes.

22 / 22