aga 0505 - análise de dados em astronomia i 1. introduçãolaerte/aga0505_20/aula1.pdf ·...

24
AGA 0505 - Análise de Dados em Astronomia I 1. Introdução Laerte Sodré Jr. 1o. semestre, 2020 1 / 24

Upload: others

Post on 08-Aug-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

1. Introdução

AGA 0505 - Análise de Dados em Astronomia I

1. Introdução

Laerte Sodré Jr.

1o. semestre, 2020

1 / 24

Page 2: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

aula de hoje:

• Introdução

1. objetivo

2. o que é ciência

3. dados

4. o que é estatística?

5. probabilidades

6. análise de dados exploratória “Data!data!data!", he cried impatiently. "I can’t make bricks without clay.”

Arthur Conan Doyle, The Adventure of the Copper Beeches

2 / 24

Page 3: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

objetivo

• vivemos na época do Big Data• Big Data: volume, informação, sujeira• dados contêm informação• desafio: extrair a informação de grandes

bases de dados• para isso: descrição dos dados,

modelagem dos dados,...• mas porquê se preocupar com dados?

3 / 24

Page 4: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

o que é ciência?

• ?

• interpretação da natureza através daanálise de observações/experimentos

na Física/Astronomia: usando alinguagem da matemática

• interpretação da natureza:via testes de modelos e hipóteses,através da análise deobservações/experimentos

• observações/experimentos: os dados4 / 24

Page 5: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

o que é ciência?

• os dados são centrais em ciência:as conclusões devem ser baseadas emfatos e/ou evidências

• os dados têm uma natureza estatística,devido a incertezas de várias naturezas:nas medidas, nos modelos, nasamostras...

• a análise de dados deve ser estatística! o teorema de Bayes oferece umprocedimento lógico para a condução da

análise estatística

5 / 24

Page 6: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

ciência: traduzir dados em conhecimento

6 / 24

Page 7: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

tipos de dados

• dados: representação (quantitativa?) danatureza

• os dados podem ser de tipos diferentes:• números reais ou decimais (pi, e, 4.1)• números complexos (1+2i)• lógicos (TRUE, FALSE)

• discretos ou categóricos (’CEP1273’, ’NGC 4151’, ’3’)

• os dados podem ser de naturezadiferente:• escalares, vetores, matrizes, tensores,

listas• tabelas, imagens, espectros, cubos de

dados, séries temporais, ...

7 / 24

Page 8: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

dados em astronomia

astronomia:• ciência observacional e não

experimental: muitas vezes o número deobjetos de uma dada amostra é limitado:temos um céu! um universo!

• eventos raros/únicos:eventos não repetitíveisnem sempre é possível repetir umaobservação

8 / 24

Page 9: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

o que é estatística?

dois significados bem diferentes:• estatística como inferência: conjunto

de métodos para análise de dados-procura-se tirar alguma conclusão apartir dos dados

• estatística descritiva:descrição de um conjunto de dadosusando estatísticas

• estatísticas: um ou alguns números queresumem certas propriedades dos dados

exemplos:• a média de um conjunto de medidas,• o desvio padrão de um conjunto de

medidas,• a FWHM da imagem de um objeto,• a razão sinal-ruído de um sinal

9 / 24

Page 10: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

estatísticas

estatísticas: números que resumem certaspropriedades dos dados

• exemplos: média, variância, ...

• é uma propriedade apenas dos dados!

• esperamos que os dados possam serdescritos como uma certa distribuiçãoestatística e que as “estatísticas”representem propriedades destadistribuição

• em geral, quanto mais dados, melhoresas estimativas• uma boa estatística deve ser robusta,

isto é, resistente à presença de dadosespúrios (intrusos ou outliers) nascaudas das distribuições• estatísticas podem ser justas (unbiased)

ou viesadas (biased):• exemplo: a diferença entre valores

medidos e calculados é denominadaviés

10 / 24

Page 11: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

probabilidades e estatística

inferência estatística:

• há uma disputa dentro da Estatística, tendocomo base a natureza das probabilidades:bayesianos x frequentistas

• os métodos bayesianos propõem umenfoque lógico para a análise de dadosbaseado no teorema de Bayes

• os métodos frequentistas foram largamentedominantes durante todo o século XX

• muitos procedimentos frequentistas sãomuito usados (ex.:método da máximaverossimilhança)

inferência de parâmetros:

• procedimento frequentista: “melhor valor dosparâmetros” + barras de erro

• procedimento bayesiano: distribuição deprobabilidade dos parâmetros

natureza das probabilidades:

• frequentista: medida da frequência deeventos (em vários experimentos ouensemble de sistemas estatisticamenteequivalentes)

• bayesiana: medida da plausibilidade de umaproposição

11 / 24

Page 12: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

função de distribuição de probabilidades

• P(x) pode ser uma função discreta oucontínua

• se x é uma variável contínua P(x) é umafunção de densidade de probabilidades:P(x)dx: número entre 0 e 1 que mede ograu de plausibilidade ou frequência deque x esteja entre x e x + dx

• se x é uma variável discreta, P(x) é umafunção de massa de probabilidades

• função de distribuição cumulativa:

F(x) =

∫ x

−∞P(x′)dx′

12 / 24

Page 13: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

dados e probabilidades

algumas definições:• população: qualquer coleção de objetos

ou indivíduos que se quer analisar• amostra: um grupo extraído da

população• parâmetro: um número que descreve

alguma propriedade da população(ex.: periodicidade do ciclo solar)

dados em estatística:

• vamos considerar N medidas de umavariável x: D = {xi}, i = 1...N

• D é considerada umarealização/amostragem de uma variávelaleatória x, descrita por uma função dedistribuição/massa de probabilidadesP(x)

• P(xi): função de distribuição/massa deprobabilidades dos dados, da amostra

13 / 24

Page 14: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

estatística descritiva

• objetivo: determinar propriedades dafunção de distribuição/massa deprobabilidades da população ou daamostra• se P(x) se refere a uma distribuição:

estatísticas da população• se P(x) se refere a dados: estatísticas da

amostra

• em geral se considera estatísticas de

• posição: média, mediana, moda,percentis

• largura: variância, desvio padrão,desvio absoluto

• forma: skewness (assimetria), kurtosis(curtose)

14 / 24

Page 15: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

valores esperados

• conexão entre estatísticas e P(x)• o valor esperado de uma certa função Q(x) com respeito a uma distribuição de

probabilidades P(x) é

E[Q] =

∫ ∞−∞

Q(x)P(x)dx E[Q] =1N

N∑i

Qi

• o valor esperado permite determinar propriedades de Q e estatísticas para a distribuiçãode probabilidades P(x):• média: µ =

∫∞−∞ xP(x)dx

• mediana:∫ xmed

−∞ P(x)dx = 1/2 =∫∞

xmedP(x)dx

• desvio quadrático médio (= variância): σ2 =∫∞−∞(x− µ)2P(x)dx

15 / 24

Page 16: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

quantis, quartis e percentis

• quantil qp correspondente ao percentil p(em percentagem):

p100

=

∫ qp

−∞P(x)dx

qp pode ser determinado da funçãoinversa da distribuição cumulativa

• os quantis são normalmente usadospara dividir uma distribuição emintervalos de mesma probabilidade

• mediana: q50

• exemplo: quartis- dividem a distribuiçãoem 4 intervalos que contêm de 0 a 25%da probabilidade, de 25% a 50%, de50% a 75% e de 75% a 100%• para distribuições contínuas

determinam-se os quantiscorrespondentes a 0.25, 0.50 (mediana)e 0.75• para distribuições discretas ordenam-se

os dados e identificam-se os pontos quecontêm 25% dos dados, 50% dos dados(mediana) e 75% dos dados

16 / 24

Page 17: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

estatísticas que medem posição

• a média de uma população

µ = E(x) =

∫ ∞−∞

xP(x)dx

ou de um conjunto de medidas

x̄ =1N

N∑i=1

xi

• a mediana de uma população∫ xmed

−∞P(x)dx = 1/2 =

∫ ∞xmed

P(x)dx

ou de um conjunto de medidas: ordenexi do valor menor para o maior e osrenumere; então

x̄med =

{xj j = N/2 + 0.5, para N ímpar(xj + xj+1)/2 j = N/2, para N par

a mediana é considerada umaestatística mais robusta que a média

17 / 24

Page 18: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

estatísticas que medem posição

• a modaxmoda é o valor mais provável de P(x)

dP(x)

dx

∣∣∣∣∣xmoda

= 0

ou, no caso de um conjunto de medidas,é o valor de xi que ocorre maisfrequentemente;é a posição do pico do histograma de xi

18 / 24

Page 19: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

estatísticas que medem espalhamento

• a variância (desvio quadrático médio)de uma população

V =

∫(x− µ)2P(x)dx

ou de um conjunto de medidas (s desample, amostra):

V2s =

1N − 1

N∑i=1

(xi − x̄)2

(N − 1) e não N porque x̄ também é determinado dos dados

• o desvio padrão (root mean squaredeviation):

σ =√

V

ouσs =

√Vs

19 / 24

Page 20: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

estatísticas que medem espalhamento

• o desvio absoluto médio em relação ad (d̄: média ou mediana de distribuiçõesou dados)

δ =

∫|x− d̄|P(x)dx

ou

δs =1N

N∑i=1

|xi − d̄|

• algumas vezes se obtém estimativas dalargura da distribuição com a distânciaintraquartil (normalizada para umagaussiana):

σG = 0.7413(q75 − q25)

20 / 24

Page 21: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

estatísticas que medem forma

• a skewness (assimetria) de umapopulação

Σ =

∫ (x− µσ

)3

P(x)dx

ou de um conjunto de medidas:

Σs =1N

N∑i=1

(xi − x̄σs

)3

• a kurtosis (curtose):

K =

∫ (x− µσ

)4

P(x)dx− 3

ou

Ks =1N

N∑i=1

(xi − x̄σs

)4

− 3

o fator -3 faz a curtose igual a zero parauma distribuição normal

21 / 24

Page 22: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

estatísticas que medem forma

22 / 24

Page 23: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

Exercício

Exercício 1: estatística descritiva e análise de variância do arquivo LMC_distance.dat(ver https://astrostatistics.psu.edu/datasets/)Faça uma análise separada e conjuntamente dos módulos de distância usando indicadoresbaseados em Pop. I e Pop. II. Inicialmente coloque os dados na forma de tabela para análise.

1. calcule estatísticas descritivas em cada caso;2. compare as medias e medianas em cada caso;3. compare os desvios padrão com a dispersão σG obtida da distância intraquartil;4. ilustre a análise com histogramas dos módulos de distância das duas populações.

23 / 24

Page 24: AGA 0505 - Análise de Dados em Astronomia I 1. Introduçãolaerte/aga0505_20/aula1.pdf · introdução dados estatísticas probabilidades estatística descritiva aula de hoje: Introdução

introdução dados estatísticas probabilidades estatística descritiva

Exercício

Distance to the Large Magellanic Cloud: The RR Lyrae StarsGisella Clementini, Raffaele Gratton, Angela Bragaglia, Eugenio Carretta, Luca Di Fabrizio, and Marcella MaioAstronomical Journal 125, 1309-1329 (2003)

Population I Distance Indicators Method DM +/- Reference Cepheids: trig. paral. 18.70 0.16 Feast & Catchpole 1997Cepheids: MS fitting 18.55 0.06 Laney & Stobie 1994Cepheids: B-W 18.55 0.10 Gieren et al. 1998, Di Benedetto 1997Cepheids: P/L relation 18.575 0.2 Groenewegen 2000Eclipsing binaries 18.4 0.1 Ribas et al. 2002Clump 18.42 0.07 This paper; see \S 6.2Clump 18.45 0.07 This paper; see \S 6.2Clump 18.59 0.09 Romaniello et al. 2000Clump 18.471 0.12 Pietrzynsky \& Gieren 2002Clump 18.54 0.10 Sarajedini et al. 2002Miras 18.54 0.18 Van Leeuwen 1997Miras 18.64 0.14 Feast 2000SN 1987a 18.58 0.05 Panagia 1998

Population II Distance Indicators GCs: MSF 18.45 0.09 Gratton et al. 2002 and this paperGCs: dyn. mod. 18.45 0.13 Carretta et al. 2000b and this paperHB: trig. paral. 18.44 0.13 Carretta et al. 2000b and this paperRR Lyr: stat. paral. 18.30 0.14 This paper; see \S 7RR Lyr: BW 18.38 0.16 This paper; see \S 7RR Lyr: BW revised 18.50 0.16 Cacciari et al. 2000 and this paperLMC RRd's 18.55 0.19 A97 and A00LMC RRd's 18.52 0.18 Kovacs 2000 and this paperWD cool. seq. 18.40 0.15 Gratton et al. 2002 and this paperRRLyr: trig. par 18.45 0.16 Benedict et al. 2002 and this paperTRGB 18.55 0.09 Cioni et al. 2000TRGB 18.69 0.26 Romaniello et al. 2000.

http://astrostatistics.psu.edu/datasets/LMC_dist...

1 of 1 1/4/19, 10:59 AM

24 / 24