josé vianney mendonça de alencastro junior§ão... · orientador: silvio de barros melo recife...

86
José Vianney Mendonça de Alencastro Junior CONFORMIDADE À LEI DE NEWCOMB-BENFORD DE GRANDEZAS ASTRONÔMICAS SEGUNDO A MEDIDA DE KOLMOGOROV-SMIRNOV Dissertação de Mestrado Universidade Federal de Pernambuco [email protected] www.cin.ufpe.br/~posgraduacao RECIFE 2016

Upload: others

Post on 22-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

José Vianney Mendonça de Alencastro Junior

CONFORMIDADE À LEI DE NEWCOMB-BENFORD DE

GRANDEZAS ASTRONÔMICAS SEGUNDO A MEDIDA DE

KOLMOGOROV-SMIRNOV

Dissertação de Mestrado

Universidade Federal de [email protected]

www.cin.ufpe.br/~posgraduacao

RECIFE2016

Page 2: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

José Vianney Mendonça de Alencastro Junior

CONFORMIDADE À LEI DE NEWCOMB-BENFORD DEGRANDEZAS ASTRONÔMICAS SEGUNDO A MEDIDA DE

KOLMOGOROV-SMIRNOV

Trabalho apresentado ao Programa de Pós-graduação em

Ciência da Computação do Centro de Informática da Univer-

sidade Federal de Pernambuco como requisito parcial para

obtenção do grau de Mestre em Ciência da Computação.

Orientador: Silvio de Barros Melo

RECIFE2016

Page 3: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

A368c Alencastro Júnior, José Vianney Mendonça de

Conformidade à lei de Newcomb-Benford de grandezas astronômicas segundo a medida de Kolnogorov-Smirnov / José Vianney Mendonça de Alencastro Júnior. – 2016.

85 f.: il., fig., tab. Orientador: Silvio de Barros Melo. Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn,

Ciência da Computação, Recife, 2016. Inclui referências.

1. Ciência da computação. 2. Medidas de conformidade. I. Melo, Silvio de Barros (orientador). II. Título. 004 CDD (23. ed.) UFPE- MEI 2016-138

Page 4: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

José Vianney Mendonça de Alencastro Junior

Conformidade à Lei de Newcomb-Benford de Grandezas Astronômicas Segundo a Medida de Kolmogorov-Smirnov

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação

Aprovado em: 09/09/2016.

BANCA EXAMINADORA

__________________________________________ Prof. Dr. Silvio de Barros Melo Centro de Informática / UFPE

(Orientador)

__________________________________________ Prof. Dr. Wilton Bernardino da Silva

Departamento de Ciências Contábeis e Atuariais / UFPE

__________________________________________ Prof. Dr. Emerson Alexandre de Oliveira Lima

Escola Politécnica de Pernambuco / UPE

Page 5: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Eu dedico esse meu humilde trabalho aos meus pais, à

minha família e a todos os que contribuíram direta ou

indiretamente para me fazer o ser humano que hoje eu sou.

Page 6: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Agradecimentos

Agradeço antes de tudo a minha vida, por ter colocado todos os obstáculos necessáriosao meu crescimento como ser humano. Agradeço a meus pais por sempre estarem ao meu ladonos momentos mais difíceis e por me passar valores, os quais irei carregar durante toda minhaexistência. Agradeço à minha família por sempre acreditar em mim, aos meus amigos pelo apoioe carinho. Agradeço a todos meus mestres e professores, pela sabedoria compartilhada. Agradeçoao meu orientador professor Sílvio de Barros Melo por ter me acolhido. Agradeço a DouglasAugusto de Barros pela grande ajuda na área de ciências astronômicas e na busca por dados.Agradeço aos amigos da Sociedade Astronômica do Recife pelo apoio e ao Fábio Magalhãesde Novaes Santos por sua ajuda com artigos na área de astronomia. E por fim agradeço a todosque contribuíram de forma direta ou indireta por mais essa conquista e por me ajudarem a ser apessoa que sou hoje e a que serei amanhã. A todos vocês eu deixo o meu muito obrigado!

Page 7: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

O que sabemos é uma gota, o que ignoramos é um oceano.

—ISAAC NEWTON

Page 8: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Resumo

A lei de Newcomb-Benford, também conhecida como a lei do dígito mais significativo,foi descrita pela primeira vez por Simon Newcomb, sendo apenas embasada estatisticamenteapós 57 anos pelo físico Frank Benford. Essa lei rege grandezas naturalmente aleatórias e temsido utilizada por várias áreas como forma de selecionar e validar diversos tipos de dados. Emnosso trabalho tivemos como primeiro objetivo propor o uso de um método substituto ao qui-quadrado, sendo este atualmente o método comumente utilizado pela literatura para verificaçãoda conformidade da Lei de Newcomb-Benford. Fizemos isso pois em uma massa de dadoscom uma grande quantidade de amostras o método qui-quadrado tende a sofrer de um problemaestatístico conhecido por excesso de poder, gerando assim resultados do tipo falso negativona estatística. Dessa forma propomos a substituição do método qui-quadrado pelo método deKolmogorov-Smirnov baseado na Função de Distribuição Empírica para análise da conformidadeglobal, pois esse método é mais robusto não sofrendo do excesso de poder e também é maisfiel à definição formal da Lei de Benford, já que o mesmo trabalha considerando as mantissasao invés de apenas considerar dígitos isolados. Também propomos investigar um intervalo deconfiança para o Kolmogorov-Smirnov baseando-nos em um qui-quadrado que não sofre deexcesso de poder por se utilizar o Bootstraping. Em dois artigos publicados recentemente, dadosde exoplanetas foram analisados e algumas grandezas foram declaradas como conformes à Lei deBenford. Com base nisso eles sugerem que o conhecimento dessa conformidade possa ser usadopara uma análise na lista de objetos candidatos, o que poderá ajudar no futuro na identificaçãode novos exoplanetas nesta lista. Sendo assim, um outro objetivo de nosso trabalho foi explorardiversos bancos e catálogos de dados astronômicos em busca de grandezas, cuja a conformidadeà lei do dígito significativo ainda não seja conhecida a fim de propor aplicações práticas para aárea das ciências astronômicas.

Palavras-chave: Lei de Newcomb Benford. Kolmogorov-Smirnov. Função de DistribuiçãoEmpírica. Medidas de conformidade. dados astronômicos. exoplanetas. crateras de impacto.crateras. aglomerados abertos. galáxias. aglomerados globulares.

Page 9: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Abstract

The Newcomb-Benford law, also known as the most significant digit law, was describedfor the first time by astronomer and mathematician Simon Newcomb. This law was just statis-tically grounded after 57 years after the Newcomb’s discovery. This law governing naturallyrandom greatness and, has been used by many knowledge areas to validate several kind of data.In this work, the first goal is propose a substitute of qui-square method. The qui-square methodis the currently method used in the literature to verify the Newcomb-Benford Law’s conformity.It’s necessary because in a greatness with a big quantity of samples, the qui-square methodcan has false negatives results. This problem is named Excess of Power. Because that, weproposed to use the Kolmogorov-Smirnov method based in Empirical Distribution Function(EDF) to global conformity analysis. Because this method is more robust and not suffering of theExcess of Power problem. The Kolmogorov-Smirnov method also more faithful to the formaldefinition of Benford’s Law since the method working considering the mantissas instead of singledigits. We also propose to invetigate a confidence interval for the Kolmogorov-Smirnov methodbased on a qui-square with Bootstrapping strategy which doesn’t suffer of Excess of Powerproblem. Recently, two papers were published. I this papaers exoplanets data were analysed andsome greatness were declared conform to a Newcomb-Benford distribution. Because that, theauthors suggest that knowledge of this conformity can be used for help in future to indentifynew exoplanets in the candidates list. Therefore, another goal of this work is explorer a severalastronomicals catalogs and database looking for greatness which conformity of Benford’s lawis not known yet. And after that , the authors suggested practical aplications for astronomicalsciences area.

Keywords: Newcomb-Benford Law. Kolmogorov-Smirnov. Empirical Distribution Function.conformity measures. astronomical data. exoplanet. impact crater. open cluster. galaxy. globularcluster.

Page 10: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Lista de Figuras

2.1 Gráfico Distribuição dos Primeiros Dígitos segundo a Lei de Newcomb-Benford 20

Page 11: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Lista de Tabelas

2.1 Exemplos de frequências de cada dígito de grandezas obtidas dos mais diversostipos de dados no trabalho de Benford (BENFORD, 1938) . . . . . . . . . . . 23

3.1 Valores críticos do qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . . . 373.2 P-Valores dos testes Kolmogorov-Smirnov (K-S) e qui-quadrado (χ2) (q-q) de

Pearson de grandezas conformes . . . . . . . . . . . . . . . . . . . . . . . . . 413.3 P-Valores dos testes K-S e Bootstrap de grandezas conformes . . . . . . . . . 423.4 P-Valores dos testes K-S e q-q de Pearson de grandezas não conformes . . . . 443.5 P-Valores dos testes K-S e Bootstrap de grandezas não conformes . . . . . . . 45

4.1 Grandezas conformes - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continua). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.1 Grandezas conformes - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.1 Grandezas conformes - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.1 Grandezas conformes - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2 Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continua) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2 Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2 Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2 Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continua). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Page 12: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.3 Grandezas não conformes - Testes K-S e q-q de Pearson de grandezas Astronô-micas (Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continua) . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 64

4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 65

4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 66

4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 67

4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 68

4.4 Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap de gran-dezas Astronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . 69

4.5 Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continua). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.5 Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.5 Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.5 Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezas Astronômicas(Continuação). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.6 Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continua) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.6 Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.6 Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap de grandezasAstronômicas (Continuação) . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Page 13: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Lista de Acrônimos

M.A.D Mean Absolute Deviaton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

DCT Transformada Discreta de Cosseno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

DWT Transformada Discreta de Wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

ORF fases abertas a leitura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

q-q qui-quadrado (χ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

K-S Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

FDA Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

FDE Função de Distribuição Empírica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Page 14: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Sumário

1 Introdução 151.1 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Referencial Teórico 182.1 Lei de Newcomb-Benford . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.1.1 Conceitos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.1.2 Invariância de Escala e Invariância de Base . . . . . . . . . . . . . . . 21

2.2 Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2.1 Aplicações da Lei de Newcomb-Benford . . . . . . . . . . . . . . . . 25

2.2.1.1 Aplicações da Lei de Newcomb-Benford nas ciências Astronô-micas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.3 Critérios de Conformidade da NB-Lei . . . . . . . . . . . . . . . . . . . . . . 32

3 Conformidade à Lei de Newcomb-Benford pelo método de Kolmogorov-Smirnov 363.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2 Método Adotado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2.1 Qui-quadrado de Pearson (χ2) . . . . . . . . . . . . . . . . . . . . . . 373.2.2 Kolmogorov-Smirnov (K-S) . . . . . . . . . . . . . . . . . . . . . . . 373.2.3 Qui-quadrado com Bootstrapping . . . . . . . . . . . . . . . . . . . . 38

3.3 Análise da Conformidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.3.1 Grandezas cuja a conformidade é conhecida . . . . . . . . . . . . . . . 393.3.2 Grandezas cuja a não conformidade é conhecida . . . . . . . . . . . . 433.3.3 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4 Análise da Lei de Newcomb-Benford em dados Astronômicos 474.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Metodologia adotada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.3 Resultados Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.3.1 Grandezas Conformes . . . . . . . . . . . . . . . . . . . . . . . . . . 494.3.2 Grandezas não Conformes . . . . . . . . . . . . . . . . . . . . . . . . 564.3.3 Conjunto de Fronteira . . . . . . . . . . . . . . . . . . . . . . . . . . 694.3.4 Análise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 744.3.5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5 Conclusão 785.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Page 15: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

Referências 80

Page 16: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

151515

1Introdução

No final do século 19 um fenômeno curioso foi relatado pela primeira vez pelo astrônomoe matemático Charles Newcomb (NEWCOMB, 1881) e décadas depois foi melhor embasadocom evidências empíricas pelo físico Frank Benford (BENFORD, 1938), deste então diversasaplicações têm sido descobertas e muitas vezes causando um certo espanto, este fenômeno éconhecido hoje como a Lei de Newcomb-Benford, ou a lei do dígito significativo. Pouco tempodepois se deu o início de um dos séculos mais prósperos para a humanidade, o século 20. Esseperíodo produtivo, teve início no final do século 19, e avançando pelo século seguinte até os diasde hoje promovendo um crescimento científico jamais conhecido até então.

Nessa fase, dentre várias coisas, descobrimos o elétron, criamos a lâmpada, descobrimoso elemento radio, inventamos o automóvel, descobrimos a existência das galáxias e que o uni-verso está em expansão, aprendemos a voar, criamos os primeiros computadores e sistemas decomunicação globais, desenvolvemos foguetes, fomos ao espaço, pisamos na lua, evoluímos nosmais diversos campos da ciência, estendemos o nosso universo de pesquisas e conhecimentosa outros mundos, a outros planetas e a cada descoberta feita, descobrimos que sabemos muitopouco sobre tudo em nossa volta. A cada dia a quantidade de dados e informações geradas emnossos centros de pesquisa é maior e mais complexa. Por causa disso, nos deparamos com anecessidade de desenvolvermos novas ferramentas para lidar com esses dados que vêm crescendoem volume, velocidade e complexidade.

Seguindo essa tendência, nas duas primeiras décadas do século 21, além da agênciaespacial dos Estados Unidos, a NASA, diversos centros de pesquisas astronômicos no mundotem investido fortemente na pesquisa espacial. A Lei de Newcomb-Benford nesses poucos maisde 100 anos de sua descoberta tem sido utilizada com ferramenta que ajuda a lidar com diversostipos de dados e em diversas áreas porém, embora tenha sido descoberta por um astrônomo, suautilização no campo das pesquisas astronômicas ainda é pouco expressiva.

Nigrini (NIGRINI, 1999) fala sobre problema de excesso de poder que pode ocasionar

Page 17: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

1.1. ESTRUTURA DO DOCUMENTO 16

em resultados do tipo falso negativo na estatística dos testes de conformidade quando se utilizauma massa de dados com um grande número de amostras. Dentre os testes susceptíveis a esseproblema está o qui-quadrado de Pearson que é o mais utilizado na literatura da lei dos dígitossignificativos.

Tendo consciência disso, temos como primeiro objetivo propor uma análise substituta aoteste qui-quadrado de Pearson, tendo em vista que grandezas astronômicas com certa frequênciapossuem uma massa de dados com uma quantidade de amostras suficientemente grande aoponto de poder provocar o excesso de poder. Propomos como alternativa à utilização do testede Kolmogorov-Smirnov, o qual baseado na Função de Distribuição Empírica dos dados, paraanálise da conformidade global, pois esse método é mais robusto não sofrendo do excessode poder e também é mais fiel à definição formal da Lei de Benford, pois o mesmo trabalhaconsiderando as mantissas dos números ao invés de apenas considerar dígitos isolados. Tambémpropomos juntamente com este teste definir um limiar para um intervalo de confiança para oKolmogorov-Smirnov.

Recentemente alguns trabalhos foram publicados envolvendo grandezas astronômicas ea lei de Newcomb-Benford. Dentre eles, destacamos dois artigos que afirmam ter encontradograndezas conformes em dados de exoplanetas obtidos através do telescópio espacial Kepler.Com base nessas descobertas os respectivos autores sugerem que o conhecimento dessa confor-midade possa ser usado para uma análise na lista de objetos candidatos, o que poderá ajudar nofuturo na identificação de novos exoplanetas nesta lista.

Sendo assim, o segundo objetivo de nosso trabalho, foi explorar diversos bancos e ca-tálogos de dados astronômicos em busca de grandezas, cuja a conformidade à lei do dígitosignificativo ainda não seja conhecida. A partir desses resultados propor aplicações práticas parao uso do conhecimento da conformidade dessas grandezas na área de ciências astronômicas.

1.1 Estrutura do Documento

O primeiro capítulo desse trabalho possui informações gerais sobre a área, escopo dotrabalho e expõe os objetivos que desejamos alcançar.

No segundo capítulo fazemos um estudo da fundamentação teórica da lei de Newcomb-Benford. Também fizemos uma vasta revisão de sua literatura, verificando o seu estado da arteaté o tempo atual e englobando também os trabalhos envolvendo grandezas astronômicas. E porultimo, falamos um pouco sobre os critérios de conformidade da lei de Benford.

Page 18: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

1.1. ESTRUTURA DO DOCUMENTO 17

O terceiro capítulo é feito um estudo da aplicação do método de Kolmogorov-Smirnovbaseado na Função de Distribuição Empírica (FDE) para determinação da conformidade globalda Lei de Newcomb-Benford, assim como também foi feita uma análise de limiar para umintervalo de confiança para lei dos dígitos significativos.

No quarto capítulo expomos o resultado da busca de grandezas astronômicas conformesà lei de Newcomb-Benford, coletadas em bases e catálogos astronômicos assim como tambémsugerimos soluções de aplicações para as novas grandezas conformes descobertas. Tambémcomparamos alguns de nossos resultados com algumas grandezas astronômicas que tem a con-formidade já conhecida na literatura para a lei dos dígitos significativos.

O quinto capítulo contempla de forma breve as nossas conclusões sobre os estudos feitosnesse trabalho. Expondo uma visão geral dos resultados obtidos com base nos objetivos definidos.

Page 19: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

181818

2Referencial Teórico

Nesta seção iremos falar sobre os conceitos e propriedades da Lei de Newcomb-Benford.Também abordaremos as propriedades de invariância de base e escala e critérios de conformidade.Em seguida iremos expor o seu estado da arte de início mostrando toda pesquisa feita de formamais geral e em seguida mostrando no estado da arte as aplicações da lei de Newcomb-Benfordpara as mais diversas áreas, incluindo nas imagens digitais e nas ciências astronômicas.

2.1 Lei de Newcomb-Benford

2.1.1 Conceitos Gerais

A lei do dígito mais significativo descreve o fenômeno da distribuição dos dígitos maissignificativos de uma grandeza naturalmente aleatória. Essa lei não segue uma distribuiçãouniforme como era de se esperar intuitivamente e sim uma distribuição logarítmica específica.

No final do século dezenove o astrônomo e matemático Simon Newcomb percebeu que odesgaste em folhas de tabelas de logaritmo não ocorria de forma uniforme, tendo as primeiras fo-lhas um desgaste maior e que esse desgaste ia diminuindo da primeira até a última folha seguindouma distribuição logarítmica. Esse foi o primeiro relato da Lei do primeiro dígito.(NEWCOMB,1881)

Newcomb define a lei do primeiro dígito como:"A lei de probabilidade de ocorrência dos números é tal que todas as mantissas dos seus

logaritmos são equiprováveis. (NEWCOMB, 1881)

Embora Newcomb não tenha embasado estatisticamente seu trabalho, cinquenta e seteanos após, o físico Frank Benford redescobriu o fenômeno e publicou em um trabalho indepen-dente. Trabalho este que foi embasado com evidências empíricas baseadas em frequências dedígitos significativos encontrados em vinte e uma tabelas contendo um total de mais vinte mil

Page 20: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.1. LEI DE NEWCOMB-BENFORD 19

observações (BENFORD, 1938). Dentre as grandezas analisadas estavam dados de área de baciade rios, valores de tabelas de raízes quadradas, números retirados de edições de jornais, massasatômicas e constantes físicas.

De início a descoberta da lei do primeiro dígito foi atribuída a apenas Benford, issoocorreu devido à grande repercussão que teve o seu trabalho e a não valorização do trabalho deNewcomb na época. Para este trabalho iremos considerar como mesmo fenômeno os termos Leide Newcomb-Benford, Lei dos dígitos significativos, NB-Lei e Lei de Benford.

Tomando um numero x na base b, onde x ∈ R e b ∈ {2,3, ...} . Podemos escrever x naforma x = mb ·bn, para n pertencente a N, onde mb ∈

(1b ,1)

é a mantissa de x. E que D(b)k · (x)

representam o k-ésimo dígito significativo de x ∈ R∗. Ou seja, tomando como exemplo, parax = π(3.14) num sistema de base decimal (b=10), considerando o terceiro digito significativo(k=3) temos, D3

(10) · (π) = 4.

A versão mais geral da lei do primeiro dígito foi definida por (HILL, 1995a):

prob(

mb 6tb

)= logb(t), t ∈ [1,b)

� �2.1

Note que t representa a probabilidade acumulada do dígito d quando t=d.

Com base nessa definição, deduz-se que a probabilidade de d ser o dígito mais significa-tivo de um número real de base decimal é dada por:

prob(d) = log10

(1+

1d

)d = 1,2, ...,9

� �2.2

A equação a seguir mostra a probabilidade de um dígito d aparecer na posição n (Dn):

prob(Dn = d) =(10(n−1))−1

∑i=10n−2

log10(1+(10i+d)−1)� �2.3

E a probabilidade da sequência de dígitos (d1,d2, ...,dk) serem os dígitos mais significati-vos é representada por:

prob(D1 = d1, ...,Dk = dk) = log10

1+

(k

∑i=1

di · 10k−i

)−1 � �2.4

Tomando como exemplo a probabilidade do algarismo "1"seguido do "6"("16") seremdígitos mais significativos de um número real é log10

(1+ 1

16

)∼= 0.026. A figura 2.1 exibe asprobabilidades dos dígitos 1,2, ...,9 serem os dígitos mais significativos de um número de umasequência aleatória.

Page 21: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.1. LEI DE NEWCOMB-BENFORD 20

Figura 2.1: Probabilidades dos dígitos (1, ...,9) aparecerem como dígito maissignificativo de um número segundo a NB-Lei

Segundo Hill as conformidades para lei de Benford para o primeiro ( Equação 2.2 ) esegundo dígito (Equação 2.3) se mantém mesmo que aconteça mudança de base ou de escalasdas distribuições. Essas duas equações são casos especiais da equação general da Lei do dígitomais significativo (HILL, 1995b).

Equação Geral do dígito mais significativo, para b ∈ Z e b > 1,

P

(k⋂

i=1

{D(b)

i = di

})= logb

1+

(k

∑i=1

bk−idi

)−1 � �2.5

Para todo k ∈ N; todo d1 ∈ {0,1, ...,b−1} , e todo d j ∈ {0,1, ...,b−1}, j = 2, ...,k.

Percebemos então que os dígitos significativos ao contrário do que se pensava são de-pendentes entre si e que essa dependência reduz à medida que a distância entre esses dígitosaumenta. Seguindo a equação genérica (Equação 2.4), nota-se que à medida que essa distância seaproxima do infinito, k→ ∞, a distribuição do k-ésimo dígito se aproxima de uma distribuição

Page 22: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.1. LEI DE NEWCOMB-BENFORD 21

uniforme onde cada dígito 0,1, ...,9 ocorre com uma frequência uniforme de 110 . (HILL, 1995a)

Porém, nem todas as sequências atendem à Lei de Newcomb-Benford. Nigrini observouuma melhor aderência à lei em listas com as seguintes características (NIGRINI, 1997):

� Os dados devem ser obtidos de medidas de um mesmo fenômeno. Não devendo semisturar dados diferentes. Por exemplo, valores de diâmetros de crateras de impactose massas atômicas de elementos químicos.

� Não deve haver uma limitação de valores do tipo máximo e mínimo na distribuição.Tendo como exceção a esta regra os números negativos. Por exemplo, altura depessoas, idade.

� Os dados não podem ser atribuídos por serem humanos. Por exemplo, número detelefone, códigos pessoais.

� Devem haver mais dados dentre as ordens de grandeza de menor tamanho do quedentre as de maior tamanho. Isto torna a distribuição positivamente assimétrica, ouseja, com cauda direita mais alongada.

É importante salientar que o fato de satisfazer essas características não significa que umagrandeza é conforme a NB-Lei. Essas características podem ser usadas não como restrições paraNB-Lei, mas sim como ferramenta para avaliar se uma dada grandeza tem maior possibilidadede seguir a lei de Newcomb-Benford. Uma vez que as grandezas são proporcionais e para ummesmo fenômeno, espera-se se obter o mesmo resultado de conformidade tanto para listas deuma mesma grandeza testadas separadamente, quanto para uma única lista formada pela uniãode todos os dados daquele fenômeno, ou seja, será observado na lista final a mesma ocorrênciaobservada nas listas individuais. Também vários dados obtidos de medidas de fenômenos naturaispossuem limitações numéricas, como por exemplo, não encontraremos áreas com valor negativo.

2.1.2 Invariância de Escala e Invariância de Base

Dizemos que a NB-Lei é invariante de escala, pois ao multiplicarmos todos elementospor uma constante escalar diferente de zero as proporções de cada elemento não são alteradaspermanecendo conformes à lei. Também afirmamos que a ela é invariante de base, pois casomudemos a base de uma dada massa de dados ele deverá permanecer conforme a lei de Benford.As definições dessas duas características podem ser encontradas em (HILL, 1995b).

Terry Tao demonstra isso de forma mais simples que quando uma determinada grandezaque segue a NB-Lei dobrar de tamanho continuará conforme a lei. Já que ela inicialmente terácomo dígito mais significativo o número 1 e quando ela for multiplicada pelo escalar 2, dobraráde tamanho, podendo adquirir o valor do dígito mais significativo 2 ou 3 (TAO, 2009). Então

Page 23: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 22

teremos a proporção de números começando com os dígitos 2 e 3 iguais à proporção de númeroque começam com dígito 1. Sendo assim, ele demonstra que:

log10(1+ 1

1

)= log10

(1+ 1

2

)+ log10

(1+ 1

3

)log10

(21

)= log10

(32

)+ log10

(43

)= log10

(42

)30,1% = 17,6% + 12,5%

Hill também afirma que se uma dada grandeza for invariante de escala isso implica queela será também invariante de base, porém o contrário não é verdadeiro, nem toda grandezainvariante de base é invariante de escala.(HILL, 1995b)

2.2 Estado da Arte

A NB-Lei determina a frequência com que os dígitos mais significativos ocorrem quandoextraídos de uma lista numérica de origem natural e aleatória. Como dito anteriormente, estefenômeno foi primeiro relatado pelo astrônomo e matemático Simon Newcomb no final do séculoXIX (NEWCOMB, 1881) ao observar o desgaste das folhas de livros de tabelas de logaritmos.

Em seu estudo, Newcomb afirma que os números que iniciavam com dígitos de valoresmais baixos eram mais frequentemente consultados que os com valores mais altos. E a frequênciade cada folha diminuía gradativamente à medida que se aumentava o valor do dígito inicial. Eleconclui seu trabalho afirmando que: a probabilidade na qual os números ocorrem é tal que asmantissas de seus logaritmos são equiprováveis.

Poincaré contribuiu para formalizar este estudo com um pequeno ensaio contido emsua obra Calcul des Probabilités (POINCARÉ, 1912). Ele argumenta que, ao se observaremnúmeros consecutivos em uma lista suficiente grande de logaritmos, nota-se que em dada posiçãosignificativa, considerando os dígitos 0,1,2,...,9 , a ocorrência de números pares ou ímpares sãoeventos equiprováveis.

Poincaré, avaliando uma função que retorna 1 caso o dígito observado seja par e -1 casoseja ímpar, demonstra que a média de tal função tende a zero. Ao final de seu trabalho, o autortem a necessidade de formular uma tabela numérica sobre as probabilidades das ocorrências dosdígitos. Em seguida Franel apresenta algumas correções ao trabalho de Poincaré e confirma quea probabilidade de qualquer dígito de fato tende a 1

10 quando a posição do dígito observada tendeao infinito (FRANEL, 1917).

Page 24: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 23

Weyl discute sobre a distribuição dos números em módulo retomando a linha de pensa-mento que levou à formulação da lei do primeiro dígito (WEYL, 1916).

Após 57 anos da publicação de Newcomb, o físico Frank Benford, relatou o mesmo fenô-meno eu seu trabalho independente (BENFORD, 1938). Desenvolveu suas pesquisas avaliandoapenas o primeiro dígito significativo. Teve seu trabalho embasado com evidências empíricasbaseadas em frequências dos primeiros dígitos encontrados em vinte e uma tabelas contendo umtotal de mais vinte mil observações provenientes de fontes naturais.

Dentre as grandezas analisadas estavam dados de área de bacias hidrográficas, valoresde tabelas de raízes quadradas, números retirados de edições de jornais, massas atômicas econstantes físicas.

Tabela 2.1: Exemplos de frequências de cada dígito de grandezas obtidas dos maisdiversos tipos de dados no trabalho de Benford (BENFORD, 1938)

.

GRANDEZA 1 2 3 4 5 6 7 8 9 AmostrasNB-Lei 30,1 17,6 12,4 9,6 7,9 6,6 5,7 5,1 4,5 -Áreas de Baciasde Rios

31,0 16,4 10,7 11,3 7,2 8,6 5,5 4,2 5,1 335

Massa Molar 26,7 25,2 15,4 10,8 6,7 5,1 4,1 2,8 3,2 1800Números em edi-ções de jornais

30,0 18,0 12,0 10,0 8,0 6,0 6,0 5,0 5,0 100

Constantes físicas 41,3 14,4 4,8 8,6 10,6 5,8 1,0 2,9 10,6 104Massa atômica 47,2 18,7 5,5 4,4 6,6 4,4 3,3 4,4 5,5 91

No entanto, embora houve um certo desvio das frequências obtidas com relação àsesperadas nos dados estudados por Benford, as proporções dos dígitos mais significativos tiveramuma aproximação significante dos valores esperados. Weisstein verificou que 30% dos valorescontidos em uma base de dados com 54 milhões de grandezas físicas começavam com o dígito"1"(WEISSTEIN, 2016). Em seu trabalho Benford não apenas apresentou casos conformes, eletambém mostra casos de não conformidade à NB-Lei.

Após a publicação de Benford outros autores pesquisaram o tema. Levy (LÉVY, 1939) eRobbins (ROBBINS, 1953) desenvolveram teoria com base no trabalho de Weyl. Já outros comoGoudsmit (GOUDSMIT; FURRY, 1944) e Hsü (HSÜ, 1948) tiveram seus trabalhos baseadosnos fundamentos deixados por Benford. No entanto, foi Pinkham (PINKHAM, 1961) que obteveo avanço significativo na estruturação de uma lei que rege as probabilidades dos dígitos e foiestabelecida uma grande relação entre a Lei de Newcomb-Benford e a invariância de escala.

Anos mais tarde Knuth demonstra uma falha no trabalho de Pinkham (KNUTH, 1969).

Page 25: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 24

Knuth demonstra que a função de probabilidade contínua de Pinkham não existe. No entanto,embora as correções, os resultados obtidos por Pinkham foram mantidos. A relação entre aprobabilidade de ocorrência dos dígitos com a invariância de escala é totalmente válida, sendoesta uma descoberta atribuída por Pinkham a R. Hamming.

Hamming (HAMMING, 1970) em seu trabalho estuda a distribuição das mantissas depontos flutuantes e mostra como operações aritméticas de computador podem transformar essasdistribuições. No mesmo trabalho ele faz um profundo exame dessas distribuições e afirma quea NB-Lei não é apenas um fenômeno curioso, pelo contrário, pode ser usada para desenvolverdiversas aplicações nas áreas de hardware, software e para computação em geral. Ele salienta aotimização de custo computacional na multiplicação de números de ponto flutuantes, estimaçãode erro de representação de números na base 2 e 16, assim como reduzir o erro propagadonessas operações. Por exemplo, se x1 possui um erro ε1 e x2 um ε2, ao multiplicarmos esses doisnúmeros os erros serão propagados no produto. Este erro pode ser estimado através da NB-Lei.

Em seu trabalho, Pinkham cita apenas cinco artigos e dois livros sobre a distribuição dosdígitos e dentre eles está o trabalho original de Benford, no entanto não menciona a publicaçãode Newcomb. Alguns anos mais tarde, Raimi (RAIMI, 1976) faz uma vasta revisão na literaturasobre o tema, onde ele, além de incluir o trabalho de Newcomb, estuda outros 27 trabalhossobre a NB-Lei. A pesquisa de Raimi indica que houve um grande crescimento e uma explosãode publicações a partir do ano de 1961. Entre elas, uma menção no livro An Introduction toProbability Theory and Its Applications feita por seu autor William Feller (FELLER, 1971).

Raimi comenta em seu trabalho sobre a falta de visibilidade da publicação de Newcomb,ele relata que o fenômeno já era conhecido e seria trabalhoso renomear o que já era chamado deLei de Benford (RAIMI, 1976).

Mesmo após o grande crescimento no número de publicações ocorridas a partir de 1961,e muitos pesquisadores se interessarem por pesquisar o fenômeno da Lei do Primeiro Dígito,somente na década de 1990 que a NB-Lei foi realmente formalizada a partir dos trabalhosde Hill ((HILL, 1988),(HILL, 1995c),(HILL, 1995b),(HILL, 1995a)), onde boa parte de todoconhecimento sobre o tema gerado durante todo século XX foi solidificado em suas publicações.

Berger e Eshun (BERGER; ESHUN, 2014) em seu trabalho demonstram a caracterizaçãoda Lei de Benford em tempo discreto e Sistemas Lineares.

Berger e Hill sintetizam um vasto conteúdo sobre a Lei de Newcomb-Benford (BERGER;HILL et al., 2011). Nesse trabalho foram adicionadas definições, provas, características eoutros conteúdos referentes ao tema. Em seguida os mesmos autores fizeram também um novolevantamento do estado da arte da área o qual pode ser consultado em (BERGER; HILL et al.,

Page 26: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 25

2016).

2.2.1 Aplicações da Lei de Newcomb-Benford

Uma das primeiras aplicações da NB-Lei que se tem registro, foi feita por Boring noinício do século XX. Nela, o autor estuda seguindo um ponto de vista psicofísico como as pessoasatribuem probabilidades a eventos que elas desconhecem (BORING, 1920). Na época a teoriaque foi melhor aceita era que se uma pessoa não tem qualquer motivo para viés, ela admite quetodos os eventos são equiprováveis.

Uma série de aplicações foram propostas por Hamming. Aplicações de hardware esoftware que se beneficiariam do uso na NB-Lei (HAMMING, 1970). Tomando o mesmocaminho, outros autores mostraram que diversos algoritmos bem difundidos poderiam ter os seuserros de cálculo de operações de ponto flutuante minimizados se a lei de Newcomb-Benfordfosse aplicada. Berger e Hill estudaram os erros em operações de ponto flutuante do método deNewton (BERGER; HILL, 2007). Eles em seguida, juntos com Kaynar e Ridder, mostram apartir dos seus estudos sobre o comportamento das cadeias de Markov, que de fato elas seguem aNB-Lei. No mesmo trabalho eles também demonstram como minimizar erros de operação deponto flutuante como underflow, overflow e round-off usando a NB-Lei (BERGER; HILL et al.,2011).

A utilização da lei de Newcomb-Benford em sistemas dinâmicos também foi verificada,tendo uma vasta aplicabilidade em modelos de sistemas físicos e sociais, onde diversos autoresprocuraram encontrar relações entre esses modelos construídos e a NB-Lei. Foram avaliadosalguns modelos de autômato celular e de dinâmica dos fluidos por Tolle, Budsien e Laviole(TOLLE; BUDZIEN; LAVIOLETTE, 2000). Eles testaram os modelos sob condições que paraeles eram ótimas e chegaram à conclusão que os modelos de autômatos celulares produzemdígitos uniformemente distribuídos. No entanto, eles tiveram a surpresa em descobrir o alto graude conformidade tanto nos modelos de gases quanto nos modelos de líquidos. Após isso outrosautores adotaram linhas similares de pesquisas avaliando a conformidade da lei dos dígitos emsistemas discretos unidimensionais ((SNYDER; CURRY; DOUGHERTY, 2001), (BERGER;BUNIMOVICH; HILL, 2005)) e em sistemas de comportamento exponencial (BERGER, 2005).

A lei Newcomb-Benford foi usada pela primeira vez na análise de dados por Variancomo estratégia de validação de dados no contexto socioeconômico. Ele avaliou os resultadosobtidos a partir de uma simulação de um sistema de crescimento urbano para a região da Baía deSão Francisco na Califórnia (MORGAN, 1972).

Ao final da década de 1980, a NB-Lei passou a ser mais usada nas áreas de ciências

Page 27: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 26

contábeis e auditoria financeira. Teve como precursor Carslaw ao estudar o comportamento dedados financeiros de empresas da Nova Zelândia (CARSLAW, 1988). Em seu trabalho, Carslawafirma que há indícios de que gerentes e administradores dessas empresas estão arredondandoos valores de balancetes para obter melhores resultados no desempenho das empresas. Deacordo com ele, os seres humanos por natureza tendem a apenas memorizar o primeiro dígitode um número e, portanto, o número que for imediatamente abaixo de n10k,n,k ∈ N, daria aimpressão de ter um valor bem inferior a n10k. Estratégia muito utilizada no comércio onde lojascostumam informar nas prateleiras valores um pouco menores que valores de venda para dar aimpressão que o produto é muito mais barato e induzindo o cliente à compra, um exemplo dissosão produtos vendidos com preços como R$:1,99, R$:3,99 e assim por diante, que embora sejamum pouco mais baratos que R$:2,00 e R$:4,00 respectivamente dão a impressão que custam bemmenos que apenas a diferença de 1 centavo de real.

Para verificar se realmente estava acontecendo aquilo que desconfiava nas empresasneozelandesas, Carslaw verificou a quantidade de ocorrências do dígito 0 que apareciam comosegundo dígito mais significativo nos valores que constavam nas demonstrações contábeis dasempresas que estavam sendo avaliadas. Ele usou a NB-Lei como frequência esperada dos seustestes. Em seus resultados o autor não apenas detectou que havia um excesso de dígitos zeros nasegunda posição, mas também que havia uma carência de números começando com o dígito 9.Carslaw considerou isso como evidência, e usou essa informação para dar suporte à hipótese quetenha ocorrido a manipulação de dados nessa empresa.

Thomas aplicou a técnica de Carslaw em firmas estadunidenses (THOMAS, 1989). Eleutilizou a lei dos dígitos para encontrar excesso e falta de dígitos. E da mesma forma que Carslaw,o autor através da NB-Lei encontrou diversas evidências para dar suporte à hipótese de queexistia manipulação de dados tanto para no ganho, arredondando os valores para cima, quanto naperda, arredondando os valores para baixo.

Nigrini, dentre os autores atuais, é um dos defensores mais assíduos do uso da NB-Leicomo procedimento analítico. Ele utilizou conceitos do trabalho de Carslaw e juntou com outrosdo trabalho de Thomas e desenvolveu em sua tese técnicas para detectar desvio em declarações deimposto de renda (NIGRINI, 1992). E em trabalho posterior ele demonstra que dados coletadosde declarações de imposto de renda são conformes à lei de Newcomb-Benford (NIGRINI, 1996).

Algum tempo mais tarde Nigrini novamente aplica a NB-Lei para detectar desvio dedados, mas desta vez em companhias petrolíferas (NIGRINI; MITTERMAIER, 1997). Eledemonstrou como a NB-Lei pode ser usada como ferramenta de revisão analítica de auxílio noplanejamento de auditorias.

Page 28: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 27

Busta e Weinberg utilizaram uma abordagem diferente e estudaram um sistema de apoioa decisão baseado na NB-Lei e redes neurais (BUSTA; WEINBERG, 1998). Como eles nãotiveram acesso a dados reais, acabaram usando base de dados simulados, misturando dadosselecionados de uma sequência Newcomb-Benford pura com amostras de uma distribuiçãoruidosa utilizando uma proporção predeterminada.

Jolion foi o primeiro a estudar a conformidade à lei de Newcomb-Benford em imagensdigitais. (JOLION, 2001). O autor neste trabalho demonstra que, embora as intensidades de coresdos pixels das imagens não sigam a NB-Lei, as magnitudes dos gradientes e a decomposiçãopiramidal baseada na transformação de Laplace, obedecem à NB-Lei. Jolion sugere comoaplicação um método baseado na entropia que usa como probabilidade esperada as frequênciasda lei de Newcomb-Benford para classificar as imagens em duas categorias, Naturais( conformesa NB-Lei) e as imagens de ruído e texturas repetitivas (não conformes a NB-Lei).

Já Acebo e Sbert (ACEBO; SBERT, 2005) propuseram um método usando a lei deNewcomb-Benford para determinar se imagens sintéticas foram renderizadas por métodos fisica-mente realistas. No entanto, essa aplicação é colocada em questão pelo fato de diversas imagensnão seguirem a lei de Newcomb-Benford no domínio de pixel.

Sanches e Marques (SANCHES; MARQUES, 2006) fizeram um trabalho analisandoimagens de exames médicos. Eles mostraram que o primeiro dígito da magnitude dos gradientesde imagens de ressonância magnéticas, tomografias computadorizadas e ultrassons seguem aNB-Lei. Com base nisso, eles propuseram um algoritmo de reconstrução baseado na lei deNewcomb-Benford, que não requer ajuste de parâmetros regulatórios.

Fu, Shi e Su (FU; SHI; SU, 2007) ) pesquisaram a aplicação da lei de Newcomb-Benfordem compressão de imagem e para análise forense de imagens digitais e usando TransformadaDiscreta de Cosseno (DCT). Os autores mostram que a distribuição dos dígitos mais significati-vos dos coeficientes do bloco-DCT segue a NB-Lei. E que os coeficientes quantizadores JPEGseguem também uma distribuição logarítmica similar à da lei dos dígitos em imagens JPEGcomprimidas uma vez. Então eles propuseram um modelo paramétrico empírico para formularo fenômeno observado. Eles também demonstram que essa distribuição é muito sensível àcompressão JPEG dupla. Com base nisso, eles propuseram como aplicação a utilização da lei deNewcomb-Benford na análise forense de imagens.

Uma generalização da lei de Newcomb-Benford para o dígito mais significativo foiapresentada por Pérez-González, Heileman e Abdallah (PÉREZ-GONZÁLEZ; HEILEMAN;ABDALLAH, 2007) em um trabalho independente, porém relacionado. O objetivo dessa ge-neralização é de manter os dois primeiros termos da expansão de Fourier da função densidade

Page 29: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 28

de probabilidade dos dados no domínio logarítmico modulado. Eles também demonstraramque imagens no domínio da Transformada Discreta de Cosseno (DCT) também seguem estageneralização. Os autores utilizaram a NB-Lei também na área de esteganografia e esteganálise,para tentar identificar se uma imagem possui uma mensagem escondida, ou seja, esteganografada.

A análise feita por Qadir, Zhao e Ho (QADIR; ZHAO; HO, 2010) estudava a aplicaçãoda NB-Lei no padrão de compressão de imagens JPEG 2000. Eles demonstram de forma expe-rimental que imagens no domínio da Transformada Discreta de Wavelet (DWT) seguem a leide Newcomb-Benford. Eles propuseram a aplicação da lei dos dígitos mais significativos comoforma de estimar um fator de qualidade da compressão de imagens utilizado no padrão JPEG2000. Em seguida foi proposto por Qadir et al. (QADIR et al., 2011) como aplicação da NB-Leià imagens no domínio DWT uma forma de identificar imagens naturais que contenham brilhoexagerado (glare). Poucos anos depois Senfeng Tong e colaboradores (TONG et al., 2013),propuseram um novo método para identificação de edição e fraude de imagens digitais baseadonas propriedades estatísticas da NB-Lei. Aplicando a transformada discreta wavelet DWT paratestar a imagem, de onde eles extraíram do domínio da transformada discreta de cosseno DCTdos três canais coloridos RGB de cada componente wavelet e calcularam a probabilidade a partirda distribuição do dígito mais significativo.

A lei dos dígitos mais significativos foi usada por Heijer e Eiben (HEIJER; EIBEN, 2010)como forma de medida da qualidade estética para a evolução sem supervisão de arte sintéticarevolucionária gerada por computação genética. De acordo com os autores a NB-Lei é uma dastrês medidas de qualidade e a arte evoluída de acordo com a sua avaliação possui característicasdistintas das demais medidas.

Indo por uma linha similar à de Busta e Weinberg, Bhattacharya, Xu e Kumar (BHATTA-CHARYA; XU; KUMAR, 2011) também propõem um sistema de suporte à decisão baseado emredes neurais. Mais uma vez o procedimento de revisão analítica foi utilizado para classificar osdados de acordo com sua conformidade com a lei de Newcomb-Benford. Também foi aplicadauma técnica de otimização baseada em um algoritmo genético com a finalidade de escolher qualrede neural melhor irá classificar um conjunto de dados com relação à conformidade à NB-Lei.No entanto, diferente de Busta e Weinberg os autores desse trabalho utilizaram conjunto comuma quantidade maior de elementos, e testaram novas entradas nas redes neurais, mantendoapenas as entradas que obtiveram sucesso.

Altamirano e Robledo (ALTAMIRANO; ROBLEDO, 2011) mostram que tanto a leide Newcomb-Benford quanto a lei Zipf (ZIPF, 1949) estão relacionadas com uma estruturageneralizada da termodinâmica. Segundo os autores essa estrutura é obtida a partir de um tipoestatístico de mecânica deformada e surge quando a configuração do espaço de fase é acessível

Page 30: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 29

parcialmente e de uma forma restrita. Segundo essa restrição, a fração acessível desse espaçotem propriedades fractais.

Hui et al. (HUI; JIA-JIE; YU-MIN, 2011) utilizaram a lei de Newcomb-Benford paraanalisar estruturas atômicas no campo da física nuclear.

De e Sen (DE; SEN, 2011), estudaram a aplicação da lei de Newcomb-Benford nafísica quântica. Em seu trabalho, os autores afirmam que tanto podem detectar transições defase quântica quanto detectar terremotos utilizando métodos semelhantes. Eles afirmam que osseus resultados têm implicação direta na execução de experimentos na área e na pesquisa decomputadores quânticos.

Li e colegas (LI et al., 2012), propuseram um método para identificar regiões em imagensJPEG modificadas por softwares de manipulação de imagens, beneficiando-se dos recursosestatísticos da lei do primeiro dígito. Eles afirmam que regiões das imagens JPEG editadas poresses softwares tem um histórico de compressão diferente e através de NB-Lei eles conseguemdiferenciar essas regiões das que não sofreram qualquer manipulação.

James Friar et al. (FRIAR; GOLDMAN; PÉREZ-MERCADER, 2012) por sua vezaplicaram a NB-Lei no campo da genética molecular. Eles descobriram diferenças entre cé-lulas eucariontes e procariontes com relação à quantidade de fases abertas a leituras (ORFs),sequências de DNA que possuem os requisitos básicos para codificar uma proteína. De acordocom eles, nos organismos procariontes o número de ORFs cresce linearmente de acordo como tamanho total do genoma e enquanto nos eucariontes crescem logaritmicamente. Com basenisso e nos seus testes, os autores concluíram que o número de ORFs em células eucariontessegue a frequência da lei dos dígitos mais significativos.

Geyer e Martí (GEYER; MARTÍ, 2012) utilizam a NB-Lei como forma de validar dadosvulcanológicos. Os autores de início verificaram que os dados vulcanológicos são conformes àlei de Newcomb-Benford. E por fim chegaram a conclusão que erros de arredondamento, erronos dados, ou alguma anomalia podem ser detectadas nos dados através da comparação dasfrequências esperadas pela NB-Lei. Gianluca Sottili e Danilo M. Palladino (SOTTILI et al.,2012) também usaram a NB-Lei na análise de mais de 17 mil eventos sísmicos durante 6 anos naItália, incluindo o monte Etna. Eles propuseram um novo método para avaliar séries sísmicasrecorrentes.

Panagiotis Andriotis et al. (ANDRIOTIS; OIKONOMOU; TRYFONAS, 2013) desen-volveram um novo método na área de esteganografia. Foi proposta uma nova abordagem paraesteganálise baseada em um ataque estatístico de imagens JPEG para tentar identificar a presença

Page 31: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 30

de mensagens escondidas. Esse novo ataque proposto pelos autores foi baseado na forma geral dalei de Newcomb-Benford. Os autores afirmam que o método proposto em sua abordagem indicade forma eficiente e veloz se há suspeita da existência de uma mensagem escondida na imagem,baseando-se na distribuição dos dígitos mais significativos contabilizados nos coeficientes datransformada discreta de cosseno DCT presentes no JPEG.

Orita e colaboradores (ORITA et al., 2013), propuseram uma aplicação para lei deNewcomb-Benford no setor de pesquisa de novos medicamentos. Os autores sugerem que a leidos dígitos significativos seja usada para criar um modelo de confiabilidade desses dados, nofinal eles sugerem a criação de um protocolo de qualidade baseado na NB-Lei.

Poucos anos depois Díaz, e Gallart (DÍAZ; GALLART; RUIZ, 2014), desenvolveramum novo método para avaliação e detecção de terremotos e discriminação de sinais sísmicos.Segundo os autores esse método foi o primeiro baseado na NB-Lei e através dele conseguirambons resultados com boa sensibilidade na detecção de sinais sísmicos de curta ou longa distânciae uma boa separação desses sinais do ruído de fundo.

Antkowiak e Drexler (ANTKOWIAK; DREXLER, 2014) testaram a conformidade à leide Newcomb-Benford dos dados registrados por exames de eletroencefalografia de pacientesantes e após a aplicação do anestésico usado em anestesia geral sevoflurano. Os autores afirmamque em todos registros tiveram resultados positivos para as frequências da NB-Lei, porém pode sediferenciar as distribuições que tiveram diferentes níveis de anestesia. Outro fato observado pelosautores, que na presença de ruído de alta frequência os dados não seguem a frequência da NB-Lei.

Iorliam et al. (IORLIAM et al., 2014) desenvolveram um estudo que verifica se asimagens utilizadas na identificação biométrica seguem a lei de Newcomb-Benford e se a NB-Leipoderá ser usada para identificar fraudes e manipulações dessas imagens. De acordo com osautores as imagens biométricas seguem a lei do dígito mais significativo e os métodos aplicadospara detecção de manipulação nessas imagens funcionaram de forma efetiva.

Golbeck (GOLBECK, 2015) verificou que a lei de Newcomb-Benford aplica-se a carac-terísticas encontradas em redes sociais on-line. A autora utilizou dados das 5 redes sociais maisimportantes no momento de sua pesquisa mostrando as distribuições dos primeiros dígitos maissignificativos para amigos, e seguidores, as quais de acordo com autora seguem a NB-Lei. Elatambém identificou a presença da conformidade à lei dos primeiros dígitos no número de mensa-gem que os usuários postam. Com base nisso tudo, foi proposto pela autora o desenvolvimentode uma ferramenta de detecção de fraudes on-line e de validação de dados.

Page 32: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.2. ESTADO DA ARTE 31

2.2.1.1 Aplicações da Lei de Newcomb-Benford nas ciências Astronômicas

Nas ciências astronômicas também são encontradas aplicações da Lei de Newcomb-Benford. Shao e Ma observaram a conformidade de algumas propriedades de pulsares com aNB-Lei (SHAO; MA, 2010). Dentre essas grandezas conformes encontradas em pulsares estão operíodo baricêntrico e velocidade de rotação assim como também as suas derivadas com relaçãoao tempo.

Thomas W. Hair (HAIR, 2014) testou dados de massa de exoplanetas contidos na base dedados Exoplanet Orbit Database, os quais foram obtidos através do telescópio espacial Kepler everificou que são conformes à lei de Newcom-Benford tanto para exoplanetas confirmados quantopara objetos candidatos. Com base nisto ele sugere que o conhecimento dessa conformidadeseja usado no futuro como mais um indicativo de que esses objetos candidatos sejam de fatoexoplanetas.

Shukla et al. (Shukla; Pandey; Pathak, 2016) em seu trabalho analisaram a base de dadosdo telescópio espacial Kepler sobre exoplanetas em busca de grandezas conformes à NB-Lei. Osautores afirmam que a massa planetária, volume, densidade, maior semieixo orbital, período or-bital e velocidade radial apresentaram um alto grau de conformidade à lei de Newcomb-Benford.Enquanto as grandezas movimento próprio total, idade estelar e distância estelar apresentaramum grau moderado de conformidade. Já longitude, raio e temperatura efetiva não seguem aNB-Lei. Assim como Hair (HAIR, 2014), os autores sugerem que esse conhecimento possa serusado para se fazer análise na lista de candidatos a exoplanetas.

Theodoros Alexopoulos e Stefanos Leontsinis (ALEXOPOULOS; LEONTSINIS, 2014)em seu trabalho analisaram dados acumulados medidos com precisão a partir da década de 1970acerca de distâncias de galáxias e estrelas. Avaliaram essas medidas com relação à conformidadecom a NB-Lei para o primeiro, segundo e terceiro dígito mais significativos. Foram obtidosresultados significativos para a distância de galáxias avaliando o primeiro dígito e para a distânciade estrelas obteve resultados ótimos para os três primeiros dígitos. Foram no total analisadas 702galáxias e 115.256 estrelas. Embora tenham obtido resultados positivos, os autores avaliam anecessidade de refazer os experimentos utilizando catálogos maiores com diferentes distânciasgalácticas tanto para estrelas quanto para galáxias, a fim de reforçar a conformidade dessasgrandezas com a lei dos dígitos mais significativos.

Partindo da descoberta de Alexopoulos e Leontsinis (ALEXOPOULOS; LEONTSINIS,2014) que as distâncias das galáxias e das estrelas seguem as frequências da NB-Lei e usandoa lei Hubble (HUBBLE, 1929) e as propriedades matemáticas da lei de Newcomb-Benford,Hill e Ronald Fox (HILL; FOX, 2016) definiram uma nova lei chamada por eles de lei da

Page 33: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.3. CRITÉRIOS DE CONFORMIDADE DA NB-LEI 32

distância das galáxias ou, galaxy-distance law, em inglês. Segundo eles, esta lei prediz umadistribuição logarítmica do dígito mais significante das distâncias das galáxias, dando assimum embasamento teórico para suas descobertas de forma empírica. A lei da distância dasgaláxias é considerada pelos autores como robusta à variância de base e escala, assim comotambém a uma possível variabilidade contida na constante de Hubble, e também é robusta a erroscomputacionais ou observacionais multiplicativos e aditivos. Assim, com a lei da distância dasgaláxias, as observações feitas por Alexopoulos e Leontsinis podem ser consideradas como umaevidência empírica e independente para validar a lei de Hubble. O que poderia ser expandido,segundo os autores, para uma lei da distância das estrelas e também poderia ser consideradacomo uma nova evidência empírica que as galáxias estão se expandindo internamente em umataxa exponencial.

2.3 Critérios de Conformidade da NB-Lei

O primeiro critério de conformidade foi estabelecido por Benford em seu trabalho original(BENFORD, 1938), onde foi feito o primeiro teste de conformidade à lei. O teste consiste nocálculo da diferença entre as frequências esperadas e as frequências observadas de cada teste(MORGAN, 1972). O desvio obtido, ε é dado por:

ε =n

∑i=m

|Poi−Pei|2

� �2.6

onde Po e Pe são respectivamente as probabilidades observadas e esperadas. A divisão por dois éfeita para se evitar um problema ocasionado pela de redundância de se considerar os desviosduas vezes na equação. Pois esse tipo de teste que trabalha com probabilidade acaba levando emconta informações duas vezes ou mais. Este fato ocorre por que a soma das probabilidades obri-gatoriamente tem que ser 1. Quando avaliamos o desvio de cada dígito individualmente obtemosinformações significantes, porém quanto avaliamos para o somatório consideramos o desvio duasvezes, sendo um para o excesso e o outro para a falta, pois quando um ou mais dígitos apresentarum desvio para cima, um ou mais dígitos terão um desvio para baixo para compensar e vice-versa.

Embora inicialmente Benford tenha utilizado essa metodologia, as medidas de confor-midades mais difundidas na literatura são baseadas em testes χ2 de Pearson, no teste Z e noteste Komolgorov-Smirnov (K-S). Primeiramente Diaconis usou o teste χ2 em seu trabalhocom objetivo de desenvolvimento de conteúdo teórico sobre a NB-Lei, não visando nenhumaaplicação (DIACONIS, 1977). Já o teste Z foi aplicado pela primeira vez para avaliar a lei deNewcomb-Benford por Carslaw (CARSLAW, 1988), no entanto esse teste só analisa o desviode um dígito por vez, o que não acontece no teste K-S, que por sua vez analisa todos os dígitos.Embora a maioria dos autores verifica a conformidade apenas para o primeiro dígito, são poucos

Page 34: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.3. CRITÉRIOS DE CONFORMIDADE DA NB-LEI 33

que em seus trabalhos analisam mais que os dois primeiros dígitos.

O teste Z aplicado à NB-Lei pode ser calculado através da equação:

Z =|Po−Pe|− 1

2n√Po(1−Po)

n

� �2.7

onde Po e Pe são respectivamente as probabilidades observadas e esperadas para umdígito específico, n é o tamanho da amostra, e 1

2n que é um fator de continuidade que só é usadoquando 1

2n < |Po−Pe|. Uma descrição mais detalhada do teste Z aplicado a NB-Lei pode serencontrada em (THOMAS, 1989).

Por sua vez o teste estatístico χ2 de Pearson é dado por:

χ2 =

n

∑i=m

(Ooi−Oei)2

Oei

� �2.8

onde Oo e Oe são respectivamente a quantidade de elementos observada e esperada parao respectivo dígito.

A equação do teste de Kolmogorov-Smirnov Local ou discreto (PETTITT; STEPHENS,1977) é dada por:

S = max

(n

∑i=m|Poi−Pei|

) � �2.9

onde Po e Pe são respectivamente as probabilidades observadas e esperadas.

Nigrini (NIGRINI, 1999) relatou um problema chamado por ele de excesso de poder.Ele afirma que que à medida que a quantidade de observações a serem avaliadas aumentam ostestes estatísticos se tornam cada vez mais rigorosos. Segundo ele quando o conjunto excede1.000 observações, diferenças antes imperceptíveis em um gráfico causam grandes mudançasnos resultados dos testes fazendo com que o teste rejeite a hipótese de determinada grandezaser conforme a lei de Newcomb-Benford mesmo ela sendo. E a partir de 10.000 observaçõespequenas variações já começam a ter diferenças significativas nos resultados desses testes. Kra-kar e Zgela (KRAKAR; ŽGELA, 2009) relatam o mesmo fenômeno ao falar sobre o testeχ2. Em seu trabalho ele relata que em conjuntos de dados com mais de 10.000 amostras (NºObservações) o valor da estatística é na maioria dos casos sempre superior ao valor crítico,induzindo ao auditor a pensar que o conjunto não é conforme à lei dos dígitos mais significativos.Luque e Lacasa (LUQUE; LACASA, 2009), também afirmam que há o fenômeno de excessode poder nos testes Z e χ2. Esse problema ocorre também no teste de Kolmogorov-Smirnov local.

Page 35: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.3. CRITÉRIOS DE CONFORMIDADE DA NB-LEI 34

Como forma de atenuar o problema de excesso de poder, uma distância de conformidadepara a NB-Lei foi sugerida por (NIGRINI; MITTERMAIER, 1997). Essa distância foi chamadade Mean Absolute Deviaton (M.A.D) e era calculado dividindo o somatório das diferenças abso-lutas pelo número de dígitos.

Para um dígito d, sejam Po e Pe as probabilidades esperadas e observadas respectivamente,o MAD pode ser obtido a partir da equação

∑Nd=1 |Po−Pe|

N,

� �2.10

onde d representa o dígito, sendo N=9 para primeira posição e N=10 para as demais.Assim os autores concluem que o MAD não é influenciado pelo tamanho da amostra e queconsequentemente não irá influenciar no resultado do teste não gerando resultados do tiposnegativos de testes de conformidade para Lei de Newcomb-Benford.

Busta e Weinberg (BUSTA; WEINBERG, 1998) seguindo uma linha diferente utilizaramredes neurais para classificar dados segundo a conformidade à NB-Lei. Em seu trabalho elesconsideraram análise de elementos da estatística descritiva como frequência de ocorrência dos dí-gitos das duas primeiras posições, média, mediana, desvio padrão, curtose e obliquidade além devalores de estatísticas como Z e χ2. Seguindo a mesma linha de Busta e Weinberg, Bhattacharyae equipe (BHATTACHARYA; XU; KUMAR, 2011) além replicar os testes feitos por Bustatambém verificaram a aplicação do novo método nos testes χ2 e Kolmogorov-Smirnov (K-S)discreto, distância de Kullbak-Lieber, entropia de Shannon, distância euclidiana, coeficiente derelação de Pearson e o alpha de Judge-Schechter.

Steele e Chaseling (STEELE; CHASELING, 2006), demonstraram que, dentre os testesavaliados, para distribuições de tendência, os que obtiveram melhores resultados foram K-Sdiscreto, Anderson-Darling (A2) discreto e o Cramér-von Mises (W 2) discreto. O teste Z não foiavaliado e o teste χ2 foi o que obteve piores resultados quando comparado aos demais.

Wong (WONG, 2010), em sua dissertação de mestrado, analisou a capacidade de diversostestes estatísticos verificando a detecção de desvios em sequências de Newcomb-Benford. Foramsimuladas várias naturezas de desvios em proporções crescentes sendo o poder do teste medidocaso a caso. Steele e Chaseling tiveram seus resultados comprovados, onde A2 e W 2 obtiveramos melhores resultados e novamente o teste χ2 obteve os piores resultados se comparado aosdemais, e o K-S não foi avaliado e só foram testados os dois primeiros dígitos. É importantesalientar que todos os testes citados trabalharam com valores de probabilidade, onde cada célularepresentava frequências de dígitos e não distribuições. Esses testes presumem que as amostrassão independentes.

Page 36: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

2.3. CRITÉRIOS DE CONFORMIDADE DA NB-LEI 35

Page 37: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

363636

3Conformidade à Lei de Newcomb-Benfordpelo método de Kolmogorov-Smirnov

3.1 Introdução

Neste capítulo iremos propor a utilização do método estatístico de Kolmogorov-Smirnovbaseado na Função de Distribuição Empírica (FDE) para determinação da conformidade globalda NB-Lei. Iremos comparar os seus resultados aos do teste qui-quadrado (χ2) (q-q) e a daestratégia de Bootstrapping associada ao mesmo q-q a fim de verificar a sua robustez ao problemade excesso de poder comum em massas de dados com grande número de amostras e na área deanálise de conformidade a NB-Lei.

3.2 Método Adotado

O excesso de poder é um problema comum quando se verifica que uma dada grandeza éconforme à lei de Newcomb-Benford. Neste trabalhado temos como um dos objetivos testar ograu de robustez com relação ao excesso de poder de alguns métodos estatísticos e verificar qualmétodo se adéqua melhor na verificação da conformidade à lei dos dígitos significativos.

Para testes de conformidade à NB-Lei o método mais adotado na literatura é o métodoq-q de Pearson, porém como já foi dito, ele é sensível ao problema de excesso de poder podendoocasionar em falsos negativos em um teste com grande número de amostras. Com base nissoresolvemos estudar alternativas ao método q-q de forma a tentar minimizar este problema.

Em nosso trabalho para determinação da conformidade global à NB-Lei utilizamos ométodo Kolmogorov-Smirnov (K-S), porém não é o mesmo K-S citado até agora pela literaturapara verificação de conformidade. O método usado por nós é baseado na FDE, versão discretada Função de Distribuição Acumulada (FDA), conforme descrito por (HENRIQUES, 2012), quealém de ser mais robusto ao excesso de poder é também mais fiel à definição formal da Lei de

Page 38: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.2. MÉTODO ADOTADO 37

Benford, já que o mesmo trabalha considerando as mantissas ao invés de dígitos isolados.

Também propomos investigar um intervalo de confiança para o K-S baseando-nos em umq-q que não sofre do excesso de poder por se utilizar o Bootstrapping, pois lida com quantidadede amostras toleráveis, extraídas aleatoriamente do montante original da distribuição.

3.2.1 Qui-quadrado de Pearson (χ2)

Aplicamos o método q-q da mesmo forma que é comumente aplicado em outros testesde conformidade à NB-Lei já citados na literatura. Esse teste foi utilizado para verificação da leide Newcomb-Bendord desde que Diaconis o utilizou pela primeira vez (DIACONIS, 1977). Emnosso trabalho o utilizamos apenas para verificação da conformidade para o primeiro dígito.

Conforme a literatura utilizamos n-1 graus de liberdade onde n=9 para teste de conformi-dade do primeiro dígito significativo o que nos dá 8 graus de liberdade.

Segundo a tabela 3.1 de valores críticos segundo a literatura do teste q-q, para um nívelde significância de 0,05, ou seja 5% e 8 graus de liberdade, se o valor crítico do teste q-q formaior que 15,51 podemos rejeitar a conformidade com 95% de confiabilidade.

Tabela 3.1: Valores críticos do qui-quadrado.

Graus deLiberdade

χ2 (Valores)

1 0 0 0.1 0.2 0.5 1.07 1.64 2.71 3.84 6.64 10.832 0.1 0.2 0.5 0.7 1.4 2.41 3.22 4.6 5.99 9.21 13.823 0.35 0.6 1 1.4 2.4 3.66 4.64 6.25 7.82 11.3 16.274 0.71 1.1 1.7 2.2 3.4 4.88 5.99 7.78 9.49 13.3 18.475 1.14 1.6 2.3 3 4.4 6.06 7.29 9.24 11.1 15.1 20.526 1.63 2.2 3.1 3.8 5.4 7.23 8.56 10.6 12.6 16.8 22.467 2.17 2.8 3.8 4.7 6.4 8.38 9.8 12 14.1 18.5 24.328 2.73 3.5 4.6 5.5 7.3 9.52 11 13.4 15.51 20.09 26.129 3.32 4.2 5.4 6.4 8.3 10.7 12.2 14.7 16.9 21.7 27.8810 3.94 4.9 6.2 7.3 9.3 11.8 13.4 16 18.3 23.2 29.59

p-value(nívelde

significância)

0.95 0.9 0.8 0.7 0.5 0.3 0.2 0.1 0.05 0.01 0.001

3.2.2 Kolmogorov-Smirnov (K-S)

FDE

Page 39: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.2. MÉTODO ADOTADO 38

Nós adotamos o método K-S utilizado por (HENRIQUES, 2012) assim como tambémutilizamos o código fonte da implementação disponibilizado pelo autor em seu trabalho. Se-gundo o autor esse método adotado é baseado na FDE das mantissas. Sendo esta calculadacomo primeiro passo. Para computar a FDE, é montado de início um histograma na escalalog mod 1 (log10(d)), ou seja contendo números entre zero e 1, observando as repetições destatransformação. Em seguida este histograma é acumulado e normalizado. O autor afirma quepor causa do comportamento atípico da NB-Lei no discreto e a natureza caótica dos dados reais,na FDE foi incluída entre pontos iniciais e finais uma quantidade de pontos equidistribuídosproporcional à representatividade daquele valor na distribuição. Ou seja, se a FDE possui npontos de valor A e o próximo ponto distinto possui valor B, então o valor das ordenadas em Aé repetido n vezes igualmente espaçados entre A e B. Desta forma segundo o altor é possívelcomparar fazer uma comparação com a FDE de uma sequência de Newcomb-Benford contendoa mesma quantidade de pontos e sequencias com apenas valores distintos, como as da NB-Lei,não sofrem qualquer alteração. Só após as FDE serem montadas é aplicado o método estatísticoK-S.

3.2.3 Qui-quadrado com Bootstrapping

Bootstrapping ou Bootstrap é um método estatístico de reamostragem utilizado paraaproximar distribuições. O método q-q com Bootstrap se beneficia dessa reamostragem nãosofrendo do problema de excesso de poder como o q-q comum. Neste contexto, o bootstrapping

consiste em selecionar aleatoriamente m amostras das n amostras originais, onde m<n, e mé um número de amostras para o qual o excesso de poder do q-q é desprezível , ao contráriode n. Esse procedimento é executado k vezes, e o valor do q-q final da grandeza será a mé-dia dos k valores de q-q dos conjuntos de m amostras. Onde k 6 Cn,m e Cn,m =

(n!

m!(n−m)!

),

pois Cn,m representa a quantidade máxima de combinações possíveis para o conjunto de amostras.

O problema chamado por Nigrini (NIGRINI, 1999) de excesso de poder pode ser dedu-zido facilmente ao se observar a equação 2.8 que descreve o qui-quadrado. Pois a o numeradorda equação é quadrático enquanto o denominador é de ordem linear fazendo que com o aumentodo número de amostra o valor da estatística tenda a ser maior.

Para determinação da conformidade à NB-Lei, tomamos como referência a tabela 3.1 devalores críticos e da mesma forma que o método q-q comum, para um nível de significância de0,05, ou seja 5% e 8 graus de liberdade, se o valor crítico for maior que 15,51 podemos rejeitar aconformidade com 95% de confiabilidade.

A técnica de bootstraping foi proposta por (EFRON; TIBSHIRANI, 1993) pela primeira

Page 40: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.3. ANÁLISE DA CONFORMIDADE 39

vez de forma a fazer uma estimativa das propriedades de um estimador. Sendo uma técnicarecomendada em contextos onde outras abordagens não são indicadas, como por exemplo emum número de amostras reduzidos ou muito grande.

Em nosso trabalho utilizamos esse método como parâmetro de comparação com o mé-todo K-S e para estabelecer um intervalo de confiança para esta métrica global, já que ambos nãosofrem de excesso de poder. Usamos como tamanho de parcela máxima o valor de 500 amostras,pois foi um valor máximo para quantidade de amostras em nossos testes que não há tanto efeitodo excesso de poder no teste q-q.

Nós também utilizamos a implementação do q-q disponibilizada por (HENRIQUES,2012) e acrescentamos o Bootstrap para fazer a reamostragem.

3.3 Análise da Conformidade

Nosso objetivo nessa seção é tentar determinar um intervalo de confiança, ou seja, umamargem de tolerância para conformidade do método K-S em relação à distribuição ideal daLei de Newcomb-Benford, para a partir daí poder dizer se uma grandeza testada ainda podeser conforme ou não, como no caso do método q-q que para 8 graus de liberdade e nível designificância (p-valor) de 5% terá esse limiar de 15,51 para a estatística do qui-quadrado.

A determinação desse valor para o K-S será importante tendo em vista que valores degrandezas astronômicos geralmente tem um número de amostras (Nº Observações) grande osuficiente para provocar o problema de excesso de poder no qui-quadrado e o K-S como foi ditose aproxima mais da definição formal da NB-Lei.

Iremos submeter os testes q-q, q-q com Bootstrap e o Komolgorov-Smirnov a dois con-juntos de dados: o primeiro com grandezas cuja conformidade à NB-Lei é descrita pela literaturae o segundo cuja a não conformidade também é conhecida. Dessa forma consideramos váriasdistribuições de diversos graus de conformidade, medidas pelo q-q, e calculamos os valorescorrespondentes do K-S.

3.3.1 Grandezas cuja a conformidade é conhecida

A seguir exibiremos os resultados dos testes feitos em grandezas que são conhecidamenteconformes pela literatura. Na tabela 3.2 temos os resultados dos teste q-q de Pearson e K-S e natabela 3.3 os resultados do teste K-S e Bootstrap a fim de comparação.

Page 41: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.3. ANÁLISE DA CONFORMIDADE 40

Page 42: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.3. ANÁLISE DA CONFORMIDADE 41

Tabela 3.2: P-Valores dos testes K-S e q-q de Pearson de grandezas conformes.

Base Grandezas Amostras KS χ2

IBGE (CENSO2007)

Pop. Municípios Brasi-leiros

5564 0,018023104 18,43752233

Calculada Sequencia de Fibonacci 1476 0,001487586 0,047283356Calculada Sucessão das potências

de 21023 0,00213484 0,350815407

Calculada Lista de números Fatori-ais

170 0,052742801 7,833357678

ERS/USDA Pop. dos Condados US2016

3222 0,014973671 11,35369872

Center for HealthStatistics, Washing-ton State Departmentof Health

Reg. MortalidadeWashington 2005

504 0,038757567 4,85075112

States – Births andBirth Rates by Raceand Hispanic Originand Fertility Rate:2002h

Reg. Natalidade US2002

306 0,044924188 6,029617196

Analisando os dados da tabela 3.2 nota-se que o maior valor obtido pelo método K-S foio de um teste com apenas 170 amostras de uma tabela de números fatoriais e que observando oresultado do teste q-q para a mesma grandeza observamos que o mesmo obteve um valor inferioraos 15,51 determinado pela literatura, evidenciando a conformidade à NB-Lei. Observando osresultados dos testes referentes à sequencia de Fibonacci e sucessão de potências de número2, percebe-se que obtivemos valores muito baixos da estatística em ambos os métodos, o querepresenta um alto grau de conformidade para essas grandezas.

Observando os resultados das grandezas Registros de Natalidade dos Estados Unidos2002 e Registro de Mortalidade de Washington 2005, notamos valores baixos no teste K-S eabaixo de 15,51 no teste q-q, confirmando a conformidade à lei dos dígitos significativos emambos os casos.

Testamos também grandezas similares, população dos condados dos Estados Unidosde 2016, e população de todos os municípios brasileiros. Obtivemos valores baixos em ambasgrandezas na estatística do método K-S. No caso do q-q, nos condados, que são uma grandezacom uma quantidade menor de amostras, obtivemos valores da estatísticas conformes à NB-Lei,porém no caso dos municípios brasileiros o mesmo não aconteceu, extrapolando o limiar de15,51 permanecendo ainda dentre da margem dos 20,1 para p-valor de 1%.

Page 43: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.3. ANÁLISE DA CONFORMIDADE 42

Tabela 3.3: P-Valores dos testes K-S e Bootstrap de grandezas conformes.

Base Grandeza Amostras KS Bootstrap DP

IBGE (CENSO2007)

Pop. Municí-pios Brasilei-ros

5564 0,018023104 8,79961906 4.250917407

Calculada Sequencia deFibonacci

1476 0,001487586 5,312981931 2.663042808

Calculada Sucessão daspotências de 2

1023 0,00213484 4,245364221 2,120949848

Calculada Lista de núme-ros Fatoriais

170 0,052742801 - -

ERS/USDA Pop. dosCondados US2016

3222 0,014973671 8,51021716 4,127630792

Center for HealthStatistics, Washing-ton State Depart-ment of Health

Reg. Mortali-dade Washing-ton 2005

504 0,038757567 4,878415637 0,400616734

States – Birthsand Birth Rates byRace and HispanicOrigin and FertilityRate: 2002h

Reg. Natali-dade US 2002

306 0,044924188 - -

Page 44: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.3. ANÁLISE DA CONFORMIDADE 43

Observando na tabela 3.3 os resultados obtidos das mesmas grandezas sendo que agoracomparando os métodos estatísticos K-S, que não sofre de excesso de poder, com o Bootstrap,que é mais robusto a esse problema que o q-q, obtivemos os resultados tabelados. A coluna DPrepresenta os valores dos desvios padrões obtidos na execução da estratégia de Bootstrap.

As grandezas que já tinham obtido resultados conformes no q-q mantiveram-se confor-mes à NB-Lei, porém grandezas que obtiveram valores não conformes à lei de Newcomb-Benfordobtiveram conformidade confirmada.

As grandezas cuja quantidade de amostras são inferiores a 500 não foram submetidasao teste de Bootstrap, já que adotamos como parcela mínima para reamostragem o valor dequinhentas amostras neste método, pois foi um valor máximo para quantidade de amostras emnossos testes que não obteve tanto efeito do excesso de poder no teste q-q.

3.3.2 Grandezas cuja a não conformidade é conhecida

A seguir exibiremos os resultados dos testes feitos em grandezas que são conhecidamentenão conformes pela literatura. Na tabela 3.4 temos os resultados dos teste q-q de Pearson e K-Se na tabela 3.5 os resultados do teste K-S e Bootstrap a fim de comparação.

Observando a tabela 3.4 percebe-se claramente que nenhuma das grandezas obteve re-sultado positivo para nenhum dos dois testes, nem para o K-S, muito menos para o q-q e queem ambos os casos obtivemos valorem muito acima dos limiares estabelecidos para ambos osmétodos estatísticos para verificação da lei de Newcomb-Benford.

No entanto, resolvemos fazer duas verificações na grandeza cujo o dígito mais significa-tivo é 1. A primeira vez, utilizamos um número de dez mil amostras, e a segunda com apenas10% do número de amostras do conjunto de dados anterior, ou seja apenas mil amostras. Noteque o resultado do K-S entre os dois conjuntos de dados não obteve uma diferença significativa,no entanto, o mesmo não aconteceu no método q-q obtendo um valor dez vezes maior, o queevidencia o quanto cada um dos dois métodos é susceptível ao excesso de poder, mesmo emgrandezas que cuja a não conformidade já é conhecida se percebe isso.

Na tabela 3.5 observamos tanto para o método K-S quanto para o Bootstrap que em todasas grandezas, como se era de esperar, deram resultado negativo para a estatística na verificaçãoda conformidade à NB-Lei.

Page 45: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.3. ANÁLISE DA CONFORMIDADE 44

Tabela 3.4: P-Valores dos testes K-S e q-q de Pearson de grandezas não conformes

.

Base Grandeza Amostras KS χ2

Comitê Gestor deRecuperação Fis-cal Receita Fede-ral

CNPJ 3415 0,272739669 1498,156

Num. telefônicosde empresas dosEstados unidos

Num. TelefonesEmpresas US

994 0,303777622 662,2693

Calculada Números começa-dos por 1

10000 0,698878594 23219,28

Calculada Números começa-dos por 1

1000 0,698600393 2321,928

Calculada Números começa-dos por 2

1000 0,522000401 4678,914

Calculada Números começa-dos por 3

1000 0,477145338 7003,842

Calculada Números começa-dos por 4

1000 0,602303229 9318,853

Calculada Números começa-dos por 5

1000 0,699092303 11629,45

Calculada Números começa-dos por 6

1000 0,778166125 13936,52

Calculada Números começa-dos por 7

1000 0,845168485 16244,35

Calculada Números começa-dos por 8

1000 0,903092709 18550,34

Calculada Números começa-dos por 9

1000 0,954288264 20853,15

Calculada Lista distribui-ção uniformeprimeiro dígito

9000 0,273121261 3685.249

Imagem Lena Val. RGB Ima-gens (Canal Ver-melho)

262144 0,484740638 252128,3

Imagem Lena Val. RGB Ima-gens (CanalVERDE)

262144 0,214855748 69890,72

Imagem Lena Val. RGB Ima-gens (CanalAZUL)

262144 0,22796337 210137,7

Imagem Lena Val. RGB Ima-gens (3 Canais)

786432 0,264218106 264219,7

Page 46: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.3. ANÁLISE DA CONFORMIDADE 45

Tabela 3.5: P-Valores dos testes K-S e Bootstrap de grandezas não conformes.

Base Grandeza Amostras KS Bootstrap DP

Comitê Gestorde Recupe-ração FiscalReceita Fede-ral

CNPJ 3415 0,272739669 228,6695409 34,09825723

Num. telefôni-cos de empre-sas dos Esta-dos unidos

Num. Tele-fones EmpresasUS

994 0,303777622 339,0062472 20,25437266

Calculada Números come-çados por 1

10000 0,698878594 1160,964024 2.27374E-13

Calculada Números come-çados por 1

1000 0,698600393 1160,964024 2,27374E-13

Calculada Números come-çados por 2

1000 0,522000401 2339,457096 0

Calculada Números come-çados por 3

1000 0,477145338 3501,920922 4,54747E-13

Calculada Números come-çados por 4

1000 0,602303229 4659,426272 0

Calculada Números come-çados por 5

1000 0,699092303 5814,725941 1,81899E-12

Calculada Números come-çados por 6

1000 0,778166125 6968,259895 2,72848E-12

Calculada Números come-çados por 7

1000 0,845168485 8122,176237 2,72848E-12

Calculada Números come-çados por 8

1000 0,903092709 9275,171065 0

Calculada Números come-çados por 9

1000 0,954288264 10426,57343 0

Calculada Lista Distribui-ção uniformeprimeiro dígito

9000 0,273121261 203,6567515 28,82351979

Imagem Lena Val. RGBImagens (CanalVerm.) Lena

262144 0,484740638 485,1270084 32,67094246

Imagem Lena Val. RGBImagens (CanalVerd.)

262144 0,214855748 140,2181663 21,06018748

Imagem Lena Val. RGBImagens (CanalAzul)

262144 0,22796337 409,7169856 19,27941256

Imagem Lena Val. RGB Ima-gens (3 Canais)

786432 0,264218106 175,2739661 17,09618048

Page 47: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

3.3. ANÁLISE DA CONFORMIDADE 46

Observamos também que os valores da estatística do Bootstrap deram bem inferior aoq-q. Destacando os dois grupos de amostras de números começados por 1, note que ao contráriodo valores da estatística obtida pelo qui-quadrado, ao utilizar o Bootstrap e os K-S obtivemos amesma estatística tanto para mil amostras quanto para dez mil amostra mostrando o quanto essedois métodos são robustos ao excesso de poder.

Alguns testes obtiveram o valor do desvio padrão muito pequeno, e por causa dissotiveram o valor zero atribuído a este resultado.

3.3.3 Conclusão

Assim sendo, como base no que foi visto nesse capítulo, podemos concluir que o métodoestatístico de Kolmogorov-Smirnov se mostra uma ótima alternativa para determinação da con-formidade global à lei de Newcomb-Benford, pois o mesmo não se mostra sensível ao excessode poder e é mais fiel à definição da lei de Benford por ser global utilizando mantissas ao invésde dígitos isolados.

Com relação da determinação de um limiar para um intervalo de confiança do métodoK-S chegamos às seguintes conclusões. Tendo em vista que valores acima de 0,1 do K-S comuma quantidade de amostras razoável, o método qui-quadrado dá um resultado não conforme.E que para valores do K-S abaixo de 0,1 também em uma quantidade de amostras razoável eleobtém valores da estatística do q-q conformes à NB-Lei. Podemos assim então a partir dessesdados com grandezas conformes e não conformes, juntamente com dados astronômicos queserão vistos no próximo capítulo, estimamos que o intervalo de confiança de conformidade àNB-Lei pelo K-S é de 0 a 0,1.

No entanto, salientamos que ao utilizarmos as grandezas astronômicas contidas nocapítulo 4 para determinar o Limiar do K-S, tivemos também que verificar a possibilidade deocorrência de desvios que possam ter sidos ocasionados por algum fenômeno na hora de usara grandeza para determinar o limiar, pois não sabíamos previamente se esses dados testadospossuíam algum tipo de desvio. Sendo assim, olhando a quantidade de amostras de cada grandeza,consideramos que uma grandeza com a quantidade de amostras (nº de repetições) muito grandeteria que ter um desvio também muito grande para poder influenciar nesse resultado, o queseria percebido por quem adquiriu os dados. Portanto, consideramos o grau de certeza alto paraconformidade à NB-Lei em grandezas com um grande número de amostras e um baixo grau decerteza para grandezas com uma quantidade muito pequena de amostras.

Page 48: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

474747

4Análise da Lei de Newcomb-Benford em da-dos Astronômicos

4.1 Introdução

Neste capítulo iremos estudar a aplicação da lei de Newcomb-Benford na astronomia.Iremos verificar diversas grandezas astronômicas com relação a sua conformidade à NB-Lei.Apesar das pesquisas de sua aplicação nessa área ainda serem recentes, a cada dia surge umanova descoberta de uma nova grandeza astronômica conforme à lei dos dígitos significativos.No entanto, embora já se tenham alguns estudos na área, até o momento não foi desenvolvidanenhuma aplicação prática conhecida na área usando esse conhecimento, apenas sugestões deaplicações foram propostas até o momento. Iremos utilizar para verificação da conformidadeglobal o método de Kolmogorov-Smirnov e também para um comparativo usaremos os métodosq-q com a estratégia Bootstrap e o q-q de Pearson.

A aplicação da lei de Newcomb-Benford, apesar de crescente, ainda é algo recente nas ci-ências astronômicas. Uma das primeiras publicações conhecidas foi feita por Shao e Ma (SHAO;MA, 2010) que em seu trabalho descobriram que o período baricêntrico e a velocidade de rotaçãode pulsares são grandezas conformes à lei do dígito mais significativo. Alguns dos trabalhosmais recentes na área foram o de Alexopoulos e Leontsinis (ALEXOPOULOS; LEONTSINIS,2014) que afirmam que as distâncias das galáxias e de estrelas seguem a NB-Lei e de Hill eFox (HILL; FOX, 2016) que com base na descoberta de Alexopoulos, na Lei de Hubble e naspropriedades matemáticas da NB-Lei definiram uma nova lei chamada de lei da distância dasgaláxias. Thomas Hair (HAIR, 2014) e poucos anos depois Shukla et al. (Shukla; Pandey;Pathak, 2016) descobriram que grandezas obtidas de dados da exploração de exoplanetas sãoconformes à lei de Newcomb-Benford. Maiores informações sobre essas publicações e demaissobre o uso da NB-Lei nas ciências astronômicas podem ser encontradas no capítulo 2.

Page 49: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.2. METODOLOGIA ADOTADA 48

4.2 Metodologia adotada

Neste trabalho foram testados um total de 16 bases de objetos contendo dados reais dediversas áreas das ciências astronômicas. Os catálogos consultados foram: NASA/IPAC, Extra

Galactic Objects (NED) (SCHMITZ et al., 2012); Video Meteor Database (VIDEO METEORDATABASE, 2015); Observable Comets, Minor Planet Center (MINOR PLANET CENTER,2015); Globular Clusters in the Milky Way (HARRIS, 1997); Moons of Solar System (NASA,2015a); Lunar Crater Data (LOLA) ((HEAD et al., 2010), (KADISH et al., 2011)); Lunar Impact

Crater Database (LOSIAK et al., 2015); Lunar Orbital Data Explorer (ODE) (NASA, 2015b);Mercury Orbital Data Explorer (NASA, 2015c); Venus Orbital Data Explorer (NASA, 2015d);Near Earth Objects Dicovery Statistics (NEO, 2014); Gazetteer of planetary nomenclature

(GAZETTEER, 2014); NASA Exoplanet Archive (AKESON et al., 2013); Catalog of Optically

Visible Open Clusters and Candidates (DIAS, 2009); Hipparcos Catalogue (PERRYMAN et al.,1997).

Além dos 16 catálogos contendo dados reais foi também testado um catálogo contendodados resultantes de simulações cosmológicas de formação de estruturas. Para isso se utilizou abase de dados simulados do projeto Millennium (LEMSON et al., 2006).

A partir de todos esses catálogos foram obtidas 219 grandezas, onde cada grandeza foitestada utilizando os métodos χ2 de Pearson, teste K-S baseado na FDE e qui-quadrado comestratégia de Bootstrapping, conforme foi demonstrado no capítulo 3 deste trabalho.

O método q-q embora seja o mais utilizado na literatura, nem sempre é o mais indicadopara todos os testes de conformidade à Nb-Lei. Em massas de dados com um número muitogrande de amostras, o teste χ2 poderá sofrer de excesso de poder podendo incorrer a falsosresultados de não conformidade. Mais informações sobre o problema de excesso de poder eutilização do método K-S estão também disponíveis no capítulo 3.

4.3 Resultados Obtidos

Nessa seção iremos exibir os resultados conformes obtidos em testes de grandezas as-tronômicas. Essa seção foi dividia em três partes. A primeira, contendo as gradezas cujosresultados dos testes foram conformes a NB-Lei, a segunda com as grandezas não conformes e aultima chamada de conjunto de fronteira onde colocamos as grandezas que não conseguimosdeterminar a sua conformidade.

Em cada parte teremos duas tabelas, a primeira contendo os resultados do testes K-S

Page 50: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 49

e q-q e a segunda tabela K-S e q-q com a estratégia de Bootstrapping. Além do resultado dostestes estatísticos em cada tabela iremos exibir o nome da base de dados, o nome da grandezaverificada e valores da quantidade de amostras utilizada em cada um dos testes comparando osmétodos utilizados.

Nas grandezas cujas quantidades de amostras são inferiores a quinhentas observações,utilizamos como comparativo ao K-S o q-q de Pearson, já em grandezas cuja quantidade deamostras eram superiores a quinhentas, devido à possibilidade de excesso de poder adotamoscomo comparativo ao K-S o método q-q com a estratégia de Bootstrapping.

4.3.1 Grandezas Conformes

Iremos exibir agora os resultados conformes a lei de Newcomb-Benford. Teremos nastabelas 4.1 e 4.2 grandezas cuja conformidade foi confirmada pelos testes de K-S, q-q e q-qcom a estratégia de Bootstrapping. Somando um total de 59 resultados conformes à lei deNewcomb-Benford.

Temos na tabela 4.1, grandezas conformes de acordo com os testes K-S e q-q, ondeobteve-se um total de 31 resultados conformes à NB-Lei.

Tabela 4.1: Grandezas conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continua).

Base Grandeza Amostras KS χ2

Video Meteor Database Quantidade de Meteo-ros observados por mês

194 0.062317 6.287640512

NASA Exoplanet Ar-chive

Período Orbital (UpperUnc. [dias]

1696 0.040684 14.42976812

NASA Exoplanet Ar-chive

Excentricidade 707 0.043867 3.744642455

NASA Exoplanet Ar-chive

Excentricidade (UpperUnc.)

653 0.073507 15.02015873

NASA Exoplanet Ar-chive

Massa do Pla-neta[Massa de Júpiter]

560 0.056413 12.32975415

NASA Exoplanet Ar-chive

Massa do Planeta (Up-per Unc.) [Massa de Jú-piter]

472 0.059322 11.48154221

Page 51: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 50

Tabela 4.1: Grandezas conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

NASA Exoplanet Ar-chive

Massa do Planeta(Lower Unc.) [Massade Júpiter]

472 0.067797 13.42739234

NASA Exoplanet Ar-chive

Massa mínima deum planeta medidapela velocidade radial.(Msin(i)) [Massa deJúpiter]

506 0.035594 9.560202279

NASA Exoplanet Ar-chive

Massa mínima de umplaneta medida pela ve-locidade radial. (Msin(i)Upper Unc.) [Massa deJúpiter]

402 0.054726 6.22585376

NASA Exoplanet Ar-chive

Massa mínima de umplaneta medida pela ve-locidade radial. (Msin(i)Lower Unc.) [Massa deJúpiter]

402 0.049786 6.504953872

NASA Exoplanet Ar-chive

Densidade do Planeta(Upper Unc.) [gcm3]

314 0.046104 8.448684168

NASA Exoplanet Ar-chive

Densidade do Planeta(Lower Unc.) [gcm3]

314 0.045023 3.549864709

NASA Exoplanet Ar-chive

Inclinação (Upper Unc.)[graus]

368 0.048313 7.687666235

NASA Exoplanet Ar-chive

Inclinação (Lower Unc.)[graus]

374 0.053476 6.679850725

NASA Exoplanet Ar-chive

Tempo do Periastro (Up-per Unc.) [dias]

469 0.042644 10.50358848

NASA Exoplanet Ar-chive

Tempo do Periastro(Lower Unc.) [dias]

469 0.042644 8.291706741

NASA Exoplanet Ar-chive

Longitude do Periastro(Upper Unc.) [graus]

573 0.041885 14.28908691

NASA Exoplanet Ar-chive

Longitude do Periastro(Lower Unc.) [graus]

571 0.043783 10.10937793

Page 52: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 51

Tabela 4.1: Grandezas conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

NASA Exoplanet Ar-chive

Amplitude da Veloci-dade Radial [m/s]

673 0.035994 8.542023255

NASA Exoplanet Ar-chive

Amplitude da Veloci-dade Radial (LowerUnc.) [m/s]

659 0.072146 14.95276957

NASA Exoplanet Ar-chive

Temperatura de Equilí-brio (Upper Unc.) [K]

239 0.075537 12.24630063

NASA Exoplanet Ar-chive

Massa do Planeta (Up-per Unc.) [Massa daTerra]

472 0.059746 10.79365682

NASA Exoplanet Ar-chive

Massa mínima de umplaneta medida pelavelocidade radial. (Msin(i)) [Massa daTerra]

506 0.053457 9.261035032

NASA Exoplanet Ar-chive

Massa mínima de umplaneta medida pela ve-locidade radial. (Msin(i)Upper Unc.) [Massa daTerra]

402 0.057274 12.2780593

NASA Exoplanet Ar-chive

Movimento Próprio(RA) [masyr]

872 0.050015 13.9672206

Lunar Impact Crater Da-tabase

Espessura do materialejetado à uma distânciade 10 mil metros alémda borda [m], equação09 de Pike

8716 0.014141 8.58059227

Lunar Impact Crater Da-tabase

Espessura do materialejetado à uma distânciade 10 mil metros alémda borda [m], equação12 de Pike

8716 0.011709 8.850560368

Globular Clusters in theMilky Way

Latitude galáctica (emgraus) (GLAT deg)

147 0.036105 8.757947442

Page 53: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 52

Tabela 4.1: Grandezas conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

Globular Clusters in theMilky Way

Altura do aglomeradocom relação ao plano ga-láctico (em kpc) (z kpc)

144 0.07397 5.972309738

Globular Clusters in theMilky Way

Velocidade radial heli-ocêntrica (em km/s)(Vrkm/s)

126 0.087405 4.204123636

Globular Clusters in theMilky Way

Raio do core do aglo-merado (em minutos dearco)(Rc arcmin)

141 0.061062 11.46407988

Na tabela 4.2 abaixo são encontrados os resultados dos testes de grandezas astronômicasutilizando o métodos K-S e o qui-quadrado com bootstrap. Comparando os dois obtivemos umtotal de 28 novos resultados conformes que foram ditos não conformes a NB-Lei pelo q-q dePearson. Note que, para ambos os casos, o teste K-S obteve valores de sua estatística inferiores a0,1 assegurando a conformidade.

Tabela 4.2: Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continua)

.

Base Grandeza Amostras KS Bootstrap DP

Millennium Data-base

Taxa de formação deestrelas

3228 0,026221 9,241501 4,375166

NASA ExoplanetArchive

Período Orbital(Lower Unc). [dias]

1696 0,041274 10,50836 4,853206

NASA ExoplanetArchive

Maior Semi Eixo or-bital

1719 0,05478 13,03265 5,533274

NASA ExoplanetArchive

Maior Semi Eixo or-bital (Upper Unc.)[UA]

823 0,087485 14,14534 4,574462

NASA ExoplanetArchive

Maior Semi Eixo or-bital (Lower Unc.)[UA]

822 0,082725 15,10433 4,868793

Page 54: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 53

Tabela 4.2: Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

NASA ExoplanetArchive

Raio do Planeta (Up-per Unc.) [Raio deJúpiter]

1221 0,05835 13,3229 5,217034

NASA ExoplanetArchive

Distância (UpperUnc.) [pc]

825 0,095778 14,01759 4,379438

NASA ExoplanetArchive

Amplitude da Velo-cidade Radial (Up-per Unc.) [m/s]

659 0,070377 14,33413 3,123189

NASA ExoplanetArchive

Raio do Planeta (Up-per Unc.) [Raio daTerra]

1221 0,049737 12,59823 4,909634

NASA ExoplanetArchive

Raio do Planeta(Lower Unc.) [Raioda Terra]

1219 0,061122 14,82011 5,618969

NASA ExoplanetArchive

Movimento Próprio(Dec) [masyr]

887 0,03772 13,03336 4,800185

Catalog of OpticallyVisible Open Clus-ters and Candidates

Diâmetro FísicoCalculado Aglome-rados Abertos

2033 0,040035 12,33079 5,242456

Lunar Impact CraterDatabase

Diâmetro Craterasde Impacto Lunares

8716 0,042972 12,98124 6,044334

Lunar Impact CraterDatabase

Raio Crateras de Im-pacto Lunares KM

8716 0,035745 11,34898 5,292271

Lunar Impact CraterDatabase

Diâmetro AparenteCrateras de ImpactoLunares

8716 0,043047 14,36394 6,326425

Lunar Impact CraterDatabase

Espessura do mate-rial ejetado à umadistância de 10 milmetros além daborda [m], eq. 10Pike

8716 0,015916 8,58919 4,253521

Lunar Impact CraterDatabase

Distância radial dematerial ejetado con-tínuo [km]

8582 0,045996 12,38598 5,868714

Page 55: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 54

Tabela 4.2: Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

Lunar Impact CraterDatabase

Distância radial dematerial ejetado con-tínuo [km]

8656 0,041944 12,31052 5,899639

Lunar Impact CraterDatabase

Raio do manto dematerial ejetadocom espessuramaior que 10m [km]

8716 0,028061 11,65936 5,480793

Lunar Impact CraterDatabase

Raio do manto dematerial ejetadocom espessuramaior que 10m [km]- valor minimo

8716 0,037113 10,01375 4,671689

Lunar Impact CraterDatabase

Raio do manto dematerial ejetadocom espessuramaior que 10m [km]- Melhor estimativa

8716 0.04597 9.451345 4.612785

Lunar Impact CraterDatabase

Raio do halo-escuropor radar ( radar-dark halo) [km]

8716 0,020389 8,72259 4,204406

Lunar Impact CraterDatabase

Volume Derretido[km3̂]

8716 0.034663 14.43471 6.183863

Lunar Impact CraterDatabase

Volume derretido,45° em basalto[km3̂]

8716 0,043436 12,30459 5,689255

Lunar Impact CraterDatabase

Volume Derretido,45° em Anortosito[km3̂]

8716 0,03672 14,45915 6,185416

Hipparcos Catalo-gue

pmRA (componentedo movimento pró-prio da estrela na di-reção do eixo de co-ordenadas de ascen-são reta)

117923 0,015395 8,240126 4,055139

Page 56: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 55

Tabela 4.2: Grandezas conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

Hipparcos Catalo-gue

pmDE (componentedo movimento pró-prio da estrela na di-reção do eixo de co-ordenadas de decli-nação)

117923 0,01414 8,178882 4,034364

Hipparcos Catalo-gue

Movimento PróprioTOTAL (PM)

117955 0,023807 9,286517 4,530922

Page 57: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 56

4.3.2 Grandezas não Conformes

Iremos agora exibir uma vasta lista contendo 119 grandezas que obtiveram resultadosnegativos em nossos testes de conformidade. Como os demais testes, esses também foramdivididos em duas tabelas: tabela 4.3 e tabela 4.4.

Na tabela 4.3 abaixo temos os resultados do K-S e q-q. Note que tanto o q-q obteveresultados acima do limiar de 15,51 para p-valor de 5% com 8 graus de liberdade, quanto o K-Sobteve valores acima de 0,1 caracterizando em ambos os casos a não conformidade.

Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continua).

Base Grandeza Amostras KS χ2

Observable Comets, Mi-nor Planet Center

Período Orbital de Co-metas

550 0,30244 310,6224

Moons of Solar System Diâmetro médio dasluas do sistema solar

146 0,120957 25,39522

Moons of Solar System Comprimento da órbitadas luas do sistema solar

146 0,309712 58,24812

Moons of Solar System Período Orbital das luasdo sistema solar

146 0,254298 82,568

Moons of Solar System Densidade das Luas dosistema solar

143 0,410201 122,4724

Moons of Solar System Período Orbital das luasdo sistema solar

146 0,234058 76,93555

Moons of Solar System Raio médio das luas dosistema solar

146 0,173564 19,06041

Lunar Crater Data(LOLA)

Diâmetro das Craterasda Lua

5185 0,250423 2775,415

Mercury Orbital DataExplorer

Diâmetro das Craterasde Mercúrio

377 0,138536 56,91901

Moons of Solar System Circunferência Orbitaldas Luas do Sistema So-lar

143 0,349654 56,95373

Moons of Solar System Velocidade Média Orbi-tal das Luas do SistemaSolar

145 0,267638 124,302

Page 58: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 57

Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

Moons of Solar System Circunferência Equato-rial das Luas do SistemaSolar

142 0,131423 34,42877

Gazetteer of planetarynomenclature

Diâmetro das Craterasda Lua 0_6KM

1569 0,146018 152,0949

Millennium Database Raio do disco Galático 4000 0,105316 429,5699Millennium Database Velocidade de ro-

tação máxima dosubhalo_galáxia

4000 0,42503 3547,503

Millennium Database Massa da Galáxia emGás frio

4000 0,118802 227,0403

NASA Exoplanet Ar-chive

Número de Planetas noSistema Solar

1887 0,399023 718,4525

NASA Exoplanet Ar-chive

Raio do Planeta [Raiode Júpiter]

1265 0,325392 541,3212

NASA Exoplanet Ar-chive

Inclinação [graus] 399 0,850008 5517,882

NASA Exoplanet Ar-chive

RA(ascensão reta)[graus decimais]

1887 0,366688 3557,717

NASA Exoplanet Ar-chive

Dec(declinação) [Grausdecimais]

1887 0,324963 3971,216

NASA Exoplanet Ar-chive

Distância (Lower Unc.)[pc]

825 0,113774 31,53947

NASA Exoplanet Ar-chive

V-band (Johnson) [mag] 787 0,308607 698,4393

NASA Exoplanet Ar-chive

V-band (Johnson) Unc.[mag]

434 0,410952 267,0848

NASA Exoplanet Ar-chive

Temperatura Efetiva [K] 1648 0,554978 6300,068

NASA Exoplanet Ar-chive

Temperatura Efetiva(Upper Unc.) [K]

1553 0,312621 331,4658

NASA Exoplanet Ar-chive

Temperatura Efetiva(Lower Unc.) [K]

1457 0,320796 323,5449

Page 59: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 58

Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

NASA Exoplanet Ar-chive

Massa Estelar [MassaSolar]

1473 0,246268 1214,507

NASA Exoplanet Ar-chive

Massa Estelar (LowerUnc.) [Massa Solar]

808 0,107673 82,39633

NASA Exoplanet Ar-chive

Raio Estelar [Raio So-lar]

1523 0,205282 895,7433

NASA Exoplanet Ar-chive

Raio Estelar (UpperUnc.) [Raio Solar]

1460 0,154455 365,1455

NASA Exoplanet Ar-chive

Raio Estelar (LowerUnc.) [Raio Solar]

1364 0,155869 359,8561

NASA Exoplanet Ar-chive

Tempo do Periastro[dias]

487 0,604764 2278,631

NASA Exoplanet Ar-chive

Longitude do Periastro[graus]

607 0,208113 132,5906

NASA Exoplanet Ar-chive

Temperatura de Equilí-brio [K]

272 0,266495 91,81758

NASA Exoplanet Ar-chive

Temperatura de Equilí-brio (Lower Unc.) [K]

239 0,121562 22,40771

NASA Exoplanet Ar-chive

Raio do Planeta [Raioda Terra]

1265 0,318565 520,2279

NASA Exoplanet Ar-chive

Raio do Planeta [RaioSolar]

1265 0,33523 552,8969

NASA Exoplanet Ar-chive

Profundidade do Tran-sito [porcentagem]

224 0,146457 63,23936

NASA Exoplanet Ar-chive

Duração do Trânsito[dias]

1027 0,259107 401,4442

NASA Exoplanet Ar-chive

Ponto no centro do Trân-sito (Midpoint) [dias]

1170 0,605299 5474,33

NASA Exoplanet Ar-chive

Parâmetro de Impacto 1021 0,155868 150,5453

NASA Exoplanet Ar-chive

Razão entre à Distânciae o Raio estelar

280 0,121732 33,26618

NASA Exoplanet Ar-chive

RA(Ascensão reta) [hrs] 1887 0,479717 2045,39

Page 60: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 59

Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

NASA Exoplanet Ar-chive

Latitude Galática[graus]

1887 0,218965 463,5331

NASA Exoplanet Ar-chive

Longitude galática[graus]

1887 0,420536 5498,947

NASA Exoplanet Ar-chive

Longitude da Eclíptica[graus]

1887 0,371847 3249,217

NASA Exoplanet Ar-chive

Latitude da Eclíptica[graus]

1887 0,413873 5506,669

NASA Exoplanet Ar-chive

Paralaxe [mas] 526 0,124887 50,02277

NASA Exoplanet Ar-chive

Movimento Próprio(RA) (Unc.) [masyr]

546 0,414928 448,6062

NASA Exoplanet Ar-chive

Movimento Próprio(Dec) (Unc.) [masyr]

546 0,400276 430,4538

NASA Exoplanet Ar-chive

Movimento Próprio To-tal [masyr]

887 0,100481 41,32161

NASA Exoplanet Ar-chive

Movimento Próprio To-tal (Unc.) [masyr]

546 0,456953 455,4473

NASA Exoplanet Ar-chive

Gravidade SuperficialEstelar [log10(cms2)]

1493 0,519621 11178,98

NASA Exoplanet Ar-chive

Metalicidade Estelar[dex]

1496 0,135633 109,7733

NASA Exoplanet Ar-chive

Idade Estelar [Gyr] 601 0,119636 67,46741

NASA Exoplanet Ar-chive

Velocidade Rotacional(Vsin(i)) [km/s]

821 0,143905 65,64895

NASA Exoplanet Ar-chive

Atividade Estelar (S-index)

224 0,462691 226,7719

NASA Exoplanet Ar-chive

Atividade Estelarlog(RHK)

163 0,640481 863,0739

NASA Exoplanet Ar-chive

Atividade X-raylog(Lsubxsub)

83 0,509097 377,1569

NASA Exoplanet Ar-chive

U-band (Johnson)[mag]

121 0,317636 152,6036

Page 61: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 60

Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

NASA Exoplanet Ar-chive

B-band (Johnson) [mag] 641 0,40339 874,9632

NASA Exoplanet Ar-chive

R-band (Cousins) [mag] 121 0,286509 57,82013

NASA Exoplanet Ar-chive

I-band (Cousins) [mag] 129 0,328649 75,32785

NASA Exoplanet Ar-chive

J-band (2MASS) [mag] 1838 0,46477 1346,055

NASA Exoplanet Ar-chive

H-band (2MASS) [mag] 1841 0,457804 1225,452

NASA Exoplanet Ar-chive

Ks-band (2MASS)[mag]

1838 0,458686 1196,346

NASA Exoplanet Ar-chive

WISE 3.4um [mag] 1797 0,456315 1197,931

NASA Exoplanet Ar-chive

WISE 4.6um [mag] 1797 0,459021 1156,074

NASA Exoplanet Ar-chive

WISE 12.um [mag] 1797 0,490247 1152,143

NASA Exoplanet Ar-chive

WISE 22.um [mag] 1797 0,614448 8844,385

NASA Exoplanet Ar-chive

IRAC 3.6um [mag] 11 0,603608 29,60127

NASA Exoplanet Ar-chive

IRAC 4.5um [mag] 11 0,60536 29,60127

NASA Exoplanet Ar-chive

IRAC 8.0um [mag] 11 0,605535 29,60127

NASA Exoplanet Ar-chive

MIPS 24um [mag] 115 0,382835 156,1258

NASA Exoplanet Ar-chive

MIPS 70um [mag] 115 0,320078 133,2557

NASA Exoplanet Ar-chive

MIPS 160um [mag] 13 0,237705 25,4017

NASA Exoplanet Ar-chive

IRAS 12um Flux [Jy] 202 0,247859 264,5423

Page 62: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 61

Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

NASA Exoplanet Ar-chive

IRAS 25um Flux [Jy] 202 0,353891 503,8794

NASA Exoplanet Ar-chive

IRAS 60um Flux [Jy] 202 0,71844 292,8125

NASA Exoplanet Ar-chive

IRAS 100um Flux [Jy] 202 0,331505 1132,465

NASA Exoplanet Ar-chive

Número de medidas Fo-tométricas

1854 0,558834 2230,554

NASA Exoplanet Ar-chive

B-V (Johnson) [mag] 592 0,425476 608,7591

NASA Exoplanet Ar-chive

V-I (Johnson-Cousins)[mag]

115 0,278865 94,75198

NASA Exoplanet Ar-chive

V-R (Johnson-Cousins)[mag]

99 0,277501 66,60933

NASA Exoplanet Ar-chive

J-H (2MASS) [mag] 1836 0,284144 1395,816

NASA Exoplanet Ar-chive

H-Ks (2MASS) [mag] 1833 0,139187 288,5587

NASA Exoplanet Ar-chive

J-Ks (2MASS) [mag] 1836 0,365138 1389,623

NASA Exoplanet Ar-chive

b-y (Stromgren) [mag] 278 0,49978 686,0472

NASA Exoplanet Ar-chive

m1 (Stromgren) [mag] 278 0,24543 163,8371

NASA Exoplanet Ar-chive

c1 (Stromgren) [mag] 278 0,381156 645,7483

NASA Exoplanet Ar-chive

Número de medições decor

1839 0,448834 7531,75

Catalog of Optically Vi-sible Open Clusters andCandidates

Distância Aglomera-dos_Parsercs

2038 0,133906 137,5599

Catalog of Optically Vi-sible Open Clusters andCandidates

Log10 Idade dos Aglo-merados

2011 0,796682 11125,73

Page 63: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 62

Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

Lunar Crater Data(LOLA) Base Grande

Diâmetro Crateras Lu-nares

5185 0,250423 2775,415

Lunar Impact Crater Da-tabase

Profundidade Borda As-soalho[km]

8672 0,234131 4645,396

Lunar Impact Crater Da-tabase

Profundidade Aparente[km]

8716 0,338696 4985,563

Lunar Impact Crater Da-tabase

Altura da borda [km] 8683 0,145317 1521,175

Lunar Impact Crater Da-tabase

Diâmetro máximo dosblocos ejetados [km]

8433 0,115627 466,5324

Lunar Impact Crater Da-tabase

Diâmetro máximo dosblocos ejetados [km]

8433 0,110946 528,2252

Lunar Impact Crater Da-tabase

Espessura do materialejetado à uma distânciade um raio [m]

8716 0,314037 3562,155

Lunar Impact Crater Da-tabase

Espessura do materialejetado à uma distânciade dois raios[m]

8716 0,273919 2606,001

Lunar Impact Crater Da-tabase

Espessura do materialejetado à uma distânciade três raios [m]

8716 0,298737 3117,157

Lunar Impact Crater Da-tabase

Espessura do materialejetado à uma distânciade quatro raios [m]

8716 0,220951 2621,736

Lunar Impact Crater Da-tabase

Espessura do materialejetado à uma distânciade cinco raios [m]

8716 0,25147 3196,605

Lunar Impact Crater Da-tabase

Profundidade de Escava-ção [km]

2595 0,401028 2027,426

Lunar Impact Crater Da-tabase

Profundidade do derreti-mento [km]

2595 0,190046 301,8503

Hipparcos Catalogue Rarad ( Ascensão Retaem Radianos)

117955 0,249759 31897,04

Page 64: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 63

Tabela 4.3: Grandezas não conformes - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

Hipparcos Catalogue Derad ( Declinação emRadianos)

117955 0,156767 25001,13

Hipparcos Catalogue Vmag (magnitude apa-rente na banda V)

117955 0,646636 399495,7

Hipparcos Catalogue B-V (índice de cor B-V) 116631 0,132705 17476,27NED Velocidade_KM_s 544 0,143537 64,76825NED Red Shift_z 549 0,121575 76,41008Globular Clusters in theMilky Way

Longitude galáctica (emgraus) (GLON deg)

147 0,207742 158,4974

Globular Clusters in theMilky Way

Distância do aglome-rado (em kpc) (Rsunkpc)

145 0,247616 73,54429

Globular Clusters in theMilky Way

Magnitude V aparente(V mag)

146 0,380732 171,0616

Globular Clusters in theMilky Way

Índice de cor (B-V) ((B-V)t mag)

117 0,319 107,2786

Globular Clusters in theMilky Way

Metalicidade na forma[Fe/H] ([Fe/H] Sun)

139 0,381172 87,03499

Globular Clusters in theMilky Way

Raio half-mass (em mi-nutos de arco)(Rh arc-min)

141 0,125329 17,89323

A seguir, na tabela 4.4, observamos diversas grandezas que obtiveram resultado nãoconforme, tanto para o K-S quanto para o q-q com bootstrap. Independente do número deamostra de cada grandeza todos os resultados obtiveram valores das estatísticas do K-S e q-qcom bootstrap superiores a 0,1 e 15,51 respectivamente constatando a não conformidade.

Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continua)

.

Base Grandeza Amostras KS Bootstrap DP

Observable Comets,Minor Planet Center

Período Orbital deCometas

550 0,30244 283,31 10,82002

Page 65: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 64

Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

Lunar Crater Data(LOLA)

Diâmetro das Crate-ras da Lua

5185 0,250423 273,8138 25,38603

Gazetteer of plane-tary nomenclature

Diâmetro das Crate-ras da Lua 0_6KM

1569 0,146018 54,67902 12,05579

Millennium Data-base

Raio do disco Galá-tico

4000 0,105316 60,05091 13,43076

Millennium Data-base

Velocidade de ro-tação máxima dosubhalo_galáxia

4000 0,42503 453,6507 38,11119

Millennium Data-base

Massa da Galáxiaem Gás frio

4000 0,118802 36,02857 10,75414

NASA ExoplanetArchive

Número de Planetasno Sistema Solar

1887 0,399023 193,814 15,69361

NASA ExoplanetArchive

Raio do Planeta[Raio de Júpiter]

1265 0,325392 216,991 17,71885

NASA ExoplanetArchive

Inclinação [graus] 399 0,850008 0 0

NASA ExoplanetArchive

RA(ascensão reta)[graus decimais]

1887 0.366688 945,1073 62,30095

NASA ExoplanetArchive

Dec(declinação)[Graus decimais]

1887 0,324963 1057,675 88,8527

NASA ExoplanetArchive

Distância (LowerUnc.) [pc]

825 0,113774 21,9188 5,501215

NASA ExoplanetArchive

V-band (Johnson)[mag]

787 0,308607 447,5229 28,0621

NASA ExoplanetArchive

V-band (Johnson)Unc. [mag]

434 0,410952 0 0

NASA ExoplanetArchive

Temperatura Efetiva[K]

1648 0,554978 1917,408 90,92056

NASA ExoplanetArchive

Temperatura Efetiva(Upper Unc.) [K]

1553 0,312621 111,1018 12,3242

NASA ExoplanetArchive

Temperatura Efetiva(Lower Unc.) [K]

1457 0,320796 115,3519 12,85977

NASA ExoplanetArchive

Massa Estelar[Massa Solar]

1473 0,246268 418,3178 37,37018

Page 66: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 65

Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

NASA ExoplanetArchive

Massa Estelar(Lower Unc.)[Massa Solar]

808 0,107673 54,2505 9,721063

NASA ExoplanetArchive

Raio Estelar [RaioSolar]

1523 0,205282 299,9709 22,99968

NASA ExoplanetArchive

Raio Estelar (UpperUnc.) [Raio Solar]

1460 0,154455 130,1808 17,84639

NASA ExoplanetArchive

Raio Estelar (LowerUnc.) [Raio Solar]

1364 0,155869 136,712 17,94094

NASA ExoplanetArchive

Longitude do Perias-tro [graus]

607 0,208113 110,2609 8,368143

NASA ExoplanetArchive

Raio do Planeta[Raio da Terra]

1265 0,318565 208,1491 16,53485

NASA ExoplanetArchive

Raio do Planeta [Ra-dio Solar]

1265 0,33523 221,547 17,17443

NASA ExoplanetArchive

Duração do Trânsito[dias]

1027 0,259107 198,5497 17,28431

NASA ExoplanetArchive

Ponto no centro doTrâsito (Midpoint)[dias]

1170 0,605299 2339,457 0

NASA ExoplanetArchive

Parâmetro de Im-pacto

1021 0,155868 78,84239 12,39439

NASA ExoplanetArchive

RA(Ascensão reta)[hrs]

1887 0,479717 543,9036 34,95606

NASA ExoplanetArchive

Latitude Galática[graus]

1887 0,218965 127,9026 19,57133

NASA ExoplanetArchive

Longitude galática[graus]

1887 0,420536 1465,331 129,8327

NASA ExoplanetArchive

Longitude da Eclíp-tica [graus]

1887 0,371847 864,3006 64,367

NASA ExoplanetArchive

Latitude da Eclíptica[graus]

1887 0,413873 1463,66 123,5308

NASA ExoplanetArchive

Paralaxe [mas] 526 0,124887 47,89423 3,004097

Page 67: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 66

Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

NASA ExoplanetArchive

Movimento Próprio(RA) (Unc.) [masyr]

546 0,414928 411,1812 8,958913

NASA ExoplanetArchive

Movimento Pró-prio (Dec) (Unc.)[masyr]

546 0,400276 394,647 8,747621

NASA ExoplanetArchive

Movimento PróprioTotal [masyr]

887 0,100481 26,57956 6,456167

NASA ExoplanetArchive

Movimento PróprioTotal (Unc.) [masyr]

546 0,456953 417,5163 9,811245

NASA ExoplanetArchive

Gravidade Su-perficial Estelar[log10(cms2)]

1493 0,519621 3743,918 97,29363

NASA ExoplanetArchive

Metalicidade Estelar[dex]

1496 0,135633 41,13113 8,652411

NASA ExoplanetArchive

Idade Estelar [Gyr] 601 0,119636 57,66594 6,063293

NASA ExoplanetArchive

Velocidade Rotacio-nal (Vsin(i)) [km/s]

821 0,143905 42,80121 6,968376

NASA ExoplanetArchive

B-band (Johnson)[mag]

641 0,40339 684,1139 32,98144

NASA ExoplanetArchive

J-band (2MASS)[mag]

1838 0,46477 370,2764 24,35658

NASA ExoplanetArchive

H-band (2MASS)[mag]

1841 0,457804 337,0099 24,12903

NASA ExoplanetArchive

Ks-band (2MASS)[mag]

1838 0,458686 330,3141 24,13955

NASA ExoplanetArchive

WISE 3.4um [mag] 1797 0,456315 337,547 23,19863

NASA ExoplanetArchive

WISE 4.6um [mag] 1797 0,459021 325,979 23,59466

NASA ExoplanetArchive

WISE 12.um [mag] 1797 0,490247 325,1596 23,02348

NASA ExoplanetArchive

WISE 22.um [mag] 1797 0,614448 2469,805 152,6908

Page 68: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 67

Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

NASA ExoplanetArchive

Número de medidasFotométricas

1854 0,558834 604,1753 31,63671

NASA ExoplanetArchive

B-V (Johnson)[mag]

592 0,425476 516,1607 16,44617

NASA ExoplanetArchive

V-I (Johnson-Cousins) [mag]

115 0,278865 0 0

NASA ExoplanetArchive

V-R (Johnson-Cousins) [mag]

99 0,277501 0 0

NASA ExoplanetArchive

J-H (2MASS) [mag] 1836 0,284144 385,148 23,56934

NASA ExoplanetArchive

H-Ks (2MASS)[mag]

1833 0,139187 85,54042 16,00493

NASA ExoplanetArchive

J-Ks (2MASS)[mag]

1836 0,365138 385,0142 26,49194

NASA ExoplanetArchive

Número de medi-ções de cor

1839 0,448834 2053,983 133,7473

Catalog of OpticallyVisible Open Clus-ters and Candidates

Distância Aglomera-dos_Parsercs

2038 0,133906 38,68193 9,725788

Catalog of OpticallyVisible Open Clus-ters and Candidates

Log10 Idade dosAglomerados

2011 0,796682 2774,039 115,5005

Lunar Crater Data(LOLA) BaseGrande

Diâmetro CraterasLunares

5185 0,250423 274,5296 25,73335

Lunar Impact CraterDatabase

Profundidade BordaAssoalho[km]

8672 0,234131 273,4659 34,25277

Lunar Impact CraterDatabase

Profundidade Apa-rente [km]

8716 0,338696 290,6943 28,76751

Lunar Impact CraterDatabase

Altura da borda[km]

8683 0,145317 96,34001 21,44351

Lunar Impact CraterDatabase

Diâmetro máximodos blocos ejetados[km]

8433 0,115627 36,20686 11,15582

Page 69: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 68

Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

Lunar Impact CraterDatabase

Diâmetro máximodos blocos ejetados[km]

8433 0,110946 37,987 10,2876

Lunar Impact CraterDatabase

Espessura do mate-rial ejetado à umadistância de um raio[m]

8716 0,314037 208,5848 22,3191

Lunar Impact CraterDatabase

Espessura do mate-rial ejetado à umadistância de doisraios[m]

8716 0,273919 154,4355 17,30737

Lunar Impact CraterDatabase

Espessura do mate-rial ejetado à umadistância de trêsraios [m]

8716 0,298737 188,5387 25,27586

Lunar Impact CraterDatabase

Espessura do mate-rial ejetado à umadistância de quatroraios [m]

8716 0,220951 155,8415 20,78267

Lunar Impact CraterDatabase

Espessura do mate-rial ejetado à umadistância de cincoraios [m]

8716 0,25147 189,8349 23,05679

Lunar Impact CraterDatabase

Profundidade de Es-cavação [km]

2595 0,401028 397,171 33,48693

Lunar Impact CraterDatabase

Profundidade do der-retimento [km]

2595 0,190046 65,34026 13,44662

Hipparcos Catalo-gue

Rarad ( AscensãoReta em Radianos)

117955 0,249759 141,6703 21,55003

Hipparcos Catalo-gue

Derad ( Declinaçãoem Radianos)

117955 0,156767 114,5995 20,16144

Hipparcos Catalo-gue

Vmag (magnitudeaparente na bandaV)

117955 0,646636 1708,111 103,032

Page 70: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 69

Tabela 4.4: Grandezas não conformes - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

Hipparcos Catalo-gue

B-V (índice de corB-V)

116631 0,132705 83,1028 14,90356

NED Velocidade_KM_s 544 0,143537 60,05688 4,4276NED Red Shift_z 549 0,121575 70,4145 5,609255

4.3.3 Conjunto de Fronteira

Nas tabelas 4.5 e 4.6 a seguir teremos as grandezas cujo resultados dos testes foraminconclusivos para a conformidade. Ou seja, os testes discordam em seus resultados fazendocom que não possamos dizer se uma determinada grandeza é conforme ou não.

Assim como nos demais testes usamos como parâmetros para comparação com o K-Spara grandezas com número de até 500 amostras o q-q e para grandezas com número acima de500 amostras o q-q associado a estratégia de Boostrapping deixando qui-quadrado, assim comoo K-S, imune ao excesso de poder. Na tabela 4.5 temos os resultados do K-S e q-q

Tabela 4.5: Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continua).

Base Grandeza Amostras KS χ2

Moons of Solar System Volume das luas do Sis-tema Solar

142 0,131411 8,701966

Moons of Solar System Massa das luas do sis-tema solar

126 0,081398 23,92026

Near Earth Objects Di-covery Statistics

Qtd de asteoides próxi-mos a Terra

40 0,198746 6,138568

Venus Orbital Data Ex-plorer

Diâmetro das Craterasde Venus

896 0,072254 28,32858

Millennium Database Massa Galática Estrelas 3849 0,055785 154,5944Millennium Database A idade da galaxia po-

denrada pela massa3849 0,089433 152,0807

NASA Exoplanet Ar-chive

Período Orbital de Exo-planetas

1828 0,037713 36,05128

Page 71: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 70

Tabela 4.5: Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

NASA Exoplanet Ar-chive

Excentricidade (LowerUnc.)

649 0,079718 23,20807

NASA Exoplanet Ar-chive

Raio do Planeta (LowerUnc.) [Raio de Júpiter]

1219 0,072117 26,90565

NASA Exoplanet Ar-chive

Distância [pc] 919 0,079748 42,09789

NASA Exoplanet Ar-chive

Massa Estelar (UpperUnc.) [Massa Solar]

906 0,096026 101,1626

NASA Exoplanet Ar-chive

Fluxo de Insolação[Fluxo da Terra]

21 0,205941 6,843109

NASA Exoplanet Ar-chive

Temperatura de Equi-líbrio (Upper Unc.)[Fluxo da Terra]

21 0,234868 9,200364

NASA Exoplanet Ar-chive

Temperatura de Equi-líbrio (Lower Unc.)[Fluxo da Terra]

21 0,271922 9,614199

NASA Exoplanet Ar-chive

Massa do Planeta[Massa da Terra]

560 0,046661 18,23328

NASA Exoplanet Ar-chive

Massa do Planeta(Lower Unc.) [Massada Terra]

472 0,057068 19,5233

NASA Exoplanet Ar-chive

Massa mínima de umplaneta medida pela ve-locidade radial. (Msin(i)Lower Unc.) [Massa daTerra]

402 0,064737 19,14303

NASA Exoplanet Ar-chive

Raio do Planeta (UpperUnc.) [Raio Solar]

1185 0,2 14,82117

NASA Exoplanet Ar-chive

Raio do Planeta (LowerUnc.) [Raio Solar]

1184 0,196791 14,90206

NASA Exoplanet Ar-chive

Razão entre os raios doplaneta e da estelar

342 0,098815 55,41308

NASA Exoplanet Ar-chive

Velocidade Radial[km/s]

657 0,068153 39,70853

Page 72: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 71

Tabela 4.5: Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

NASA Exoplanet Ar-chive

Luminosidade Estelar[log(Solar)]

454 0,067449 28,5029

NASA Exoplanet Ar-chive

Densidade Estelar[gcm3]

279 0,096355 18,63334

Catalog of Optically Vi-sible Open Clusters andCandidates

Diâmetros angularesaglomerados min arco

2161 0,087703 132,4707

Lunar Impact Crater Da-tabase

Diâmetro do Assoalho[km]

8565 0,039221 215,4372

Lunar Impact Crater Da-tabase

Profundidade da cavi-dade transiente [km]

8716 0,066024 702,0506

Lunar Impact Crater Da-tabase

Volume interior [km3̂] 7421 0,072662 172,6035

Lunar Impact Crater Da-tabase

Largura da parede late-ral (borda) [km]

8683 0,044977 385,0241

Lunar Impact Crater Da-tabase

Altura do Pico Central[km]

2994 0,094759 96,45422

Lunar Impact Crater Da-tabase

Diâmetro do Pico Cen-tral [km]

4003 0,081291 112,7422

Lunar Impact Crater Da-tabase

Área Basal do Pico Cen-tral [km2̂]

3955 0,097725 157,1243

Lunar Impact Crater Da-tabase

Espessura do materialejetado à uma distânciade 10 mil metros alémda borda [m], equação 4de Kring

8716 0,082829 240,6651

Lunar Impact Crater Da-tabase

Raio do manto de ma-terial ejetado com es-pessura maior que 10m[km] - valor máximo

8716 0,054626 373,0645

Lunar Impact Crater Da-tabase

Raio do halo brilhanteem crateras medido porradar [km]

8716 0,094474 406,8469

Page 73: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 72

Tabela 4.5: Conjunto de Fronteira - Testes K-S e q-q de Pearson de grandezasAstronômicas (Continuação).

Base Grandeza Amostras KS χ2

Lunar Impact Crater Da-tabase

Profundidade de Escava-ção [km]

8716 0,083028 345,2457

Lunar Impact Crater Da-tabase

Profundidade do derreti-mento[km]

8612 0,091201 330,726

Catalog of Optically Vi-sible Open Clusters andCandidates

Idade dos AglomeradosAbertos

2011 0,077966 149,2166

Hipparcos Catalogue Plx ( Paralaxe) 117916 0,057792 2137,985Hipparcos Catalogue Distância (Parsecs) 117955 0,060029 2006,455Hipparcos Catalogue Magnitude Absoluta

(MV)117955 0,062064 4555,069

Hipparcos Catalogue Velocidade transversal(Vt)

117955 0,041614 2294,529

Na tabela 4.6 temos os resultados do K-S e q-q com bootstrap.

Tabela 4.6: Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continua)

.

Base Grandeza Amostras KS Bootstrap DP

Venus Orbital DataExplorer

Diâmetro das Crate-ras de Venus

896 0,072254 19,07728 5,414291

Millennium Data-base

Massa Galática Es-trelas

3849 0,055785 26,57756 8,106679

Millennium Data-base

A idade da gala-xia podenrada pelamassa

3849 0,089433 27,60717 9,906319

NASA ExoplanetArchive

Orbital de Exoplane-tas

1828 0,037713 15,66839 6,554993

NASA ExoplanetArchive

Excentricidade(Lower Unc.)

649 0,079718 19,96871 4,477056

NASA ExoplanetArchive

Raio do Planeta(Lower Unc.) [Raiode Júpiter]

1219 0,072117 16,25308 5,826736

Page 74: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 73

Tabela 4.6: Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

NASA ExoplanetArchive

Distância Estelar[pc]

919 0,079748 26,62775 6,820378

NASA ExoplanetArchive

Massa Estelar (Up-per Unc.) [MassaSolar]

906 0,096026 59,7334 10,89893

NASA ExoplanetArchive

Massa do Planeta[Massa da Terra]

560 0,046661 17,13414 2,707656

NASA ExoplanetArchive

Raio do Planeta (Up-per Unc.) [Raio So-lar]

1185 0,2 10,78095 4,375401

NASA ExoplanetArchive

Raio do Planeta(Lower Unc.) [RaioSolar]

1184 0,196791 10,79085 4,293411

NASA ExoplanetArchive

Velocidade Radial[km/s]

657 0,068153 32,02871 5,204628

Catalog of OpticallyVisible Open Clus-ters and Candidates

Diâmetros angularesaglomerados minarco

2161 0,087703 36,87326 10,95202

Lunar Impact CraterDatabase

Diâmetro do Assoa-lho [km]

8565 0,039221 19,71765 6,623926

Lunar Impact CraterDatabase

Profundidade dacavidade transiente[km]

8716 0,066024 47,77677 8,565026

Lunar Impact CraterDatabase

Volume interior[km3̂]

7421 0,072662 19,38684 7,409698

Lunar Impact CraterDatabase

Largura da parede la-teral (borda) [km]

8683 0,044977 29,77364 8,557464

Lunar Impact CraterDataba

Altura do Pico Cen-tral [km]

2994 0,094759 22,84005 7,817368

Lunar Impact CraterDatabase

Diâmetro do PicoCentral [km]

4003 0,081291 21,24696 7,732169

Lunar Impact CraterDatabase

Área Basal do PicoCentral [km2̂]

3955 0,097725 27,28335 9,196944

Page 75: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 74

Tabela 4.6: Conjunto de Fronteira - Testes K-S e Qui-quadrado com Bootstrap degrandezas Astronômicas (Continuação)

.

Base Grandeza Amostras KS Bootstrap DP

Lunar Impact CraterDatabase

Espessura do mate-rial ejetado à umadistância de 10 milmetros além daborda [m], eq. 4Kring

8716 0,082829 20,7514 7,851069

Lunar Impact CraterDatabase

Raio do manto dematerial ejetadocom espessuramaior que 10m [km]- valor máximo

8716 0,054626 28,68176 10,55505

Lunar Impact CraterDatabase

Raio do halo bri-lhante em craterasmedido por radar[km]

8716 0,094474 31,19789 9,550077

Lunar Impact CraterDatabase

Profundidade de Es-cavação [km]

8716 0,083028 27,52716 9,110138

Lunar Impact CraterDatabase

Profundidade do der-retimento[km]

8612 0,091201 27,27382 8,866131

Catalog of OpticallyVisible Open Clus-ters and Candidates

Idade dos Aglomera-dos Abertos

2011 0,077966 42,53366 10,15966

Hipparcos Catalo-gue

Plx ( Paralaxe) 117916 0,057792 17,34037 7,289021

Hipparcos Catalo-gue

Distância (Parsecs) 117955 0,060029 15,80924 6,594009

Hipparcos Catalo-gue

Magnitude Absoluta(MV)

117955 0,062064 26,80659 9,591365

Hipparcos Catalo-gue

Velocidade transver-sal (Vt)

117955 0,041614 17,29274 7,231661

4.3.4 Análise dos Resultados

Como já foi dito, a busca por grandezas astronômicas conformes NB-Lei é algo muitorecente. Nos últimos anos têm surgido algumas descobertas na área.

Page 76: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 75

Dois dos mais recentes desses trabalhos foram o de Hair (HAIR, 2014) e o de Shuklae equipe (Shukla; Pandey; Pathak, 2016) sobre grandezas relacionadas a exoplanetas, tambémconhecidos como planetas extra solares. Ambos testaram a base com os dados obtidos atravéstelescópio espacial Kepler. Hair verificou em seu estudo que a massa dos exoplanetas seguema lei de Newcomb-Benford, resultado confirmado em seguida por Shukla e equipe que alémde confirmar a descoberta de Hair afirmam que também terem encontrados outras grandezasconformes pertencente ao mesmo tipo de objeto astronômico.

Shukla et al. além da confirmação da massa planetária, afirmam que o volume, a densi-dade, o maior semi-eixo orbital, o período orbital e a velocidade radial obtiveram um alto graude conformidade a NB-Lei. E que o movimento próprio total, idade estelar e distância estelarobtiveram um grau moderado de conformidade em seus testes. Tendo as grandezas longitude,raio, temperatura efetiva obtido resultados não conformes em seus testes.

Tanto Shukla quanto Hair((HAIR, 2014), (Shukla; Pandey; Pathak, 2016)) concluíramseus respectivos trabalhos sugerindo o uso do conhecimento da conformidade dessas grandezascomo futura ferramenta na identificação de novos exoplanetas, podendo esse ser usado para umaanálise na lista de objetos candidatos, o que poderá ajudar no futuro na identificação de novosexoplanetas nesta lista.

Um dos nossos objetivos neste trabalho foi encontrar grandezas astronômicas conformesà lei dos dígitos significativos, pesquisando em vários catálogos e bases de objetos e por fimsugerir aplicações para esse conhecimento. Dentre vários objetos celestes testados se encontramos planetas extra solares, para esses testes usamos os mesmos dados do telescópio espacialKepler utilizados pelos autores aqui citados e como mostrado nesse capítulo obtivemos um totalde 24 resultados conformes para exoplanetas.

Comparando os nossos resultados conformes com as grandezas já pesquisadas na litera-tura sobre exoplanetas constatamos a conformidade nas grandezas Massa do Planeta, Densidadedo Planeta, Período Orbital, e maior semi-eixo orbital, este ultimo foi confirmado através do q-qcom estratégia de Bootstrap. Além disso, também dentre as mesmas grandezas já pesquisadas naliteratura, confirmamos a não conformidade tanto da longitude galática quanto da eclíptica assimcomo também do raio do planeta e da temperatura efetiva.

No entanto as grandezas movimento próprio total, idade estelar e distância estelar ob-tiveram resultados diferentes do de Shukla, sendo consideradas em nossos testes como nãoconformes à NB-Lei. As grandezas volume e velocidade radial que foram consideradas confor-mes por Shukla, em nossos testes os resultados foram inconclusivos sendo colocadas ambas no

Page 77: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 76

conjunto de fronteira.

Salientamos que as grandezas conhecidas não foram as únicas grandezas de exoplanetasque obtiveram resultado conforme em nossos testes, como pode ser observado nos resultadostabelados nesse capítulo.

Além de grandezas de planetas extra solares obtivemos também resultado conformesem dados de quantidade de meteoros observados por mês de uma base de monitoramento deavistamento de meteoros por vídeo, 14 resultados conformes de dados de crateras de impactona lua, 4 resultados de dados de aglomerados globulares da via láctea, 1 resultado conforme dagrandeza taxa de formação de estrelas de uma base de dados simulados do projeto Millennium ,1 resultado conforme da grandeza Diâmetro Físico Calculado Aglomerados Abertos do catálogode aglomerados abertos visíveis e 3 resultados conformes de grandezas do catálogo estelar dosatélite Hipparcos. Somando todos os resultados obtivemos um total de 59 resultados positivos àlei de Newcomb-Benford.

4.3.5 Conclusão

Com base no que foi visto neste capítulo, podemos observar que o segmento das pesqui-sas astronômicas se mostra um campo prospero para o desenvolvimento de aplicações baseadosna Lei de Newcomb-Benford. À medida que avançamos e expandimos o nosso conhecimentosobre o universo, novas pesquisas e tecnologias vão surgindo, abrindo um campo cada vezmaior. A conformidade da NB-Lei de grandezas astronômicas ainda é pouco explorada, mas semostra como uma ferramenta promissora para o futuro da pesquisa artonômica, pois através doconhecimento da conformidade podemos criar ferramentas que auxiliarão a análise e validaçãode dados astronômicos e na identificação de novos objetos. Tendo em vista que a medida quea tecnologia avança conseguimos coletar dados com mais precisão aumentando as chances dedetecção de conformidade.

Sugerimos então a utilização do conhecimento da conformidade das grandezas listadasnesse trabalho como uma ferramenta de auxilio na seleção e validação de dados astronômicos.Ajudando a selecionar objetos na lista de candidatos a exoplanetas, a aglomerados abertos e aaglomerados globulares. Na identificação de crateras de impactos, não só em nossa lua mastambém em outros objetos do nosso sistema solar, na verificação de simulações cosmológicas eastronômicas e na verificação de dados de monitoramento de meteoros.

Outro aspecto muito importante observado nesse capítulo, é a possibilidade do uso doteste K-S para determinação da conformidade global. Nota-se claramente que nos resultados dostestes de conformidade ele obteve resultados coerentes com os demais testes, salvas algumas

Page 78: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

4.3. RESULTADOS OBTIDOS 77

poucas exceções que estão no conjunto de fronteira. Percebe-se que, ao comparar o resultadodo K-S ao q-q com uma quantidade pequena e razoável de amostras, os resultados de ambos ostestes foram coerentes na maior parte dos casos, o mesmo aconteceu em grandezas com umagrande quantidade de amostras quando substituirmos o q-q pelo qui-quadrado com Bootstrappara evitar o problema de excesso de poder. Isso mostra que o teste de kolmogorov-smirnov comFDE é uma ótima opção para se determinar a conformidade a NB-Lei principalmente quando setrabalha com grandezas com grande número de amostras.

Page 79: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

787878

5Conclusão

Este trabalho propôs inicialmente a substituição do método qui-quadrado pelo Kolmogorov-Smirnov baseado na Função de Distribuição Empírica para determinação da conformidade global.Foi feita também uma análise de um limiar para intervalo de confiança comparando os seusresultados com os do método qui-quadrado com estratégia de Bootstrapping para grandezascom grande número de amostras e qui-quadrado de Pearson para grandezas com um numero deamostras moderadamente pequenas.

Em nossos resultados para determinação de um limiar para um intervalo de confiança doK-S observamos que para grandezas com uma quantidade de amostras razoável e com resultadodo q-q com Bootsrapping acima do limiar de 15,51 o valor do teste K-S foi superior a 0,1. Epara valores do q-q com Bootsrapping conformes, ou seja, abaixo do limiar de 15,51 obtivemosresultados do K-S inferiores a 0,1. O mesmo comportamento foi observado em grandezas comquantidades de amostras inferiores a 500, onde utilizamos como teste comparativo o q-q dePearson. Apenas algumas grandezas deram resultados não conclusivos, onde um teste discordado outro, nesses casos colocamos os resultados em um conjunto de fronteira. Dessa formaconcluímos que o valor 0,1 pode ser utilizado como limiar para o teste K-S para verificação daconformidade à NB-Lei.

Portanto, podemos utilizar o método de Kolmogorov-Smirnov como ferramenta paraverificação da conformidade de grandezas à Lei de Newcomb-Benford pois fora ser um métodomenos sujeito a dar resultados do tipo falsos negativos na estatística em grandezas com grandequantidade de amostras é mais fiel à definição formal da Lei dos dígitos significativos, poistrabalha considerando as mantissas ao invés de apenas os dígitos isolados.

Como segunda proposta, neste trabalho exploramos diversos bancos e catálogos de dadosastronômicos em busca de grandezas cuja a conformidade à lei de Newcomb-Benford ainda nãoseja conhecida. Foram testadas 16 bases de dados foram encontradas 33 grandezas conformes àlei dos dígitos significativos.

Page 80: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

5.1. TRABALHOS FUTUROS 79

Em seguida foram propostas 6 aplicações futuras Observamos que o segmento das pes-quisas astronômicas se mostra um campo próspero para utilização da NB-Lei como ferramentapara auxilio na descoberta de novos objetos celestes.

Sendo uma grandeza obtida de dados de registro de meteoros, 18 grandezas de dados deexoplanetas, 7 grandezas de crateras de impacto da lua, 4 grandezas de aglomerados globulares,3 de dados de estrelas do catálogo hiparcos. Também obtiveram conformidade à NB-Lei, taxa deFormação de estrelas de dados simulados, diâmetro físico de aglomerados abertos.

5.1 Trabalhos Futuros

Sugerimos que como trabalhos futuros que seja feita um estudo mais aprofundado paradeterminação de um intervalo de confinação para o K-S a fim de obter limiares mais precisos.

Recomendamos que o conhecimento das conformidades de grandezas astronômicasencontradas nesse trabalho seja utilizado para melhorar a área de pesquisa astronômica. Sendorecomendado desenvolver aplicações para:

� auxiliar na identificação de exoplanetas na lista de objetos candidatos à exoplanetas.

� auxiliar na identificação de crateras de impacto não só na nossa lua mas também emoutros objetos do sistema solar.

� auxiliar na identificação de novos aglomerados abertos na lista de objetos candidatos.

� auxiliar na identificação de novos aglomerados globulares na lista de objetos candi-datos.

� auxiliar na verificação de simulações cosmológicas.

� auxiliar na verificação de dados de monitoramento de meteoros.

� auxiliar na verificação de dados de estelares.

Page 81: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

808080

Referências

ACEBO, E.; SBERT, M. Benford’s Law for Natural and Synthetic Images. In: FIRSTEUROGRAPHICS CONFERENCE ON COMPUTATIONAL AESTHETICS IN GRAPHICS,VISUALIZATION AND IMAGING, Aire-la-Ville, Switzerland, Switzerland. Proceedings. . .Eurographics Association, 2005. p.169–176. (Computational Aesthetics’05).

AKESON, R. et al. The NASA exoplanet archive: data and tools for exoplanet research.Publications of the Astronomical Society of the Pacific, [S.l.], v.125, n.930, p.989, 2013.

ALEXOPOULOS, T.; LEONTSINIS, S. Benford’s Law in Astronomy. Journal ofAstrophysics and Astronomy, [S.l.], p.1–10, 2014.

ALTAMIRANO, C.; ROBLEDO, A. Possible thermodynamic structure underlying the laws ofZipf and Benford. The European Physical Journal B, [S.l.], v.81, n.3, p.345–351, 2011.

ANDRIOTIS, P.; OIKONOMOU, G.; TRYFONAS, T. JPEG steganography detection withBenford’s Law. Digital Investigation, [S.l.], v.9, n.3, p.246–257, 2013.

ANTKOWIAK, B.; DREXLER, B. Brain Electrical Activity Obeys Benford’s Law. Anesthesiaand Analgesia, [S.l.], v.118, n.1, 2014.

BENFORD, F. The law of anomalous numbers. Proceedings of the American PhilosophicalSociety, [S.l.], p.551–572, 1938.

BERGER, A. Benford’s Law in power-like dynamical systems. Stochastics and Dynamics,[S.l.], v.5, n.04, p.587–607, 2005.

BERGER, A.; BUNIMOVICH, L.; HILL, T. One-dimensional dynamical systems andBenford’s Law. Transactions of the American Mathematical Society, [S.l.], v.357, n.1,p.197–219, 2005.

BERGER, A.; ESHUN, G. A characterization of Benford’s law in discrete-time linear systems.Journal of Dynamics and Differential Equations, [S.l.], p.1–39, 2014.

BERGER, A.; HILL, T. P. Newton’s method obeys Benford’s law. The AmericanMathematical Monthly, [S.l.], v.114, n.7, p.588–601, 2007.

BERGER, A.; HILL, T. P. et al. A basic theory of Benford’s Law. Probability Surveys, [S.l.],v.8, p.1–126, 2011.

BERGER, A.; HILL, T. P. et al. VIEW CHRONOLOGICAL. BENFORD ONLINEBIBLIOGRAPHY. [S.l.]: American Mathematical Society, 2016.

BHATTACHARYA, S.; XU, D.; KUMAR, K. An ANN-based auditor decision support systemusing Benford’s law. Decision support systems, [S.l.], v.50, n.3, p.576–584, 2011.

BORING, E. G. The logic of the normal law of error in mental measurement. The AmericanJournal of Psychology, [S.l.], v.31, n.1, p.1–33, 1920.

BUSTA, B.; WEINBERG, R. Using Benford’s law and neural networks as a review procedure.Managerial Auditing Journal, [S.l.], v.13, n.6, p.356–366, 1998.

Page 82: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

REFERÊNCIAS 81

CARSLAW, C. A. Anomalies in income numbers: evidence of goal oriented behavior.Accounting Review, [S.l.], p.321–327, 1988.

DE, A. S.; SEN, U. Benford’s law detects quantum phase transitions similarly as earthquakes.EPL (Europhysics Letters), [S.l.], v.95, n.5, p.50008, 2011.

DIACONIS, P. The distribution of leading digits and uniform distribution mod 1. The Annalsof Probability, [S.l.], p.72–81, 1977.

DIAS, W. Catalog of Optically Visible Open Clusters and Candidates, v. 2.10. 2009.

DÍAZ, J.; GALLART, J.; RUIZ, M. On the Ability of the Benford’s Law to Detect Earthquakesand Discriminate Seismic Signals. Seismological Research Letters, [S.l.], 2014.

EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap Chapman & Hall. New York,[S.l.], v.436, 1993.

FELLER, W. An introduction to probability and its applications, Vol. II. Wiley, New York,[S.l.], 1971.

FRANEL, J. A propos des tables de logarithmes. On tables, [S.l.], 1917.

FRIAR, J. L.; GOLDMAN, T.; PÉREZ-MERCADER, J. Genome sizes and the Benforddistribution. PloS one, [S.l.], v.7, n.5, p.e36624, 2012.

FU, D.; SHI, Y. Q.; SU, W. A generalized Benford’s law for JPEG coefficients and itsapplications in image forensics. In: ELECTRONIC IMAGING 2007. Anais. . . [S.l.: s.n.], 2007.p.65051L–65051L.

GAZETTEER, I. Gazetteer of planetary nomenclature. International Astronomical UnionWorking Group for planetary system nomenclature. 2014.

GEYER, A.; MARTÍ, J. Applying Benford’s law to volcanology. Geology, [S.l.], v.40, n.4,p.327–330, 2012.

GOLBECK, J. Benford’s Law Applies to Online Social Networks. PloS one, [S.l.], v.10, n.8,p.e0135169, 2015.

GOUDSMIT, S.; FURRY, W. Significant figures of numbers in statistical tables. Nature, [S.l.],v.154, n.3921, p.800–801, 1944.

HAIR, T. W. Benford’s Law of First Digits and and the Mass of Exoplanets. "Disponívelem: http://www.hou.usra.edu/meetings/abscicon2015/pdf/7022.pdf ,http://www.fgcu.edu/CAS/MathBS/files/Hair-ppt-Benford.ppsx. Acesso em 26 de abril de2015".

HAMMING, R. W. On the distribution of numbers. Bell System Technical Journal, [S.l.],v.49, n.8, p.1609–1625, 1970.

HARRIS, W. E. Globular Clusters in the Milky Way - The catalogue of Globular Clusters.Disponível em: http://vizier.u-strasbg.fr/viz-bin/VizieR?-source=VII%2F202 . Acesso em 6 dejaneiro de 2016.

Page 83: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

REFERÊNCIAS 82

HEAD, J. W. et al. Global distribution of large lunar craters: implications for resurfacing andimpactor populations. science, [S.l.], v.329, n.5998, p.1504–1507, 2010.

HEIJER, E. den; EIBEN, A. Using aesthetic measures to evolve art. In: EVOLUTIONARYCOMPUTATION (CEC), 2010 IEEE CONGRESS ON. Anais. . . [S.l.: s.n.], 2010. p.1–8.

HENRIQUES, D. B. B. UMA INVESTIGAÇÃO DAS MEDIDAS DE CONFORMIDADEÀ LEI DE BENFORD EM 1 E 2 DIMENSÕES COM DADOS REAIS. 2012. Dissertação(Mestrado em Ciência da Computação) — Centro de Informática, Universidade Federal dePernambuco, Av. Jornalista Aníbal Fernandes, s/n - Cidade Universitária (Campus Recife)50.740-560 - Recife - PE.

HILL, T. P. Random-number guessing and the first digit phenomenon. Psychological Reports,[S.l.], v.62, n.3, p.967–971, 1988.

HILL, T. P. The Significant-Digit Phenomenon. The American Mathematical Monthly, [S.l.],v.102, n.4, p.322–327, 1995.

HILL, T. P. Base-invariance implies Benford’s law. Proceedings of the AmericanMathematical Society, [S.l.], v.123, n.3, p.887–895, 1995.

HILL, T. P. A Statistical Derivation of the Significant-Digit Law. Statistical Science, [S.l.],v.10, n.4, p.354–363, 1995.

HILL, T. P.; FOX, R. F. Hubble’s Law Implies Benford’s Law for Distances to Galaxies.Journal of Astrophysics and Astronomy, [S.l.], v.37, n.1, p.1–8, 2016.

HSÜ, E. An experimental study on “mental numbers” and a new application. The Journal ofgeneral psychology, [S.l.], v.38, n.1, p.57–67, 1948.

HUBBLE, E. A relation between distance and radial velocity among extra-galactic nebulae.Proceedings of the National Academy of Sciences, [S.l.], v.15, n.3, p.168–173, 1929.

HUI, J.; JIA-JIE, S.; YU-MIN, Z. Benford’s Law in Nuclear Structure Physics. Chinese PhysicsLetters, [S.l.], v.28, n.3, p.032101, 2011.

IORLIAM, A. et al. Do Biometric Images Follow Benford’s Law? In: EUROPEAN SIGNALPROCESSING CONFERENCE (EUSIPCO), 22. Proceedings. . . IEEE, 2014. Last Viewed:7/7/2014.

JOLION, J.-M. Images and Benford’s law. Journal of Mathematical Imaging and Vision,[S.l.], v.14, n.1, p.73–81, 2001.

KADISH, S. et al. A Global Catalog of Large Lunar Craters (>= 20 km) from the Lunar OrbiterLaser Altimeter. In: LUNAR AND PLANETARY SCIENCE CONFERENCE. Anais. . .[S.l.: s.n.], 2011. v.42, p.1006.

KNUTH, D. E. The Art of Computer Programming. [S.l.: s.n. addisonwesley. Reading, MA,[S.l.], p.229–279, 1969.

KRAKAR, Z.; ŽGELA, M. Application of Benford’s Law in Payment Systems Auditing.Journal of information and organizational Sciences, [S.l.], v.33, n.1, p.39–51, 2009.

Page 84: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

REFERÊNCIAS 83

LEMSON, G. et al. Halo and galaxy formation histories from the millennium simulation: publicrelease of a vo-oriented and sql-queryable database for studying the evolution of galaxies in thelambdacdm cosmogony. arXiv preprint astro-ph/0608019, [S.l.], 2006.

LI, X. H. et al. Detection of tampered region for JPEG images by using mode-based first digitfeatures. EURASIP Journal on advances in signal processing, [S.l.], v.2012, n.1, p.1–10,2012.

LOSIAK et al. Lunar Impact Crater Database 2015. Revised by T. Öhman, LPI (2011) and(2015).

LUQUE, B.; LACASA, L. The first-digit frequencies of prime numbers and Riemann zeta zeros.In: ROYAL SOCIETY OF LONDON A: MATHEMATICAL, PHYSICAL ANDENGINEERING SCIENCES. Proceedings. . . [S.l.: s.n.], 2009. p.rspa–2009.

LÉVY, P. L’addition des variables aléatoires définies sur une circonférence. Bulletin de laSociété Mathématique de France, [S.l.], v.67, p.1–41, 1939.

MINOR PLANET CENTER, I. MPC Observable Comets.http://www.minorplanetcenter.net/iau/Ephemerides/Comets/index.html, [S.l.], 2015.

MORGAN, J. A. e. a. Letters to the Editor. The American Statistician, [S.l.], v.26, n.3,p.62–66, 1972.

NASA. Our Solar System: moons. Disponível em:http://solarsystem.nasa.gov/planets/solarsystem/sats. Acesso em 16 de julho de 2015.

NASA. Lunar Orbital Data Explorer. Disponível em: http://ode.rsl.wustl.edu/moon/. Acessoem 15 de agosto de 2015.

NASA. Mercury Orbital Data Explorer. Disponível em: http://ode.rsl.wustl.edu/mercury/.Acesso em 15 de agosto de 2015.

NASA. Mercury Orbital Data Explorer. Disponível em: http://ode.rsl.wustl.edu/Venus/.Acesso em 15 de agosto de 2015.

NEO. NEO Discovery Statistics. Disponível em: http://neo.jpl.nasa.gov/stats/ . Acesso em 13de setembro de 2015.

NEWCOMB, S. Note on the frequency of use of the different digits in natural numbers.American Journal of Mathematics, [S.l.], v.4, n.1, p.39–40, 1881.

NIGRINI, M. Digital Analysis Tests and Statistics. Allen: The Nigrini Institute, [S.l.], 1997.

NIGRINI, M. J. The detection of income tax evasion through an analysis of digital frequencies.Doctorat en sciences de gestion, Cincinnati: université de Cincinnati, [S.l.], 1992.

NIGRINI, M. J. A taxpayer compliance application of Benford’s law. The Journal of theAmerican Taxation Association, [S.l.], v.18, n.1, p.72, 1996.

NIGRINI, M. J. The peculiar patterns of first digits. IEEE potentials, [S.l.], v.18, n.2, p.24–27,1999.

Page 85: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

REFERÊNCIAS 84

NIGRINI, M. J.; MITTERMAIER, L. J. The use of Benford’s law as an aid in analyticalprocedures. Auditing, [S.l.], v.16, n.2, p.52, 1997.

ORITA, M. et al. Agreement of drug discovery data with Benford’s law. Expert opinion ondrug discovery, [S.l.], v.8, n.1, p.1–5, 2013.

PÉREZ-GONZÁLEZ, F.; HEILEMAN, G. L.; ABDALLAH, C. T. Benford’s Lawin ImageProcessing. In: IMAGE PROCESSING, 2007. ICIP 2007. IEEE INTERNATIONALCONFERENCE ON. Anais. . . [S.l.: s.n.], 2007. v.1, p.I–405.

PERRYMAN, M. A. et al. The HIPPARCOS catalogue. Astronomy and Astrophysics, [S.l.],v.323, 1997.

PETTITT, A. N.; STEPHENS, M. A. The Kolmogorov-Smirnov goodness-of-fit statistic withdiscrete and grouped data. Technometrics, [S.l.], v.19, n.2, p.205–210, 1977.

PINKHAM, R. S. On the distribution of first significant digits. The Annals of MathematicalStatistics, [S.l.], v.32, n.4, p.1223–1230, 1961.

POINCARÉ, H. Calcul des probabilités. [S.l.]: Gauthier-Villars, 1912.

QADIR, G. et al. Image forensic of glare feature for improving image retrieval using Benford’sLaw. In: CIRCUITS AND SYSTEMS (ISCAS), 2011 IEEE INTERNATIONAL SYMPOSIUMON. Anais. . . [S.l.: s.n.], 2011. p.2661–2664.

QADIR, G.; ZHAO, X.; HO, A. T. Estimating JPEG2000 compression for image forensics usingBenford’s Law. In: SPIE PHOTONICS EUROPE. Anais. . . [S.l.: s.n.], 2010. p.77230J–77230J.

RAIMI, R. A. The first digit problem. The American Mathematical Monthly, [S.l.], v.83, n.7,p.521–538, 1976.

ROBBINS, H. On the Equidistribution of Sums of Independent Random Variables. [S.l.]:American Mathematical Society, 1953. 786-799p. v.4, n.5.

SANCHES, J.; MARQUES, J. Image reconstruction using the Benford law. In:INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, 2006. Anais. . . [S.l.: s.n.],2006.

SCHMITZ, M. et al. NASA/IPAC Extragalactic Database. reference code2003AJ....125..525J.

SHAO, L.; MA, B.-Q. Empirical mantissa distributions of pulsars. Astroparticle Physics, [S.l.],v.33, n.4, p.255–262, 2010.

Shukla, A.; Pandey, A. K.; Pathak, A. Benford’s distribution in extrasolar world: do theexoplanets follow benford’s distribution? ArXiv e-prints, [S.l.], June 2016.

SNYDER, M. A.; CURRY, J. H.; DOUGHERTY, A. M. Stochastic aspects of one-dimensionaldiscrete dynamical systems: benford’s law. Physical Review E, [S.l.], v.64, n.2, p.026222, 2001.

SOTTILI, G. et al. Benford’s Law in time series analysis of seismic clusters. MathematicalGeosciences, [S.l.], v.44, n.5, p.619–634, 2012.

Page 86: José Vianney Mendonça de Alencastro Junior§ão... · Orientador: Silvio de Barros Melo RECIFE 2016. Catalogação na fonte Bibliotecária Monick Raquel Silvestre da S. Portes,

REFERÊNCIAS 85

STEELE, M.; CHASELING, J. Powers of discrete goodness-of-fit test statistics for a uniformnull against a selection of alternative distributions. Communications inStatistics—Simulation and Computation®, [S.l.], v.35, n.4, p.1067–1075, 2006.

TAO, T. Benfords law, Zipfs law, and the Pareto distribution. Retrieved from, [S.l.], 2009.

THOMAS, J. K. Unusual patterns in reported earnings. Accounting Review, [S.l.], p.773–787,1989.

TOLLE, C. R.; BUDZIEN, J. L.; LAVIOLETTE, R. A. Do dynamical systems follow Benford’slaw? Chaos: An Interdisciplinary Journal of Nonlinear Science, [S.l.], v.10, n.2, p.331–336,2000.

TONG, S. et al. Image splicing detection based on statistical properties of Benford model. In:OF THE 2ND INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE ANDELECTRONICS ENGINEERING. Proceedings. . . [S.l.: s.n.], 2013. p.792–795.

VIDEO Meteor Database. Disponível em: http://www.imonet.org/reports/. Acesso em 05 deoutubro de 2015.

WEISSTEIN, E. W. Newton-Cotes Formulas. Disponível em:http://mathworld.wolfram.com/Newton-CotesFormulas.html. Acesso em 24 maio 2016.

WEYL, H. Über die gleichverteilung von zahlen mod. eins. Mathematische Annalen, [S.l.],v.77, n.3, p.313–352, 1916.

WONG, S. C. Y. Testing Benford’s Law with the First Two Significant Digits. 2010.

ZIPF, G. K. Human behavior and the principle of least effort. [S.l.]: Addison-Wesley Press,1949.