implementaçãodetécnicasdepreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1...

56
Jan Marans Agnella Justi Implementação de Técnicas de Preparação de Dados em Índices Pluviométricos do Rio Grande do Norte Natal – RN Junho de 2019

Upload: others

Post on 20-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Jan Marans Agnella Justi

Implementação de Técnicas de Preparaçãode Dados em Índices Pluviométricos do Rio

Grande do Norte

Natal – RN

Junho de 2019

Page 2: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Jan Marans Agnella Justi

Implementação de Técnicas de Preparação de Dadosem Índices Pluviométricos do Rio Grande do Norte

Trabalho de Conclusão de Curso de Engenha-ria de Computação da Universidade Federaldo Rio Grande do Norte, apresentado comorequisito parcial para a obtenção do grau deBacharel em Engenharia de Computação

Orientador: Luiz Affonso HendersonGuedes de Oliveira

Universidade Federal do Rio Grande do Norte – UFRN

Departamento de Engenharia de Computação e Automação – DCA

Curso de Engenharia de Computação

Natal – RNJunho de 2019

Page 3: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Universidade Federal do Rio Grande do Norte – UFRN Sistema de Bibliotecas – SISBI

Catalogação da Publicação na Fonte - Biblioteca Central Zila Mamede Justi, Jan Marans Agnella.

Implementação de técnicas de preparação de dados em índices pluviométricos do Rio Grande do Norte / Jan Marans Agnella Justi. - 2020. 55 f. : il.

Monografia (graduação) - Universidade Federal do Rio Grande do Norte, Centro de Tecnologia, Curso de Engenharia de Computação, Natal, RN, 2019. Orientador: Prof. Dr. Luiz Affonso Henderson Guedes de Oliveira.

1. Preparação de dados – Monografia. 2. Ciência de dados - Monografia. 3. Pluviometria - Monografia. 4. Índice pluviométrico - Monografia. I. Oliveira, Luiz Affonso Henderson Guedes de. II. Título. RN/UFRN/BCZM CDU 555.1577.21(813.2)

Page 4: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Jan Marans Agnella Justi

Implementação de Técnicas de Preparação de Dadosem Índices Pluviométricos do Rio Grande do Norte

Trabalho de Conclusão de Curso de Engenha-ria de Computação da Universidade Federaldo Rio Grande do Norte, apresentado comorequisito parcial para a obtenção do grau deBacharel em Engenharia de Computação

Orientador: Luiz Affonso HendersonGuedes de Oliveira

Trabalho aprovado. Natal – RN, 19 de Junho de 2019.

Prof. Dr. Luiz Affonso Henderson Guedes de Oliveira - OrientadorUFRN

Prof. Dr. Gustavo Bezerra Paz LeitãoUFRN

MSc. Juliano Rafael Sena de AraújoUFRN

Natal – RNJunho de 2019

Page 5: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Dedico este trabalho a todos que me auxiliaram ao longo desta trajetória acadêmica.

Page 6: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

AGRADECIMENTOS

Ao meu orientador Prof. Dr. Luiz Affonso Henderson Guedes de Oliveira pelaatenção ao longo do desenvolvimento deste trabalho.

A minha família e especialmente aos meus pais, por terem me provido educação,bons valores, saúde e amor sempre no melhor nível possível.

Ao meu amor e automaticamente melhor pessoa, Mariana, por toda a atenção,dedicação e paciência. Você é a melhor companheira que eu poderia pedir, e eu sei queposso contar com você para tudo.

Aos meus amigos da UFRN Anderson, Bessa, Cassiano, Flávio, Fróes, João, Leo-nardo, Oman, Ravi, Severino, Signoretti e Valquíria, muito obrigado pela eterna paciência.

A todos que estiveram presentes no CsF comigo, especialmente do J1.1, não tenhocomo agradecer o suficiente pela oportunidade. Obrigado por me aturarem.

Aos meus amigos Lucas, Matheus, Renio, Vinícius, Vitor e Weslley, mesmo quedistantes, me suportaram e escutaram (quase) todos os dias. Salve RFAR.

A todos os demais que influenciaram a minha vida pessoal e acadêmica ao longodesta jornada, muito obrigado.

Page 7: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

RESUMOAs informações geradas através da pluviometria aplicada possuem crescente importância noâmbito científico, educacional e comercial, principalmente por auxiliar o desenvolvimentode sistemas com otimização de aproveitamento em recursos hídricos. Entretanto, as redespluviométricas são usualmente precárias e de baixa densidade, consequentemente gerandomedições pluviométricas historicamente inconsistentes e com qualidade inferior ao necessá-rio para aplicações futuras. Para tanto, a execução de técnicas de preparação de índicespluviométricos torna-se necessária para permitir o uso posterior das medições históricasde chuva. As referidas técnicas são concebidas através do estudo da ciência de dadose, especificamente, baseadas nos conceitos de preparação de dados. O presente trabalhoconsiste em uma análise aprofundada da problemática previamente descrita, propondotópicos genéricos focados no tratamento de medições de chuva. Posteriormente, detalha-sequanto à filtragem inicial de arquivos crus provenientes de duas fontes distintas de dadospluviométricos, juntamente com a descrição do funcionamento de scripts desenvolvidosem Python, os quais são responsáveis por preparar dados pluviométricos originados deprocedências diferentes e unificá-los de forma filtrada e organizada.

Palavras-chaves: Preparação de Dados; Ciência de Dados; Pluviometria; Índice Pluvio-métrico.

Page 8: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

ABSTRACTThe information generated through applied rainfall measurement has an increasing im-portance in the scientific, educational and commercial spheres, mainly for helping todevelop optimized systems to improve water resources usage. However, rain gauge networksare frequently poor and inadequately distributed, consequently generating historicallyinconsistent rainfall measurements, obtaining inferior quality than necessary for futureapplications. Therefore, the execution of rainfall data preparation techniques is necessary toallow later use of historical rainfall measurements. These techniques are designed throughthe study of data science and, specifically, based on concepts of data preparation. Thepresent work consists of an in-depth analysis of the problem previously described, proposinggeneric topics focused on processing rainfall data. Subsequently, the initial filtering ofraw files from two different sources of rainfall data is detailed, along with a description ofPython-developed scripts, which are responsible for preparing rainfall data from differentsources and unifying them in filtered and organized form.

Keywords: Data Preparation; Data Science; Rainfall Measurement; Rainfall Data.

Page 9: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

LISTA DE ILUSTRAÇÕES

Figura 1 – Tipos de instrumentos meteorológicos medidores de chuva. . . . . . . . 15Figura 2 – Fluxograma exemplificando o funcionamento da Ciência de Dados . . . 18Figura 3 – Amostra dos primeiros registros do arquivo pluvio rn.txt. . . . . . . . . 23Figura 4 – Amostra parcial dos primeiros registros do arquivo pluvio rn tab.txt. . . 24Figura 5 – Amostra dos primeiros registros do arquivo plumovim.dbf. . . . . . . . 24Figura 6 – Amostra parcial dos primeiros registros do arquivo PLUPOSTO.DBF. . 25Figura 7 – Amostra dos primeiros registros do arquivo CHUVAS.DBF. . . . . . . 25Figura 8 – Amostra dos primeiros registros do arquivo PLUMICRO.DBF. . . . . . 26Figura 9 – Amostra dos primeiros registros do arquivo PLUMUNIC.DBF. . . . . . 26Figura 10 – Registros do arquivo PLUFONTE.DBF. . . . . . . . . . . . . . . . . . 27Figura 11 – Amostra parcial dos registros do arquivo PLUNORMA.DBF. . . . . . . 27Figura 12 – Ajuste de formatação do arquivo pluvio rn tab.txt. . . . . . . . . . . . . 28Figura 13 – Posicionamento do Rio Grande do Norte no mapa-mundi. . . . . . . . 30Figura 14 – Postos listados virtualmente fora do Rio Grande do Norte. . . . . . . . 38Figura 15 – Localização dos postos filtrados pela validação de coordenadas. . . . . 38Figura 16 – Amostras aleatórias de ocorrências dos datasets pós-unificação. . . . . . 40Figura 17 – Distribuição acumulada do CPM ao longo dos dados recém-reduzidos. . 41Figura 18 – Disponibilidade dos dados via CPT e quantidade de dados. . . . . . . . 43Figura 19 – Amostras aleatórias de ocorrências dos datasets exportados. . . . . . . 44Figura 20 – Representação visual do método IDW (P-0171, Novembro de 2009). . . 45Figura 21 – Representação visual do método IDW (Junho de 1945). . . . . . . . . . 46Figura 22 – Representação visual do método IDW (Maio de 1978). . . . . . . . . . 47Figura 23 – Representação visual do método IDW (Maio e Junho de 2001). . . . . 48Figura 24 – Progressão da média acumulada de RMSE e CCP. . . . . . . . . . . . 48Figura 25 – Localização dos municípios do Rio Grande do Norte e seus centroides. . 49Figura 26 – Representação visual dos valores interpolados para municípios. . . . . . 51Figura 27 – Discrepância geográfica apresentada entre registros das duas fontes. . . 52

Page 10: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

LISTA DE TABELAS

Tabela 1 – Bibliotecas utilizadas no desenvolvimento do estudo. . . . . . . . . . . 22Tabela 2 – Distribuição inicial dos dados crus disponíveis. . . . . . . . . . . . . . . 23Tabela 3 – Desempenho do script de conversão. . . . . . . . . . . . . . . . . . . . 29Tabela 4 – Interpretação do valor resultante de CCP. . . . . . . . . . . . . . . . . 36Tabela 5 – Progresso das dimensões dos datasets com o módulo init_treat.py . . . 37Tabela 6 – Progresso das dimensões dos datasets com o módulo clear_df.py . . . . 39Tabela 7 – Dimensões dos datasets antes de executar o módulo unif_df.py . . . . 39Tabela 8 – Dimensões dos datasets depois de executar o módulo unif_df.py . . . . 39Tabela 9 – Progresso das dimensões dos datasets com o módulo reduce_df.py . . . 41Tabela 10 – Proporção de origens dos índices mensais pós-filtro de CPM e percentil. 42Tabela 11 – Progresso das dimensões dos datasets com o módulo pre_export.py . . 42Tabela 12 – Estatísticas de média obtidas por atributos gerados por pre_export.py 42Tabela 13 – Progresso do tamanho dos arquivos gerados pelo processamento de dados. 42

Page 11: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

LISTA DE ABREVIATURAS E SIGLAS

.CSV Comma-Separated Values File

.DBF dBase Database File

.GeoJSON Geo JavaScript Object Notation File

.TXT Text File

.ZIP Zip File

API Application Programming Interface

CCP Coeficiente de Correlação de Pearson

CPM Coeficiente de Preenchimento Mensal

CPT Coeficiente de Preenchimento Total

DD Decimal Degrees

DMS Degrees, Minutes and Seconds

DW Data Wrangling

EMPARN Empresa de Pesquisa Agropecuária do Rio Grande do Norte

IDW Inverse Distance Weighting

NaN Not a Number

RMSE Root Mean Square Error

SUDENE Superintendência do Desenvolvimento do Nordeste

Page 12: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.1 Contextualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2 Relevância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.5 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . 152.1 Pluviometria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1.1 Índice Pluviométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.2 Aplicações dos Dados Pluviométricos . . . . . . . . . . . . . . . . . . . . 162.1.3 Problemas Relativos à Pluviometria Aplicada . . . . . . . . . . . . . . . . 172.2 Ciência de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.1 Preparação de Dados (Data Wrangling) . . . . . . . . . . . . . . . . . . . 19

3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1 Classificação da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . 203.2 Preparação de Dados Pluviométricos . . . . . . . . . . . . . . . . . . 203.3 Cenário Inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.4 Instrumentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4 DESENVOLVIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . 234.1 Otimização Introdutória dos Datasets . . . . . . . . . . . . . . . . . . 234.1.1 Análise Individual dos Arquivos Crus . . . . . . . . . . . . . . . . . . . . . 234.1.2 Conversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.2 Aplicação de Técnicas de Preparação de Dados Pluviométricos . . . 294.2.1 Módulo 1 – init_treat.py . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.2.2 Módulo 2 – clear_df.py . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.2.3 Módulo 3 – unif_df.py . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.2.4 Módulo 4 – reduce_df.py . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.2.5 Módulo 5 – pre_export.py . . . . . . . . . . . . . . . . . . . . . . . . . . 334.3 Exemplo de Tipo de Aplicação Pós-Tratamento: Interpolação . . . . 344.3.1 Interpolação para Índices Pluviométricos . . . . . . . . . . . . . . . . . . . 344.3.2 Inverso da Potência das Distâncias . . . . . . . . . . . . . . . . . . . . . . 344.3.3 Critérios de Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Page 13: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.1 Preparação de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.1.1 Resultados do Módulo init_treat.py . . . . . . . . . . . . . . . . . . . . . 375.1.2 Resultados do Módulo clear_df.py . . . . . . . . . . . . . . . . . . . . . . 395.1.3 Resultados do Módulo unif_df.py . . . . . . . . . . . . . . . . . . . . . . 395.1.4 Resultados do Módulo reduce_df.py . . . . . . . . . . . . . . . . . . . . . 415.1.5 Resultados do Módulo pre_export.py . . . . . . . . . . . . . . . . . . . . 425.2 Aplicação Pós-Tratamento: Interpolação . . . . . . . . . . . . . . . . 455.2.1 Validações Numéricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2.2 Exemplo de Uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.1 Sugestões de Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . 52

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Page 14: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

13

1 INTRODUÇÃO

Este capítulo descreve o contexto e as principais motivações que levaram ao desen-volvimento deste trabalho.

1.1 ContextualizaçãoO desenvolvimento de planejamentos estruturados de forma otimizada para centros

urbanos e regiões agrícolas, relativo aos quesitos climáticos do local em questão, possuigrande importância para a sociedade, devido à relevância dos potenciais prejuízos causadospor fenômenos naturais.

No âmbito da análise de chuvas, as principais preocupações resumem-se à intensidadee frequência de cada ocorrência, consideradas potenciais geradoras de danos quandoclassificadas em situações atípicas de excesso ou escassez (MURTA et al., 2005). Nestescenários, a deficiência de planejamento apropriado através de estudos baseados em dadoshistóricos e cálculos probabilísticos promove impactos consideráveis nos aspectos financeiro,social e natural.

Para sustentar os estudos de fenômenos meteorológicos, os dados referentes aoseventos de chuva são registrados e armazenados ao longo dos anos, servindo posteriormentepara análise e cálculos de estimativa futura de eventos climáticos.

1.2 RelevânciaOs estudos em torno das mudanças climáticas são de altíssima importância, tendo em

vista que a amplificação da previsibilidade climatológica obtida através destes estudos podeevitar perdas socioeconômicas irreversíveis, além de aprimorar procedimentos desenvolvidosem prol da qualidade de vida da população.

Segundo Salgueiro (2005, p. 2), o gerenciamento de recursos hídricos otimizadoestá diretamente ligado aos limites de aproveitamento do local em questão. Incluso nestegerenciamento está o conhecimento histórico das precipitações de chuva, desempenhandoparte indispensável ao desenvolvimento de uma região.

A obtenção de estimativas quanto ao futuro cenário meteorológico permite ummelhor planejamento de uso de matéria-prima e, consequentemente, uma projeção maisacurada de retorno financeiro em diversas áreas aplicáveis (e.g. agricultura e construçãocivil).

Page 15: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 1. Introdução 14

1.3 MotivaçãoA utilização de dados pluviométricos históricos é essencial para a compreensão de

eventos futuros de chuva. Porém, devido ao baixo investimento histórico no desenvolvimentode técnicas de coleta de índices de chuva (MARTINS, 2003, p. 2), os registros pluviométricosfrequentemente não possuem confiabilidade suficiente para serem aplicados em estudos(SALGUEIRO, 2005, p. 16). Por isso, técnicas baseadas na ciência de dados podemauxiliar no tratamento dos dados de chuva, permitindo a purificação dos dados referentese aumentando a confiabilidade.

1.4 ObjetivosEste estudo possui o desenvolvimento e aplicação de técnicas preparatórias de dados

pluviométricos para uso posterior como objetivo geral. Para tanto, os seguintes itens sãolistados como objetivos específicos:

• Compreender, através do referencial teórico, tópicos em torno da problemática;

• Listar as tarefas necessárias para a preparação eficiente de dados;

• Analisar o cenário inicial dos dados disponíveis;

• Desenvolver e aplicar as tarefas listadas anteriormente para os dados disponíveis;

• Exemplificar o uso posterior dos dados tratados.

1.5 Estrutura do TrabalhoEste trabalho foi dividido em capítulos, dispostos como:

• Capítulo 2 (Referencial Teórico): resultado da pesquisa fundamentada em torno dapluviometria e ciência de dados;

• Capítulo 3 (Metodologia): descrição da metodologia utilizada para o desenvolvi-mento do trabalho;

• Capítulo 4 (Desenvolvimento): análise aprofundada dos dados disponíveis e demons-tração teórica das principais características dos scripts desenvolvidos;

• Capítulo 5 (Resultados): exibição das estatísticas obtidas através da execução dosscripts desenvolvidos no item anterior;

• Capítulo 6 (Conclusão): resumo dos resultados obtidos, além de uma breve descriçãode potenciais trabalhos futuros.

Page 16: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

15

2 REFERENCIAL TEÓRICO

Neste capítulo, serão apresentadas as principais definições e aspectos relativos àPluviometria e Ciência de Dados.

2.1 PluviometriaO grupo de procedimentos avaliativos da grandeza de um evento de precipitação em

uma região hidrográfica define a pluviometria, um dos segmentos da hidrologia. Aplicar oconhecimento proveniente dos estudos neste campo promove o retorno, por exemplo, deestatísticas pertinentes ao desenvolvimento de sistemas para melhor aproveitamento emrecursos hídricos (SALGUEIRO, 2005, p. 15).

As informações geradas através da pluviometria aplicada são obtidas através dainstalação estratégica de um instrumento meteorológico denominado pluviômetro, conformeprevisto em protocolos técnicos (DAEE, 2000), com o intuito de captar e armazenar os dadosreferentes à precipitação no local. Este procedimento pode ser executado de modo manualou automático (SALGUEIRO, 2005, p. 15-16), dependendo do patamar do investimentodisponível para a aquisição de um pluviômetro.

A medida da precipitação pluviométrica, também denominada como índice plu-viométrico, pode ser efetivada através de dois tipos de instrumentos meteorológicos –o pluviômetro e o pluviógrafo – além de ser possível mensurá-la através de radares,espacialmente (STUDART, 2006, p. 4).

(a) Pluviômetro do tipo Ville de Paris. (b) Unidade sensível do pluviógrafo do tipoBasculante.

Figura 1 – Tipos de instrumentos meteorológicos medidores de chuva.

Fonte – (VAREJÃO-SILVA, 2006, p. 354, 359)

Page 17: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 2. Referencial Teórico 16

A diferença entre os dois tipos citados consiste no fato do pluviógrafo ser capazde registrar os dados pluviométricos automaticamente, enquanto o pluviômetro necessitade leitura manual a intervalos de tempo fixo (STUDART, 2006, p. 4), por simplesmentearmazenar o líquido precipitado proveniente da chuva em um recipiente. Dessa forma,torna-se necessária a atuação humana para armazenar os dados pluviométricos.

2.1.1 Índice Pluviométrico

A altura de água acumulada durante um período de tempo fixo, no pluviômetroconvencional, pode ser calculada de forma simplificada através da fórmula (OLIVEIRA,2006, p. 4):

h = 10 · VA

(2.1)

Onde:

- h representa a altura da coluna (em mm);

- V representa o volume acumulado (em ml ou cm3);

- A representa a área da seção de captação da água (em cm2).

Por outro lado, a contabilização da altura da coluna de chuva feita por um pluvió-grafo é feito de maneira distinta, tendo em vista que o mecanismo permite contabilizarautomaticamente a quantidade disposta. Conforme exibido na Figura 1b, o pluviógrafo detipo Basculante contabiliza o nível de chuva a partir do enchimento de um dos comparti-mentos, geralmente possuindo volume equivalente a 0,1mm de precipitação. O enchimentopromove um movimento em báscula para despejar a água acumulada e encher o segundocompartimento, consequentemente contabilizando o movimento através de um sistemaelétrico acionado por um ímã (VAREJÃO-SILVA, 2006, p. 359).

Normalmente, o uso de pluviógrafos reduz a dependência humana em se obteros dados, mas cria uma nova dependência baseada na necessidade de se ter um sistemade aquisição de dados (data-logger). Este sistema possui a finalidade de registrar todasas basculadas, incluindo data e horário de atuação, enquanto estiver ativo (FISCH;VENDRAME; HANAOKA, 2007).

2.1.2 Aplicações dos Dados Pluviométricos

Segundo Salgueiro (2005, p. 16), os dados provenientes da pluviometria aplicadapodem ser utilizados em diversas áreas, principalmente por meio dos estudos relacionadosà gestão dos recursos hídricos, conforme listado a seguir:

Page 18: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 2. Referencial Teórico 17

• Setor hidroenergético;

• Melhorias no saneamento básico;

• Otimização do abastecimento hídrico público e industrial;

• Desenvolvimento de técnicas de irrigação e drenagem;

• Pecuária;

• Meteorologia;

• Estimativa e prevenção de impactos ambientais.

Além dos pontos citados, existe a aplicação por parte de outras áreas do conheci-mento, como a biologia, construção civil, ciências ambientais, entre outros, tornando o temademasiadamente importante no âmbito científico, educacional e comercial (MARTINS,2003, p. 2).

2.1.3 Problemas Relativos à Pluviometria Aplicada

Embora possua tamanha importância conforme descrito anteriormente, diversospaíses no mundo não destinam recursos financeiros suficientes para implementar umarede pluviométrica de alta densidade (MARTINS, 2003, p. 2), gerando deficit em dadosde chuva catalogados historicamente e ocasionando desenvolvimento precário de novosprotocolos e tecnologias a serem aplicadas no âmbito da pluviometria.

Conforme Martins (2003, p. 3), as medições de chuva devem ser processadasidealmente por longos períodos de tempo, independentemente da adversidade climática elonginquidade do local. O autor ainda descreve a justificativa sobre a prioridade do usode pluviógrafos acima dos pluviômetros convencionais. Embora mais caro, o pluviógrafoassociado a um sistema de armazenamento de dados não depende totalmente da açãohumana, permitindo operação por longos períodos, com um alto grau de confiabilidade.

Entretanto, os dados pluviométricos históricos disponíveis são geralmente origináriosdo uso de pluviômetros convencionais, consequentemente atribuídos através de operaçãomanual (ANTONIO, 2007, p. 1). Possivelmente, o uso de pluviógrafos é relativamente re-cente devido à dificuldade de desenvolvê-lo nas décadas passadas de forma economicamenteviável para implementação.

Por conseguinte, vários problemas nos dados de chuva são decorrentes ao uso depluviômetros, como por exemplo: erro de leitura no pluviômetro; erro de transcrição edigitação; omissão de informação; acumulação diária, entre outros. Portanto, torna-senecessário depurar os erros e preencher as falhas existentes, conquistando maiores níveisde confiabilidade nos dados para aplicações diversas (SALGUEIRO, 2005, p. 16).

Page 19: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 2. Referencial Teórico 18

2.2 Ciência de DadosA Ciência de Dados (do inglês Data Science), sob a ótica de Blei e Smyth (2017),

originou-se a partir de uma união das áreas da estatística e ciência da computação, herdandoalguns métodos e pensamentos. Isto posto, os autores ainda apontam que o produto destaunião naturalmente remodula as técnicas previamente utilizadas em cada campo, com ointuito de traduzir grandes quantidades de dados em previsões úteis e insights.

De forma simplificada, Cady (2017) exemplifica, através da Figura 2, o ciclo geralde procedimentos a serem efetivados na ciência de dados:

Figura 2 – Fluxograma exemplificando o funcionamento da Ciência de Dados

Fonte – Adaptado de Cady (2017, p. 9)

De acordo com o autor, o primeiro passo para obter resultados consiste em entendero potencial futuro uso dos dados crus, desenvolvendo uma problemática a ser solucionada.Consequentemente, há uma fase extensa de análise dos dados, incluindo associar os dadosexistentes com os elementos do mundo real que os representa. Dessa forma, possibilita-sea extração de dados significativos ao problema. Posteriormente, os dados reduzidos sãoinseridos em ferramentas capazes de analisar e retornar resultados.

Cady (2017, p. 9-10) ainda comenta sobre dois aspectos importantes do fluxogramadescrito na Figura 2. Primeiramente, nota-se a existência de um feedback da etapa de mo-delagem/análise final para o enquadramento do problema, devido à constante necessidadede reestruturar problemáticas baseadas em novos insights. Assim, permite-se o refinamentoconstante de métodos aplicáveis (BLEI; SMYTH, 2017).

Além deste ponto, o autor enfatiza a bifurcação existente após a fase de modela-gem/análise. O formato final do resultado deste estudo hipotético pode ser condicionadopara humanos, através de representatividade legível de dados (e.g. apresentação em slides;relatório técnico), ou ser adaptado para uso futuro de máquinas. Esta distinção possuíalta relevância no tópico, diferindo no aspecto da abordagem inicial do problema.

Page 20: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 2. Referencial Teórico 19

Analisando apenas um segmento da ciência de dados, o processo responsável detransformar dados crus provenientes de fontes diversas em um conjunto de dados viávelpara análise convencional intitula-se como Data Wrangling (CADY, 2017, p. 12). Emoutras palavras, este processo resume-se a utilizar ou desenvolver uma ferramenta capaz defiltrar e tratar dados para um formato regularizado (CADY, 2017, p. 12-13), tornando-osaptos a serem analisados e incrementados posteriormente.

2.2.1 Preparação de Dados (Data Wrangling)

Obter resultados através de dados demanda que toda a informação disponívelesteja em um formato manipulável. Porém, as fontes dos dados (e.g. escolas, hospitais,governos) não são capazes de definir previamente qual informação ou formato será utilizadoposteriormente, devido ao número de possibilidades de uso a serem potencialmente cobertas.Por isso, normalmente os dados são disponibilizados de forma crua (VISOCHEK, 2017).

Entretanto, no ato de integrar os dados crus ao problema em questão, várioscontratempos podem ser notados, como por exemplo: informação dispersa em váriasfontes diferentes; tamanhos e formatos que dificultam a manipulação adequada dos dados;informação em excesso e/ou escassez; entre outros (VISOCHEK, 2017).

De acordo com uma pesquisa realizada pela Transforming Data with Intelligence, aproporção do tempo gasto para preparação de dados comparado com o tempo total deanálise é de 61 a 80%. Ademais, aproximadamente 73% dos entrevistados afirmaram queutilizam mais que 41% do tempo exclusivamente em preparação de dados (STODDER,2016, p. 21).

Ainda segundo a pesquisa, estes resultados indicam que investe-se um tempoconsideravelmente alto pelas equipes responsáveis por preparar os dados para análise,possivelmente significando que o desenvolvimento de técnicas de preparação mais apuradase concisas poderia ter um impacto significativo no desempenho.

Alguns autores descrevem tarefas genéricas que representam o básico necessáriopara desempenhar uma preparação de dados correta. Visochek (2017) detalha através decinco etapas: obter os dados necessários; unir os dados de diferentes fontes; limpar possíveisfalhas e dados em excesso; extrair informações úteis em uma estruturação adequada;armazenar o produto resultante para uso futuro.

McKinney (2013) descreve de forma semelhante: importar os dados de formamanipulável; reformular e pivotar dados para transformação posterior; transformar os dados;combinar e unir dados usando relações entre os datasets1; armazenar dados resultantes.A transformação dos dados citada inclui remover duplicatas, obter valores significativosatravés de funções, detectar e filtrar valores atípicos (outliers) etc.

1Conjunto ou coleção de dados, normalmente tabulados.

Page 21: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

20

3 METODOLOGIA

Neste capítulo, será descrita a metodologia utilizada para o desenvolvimento docaso escolhido, com o desígnio final de cumprir os objetivos definidos.

3.1 Classificação da PesquisaO propósito geral da pesquisa consiste em aplicar técnicas de tratamento nos dados

pluviométricos disponíveis, evidenciando métodos gerados para efetivamente melhorar aqualidade dos dados para aplicação posterior, possivelmente em uma das áreas listadas naSeção 2.1.2.

Conforme dissertado por Fonseca (2002, p. 20), a pesquisa quantitativa visa aobjetividade, compreendendo os fatos utilizando dados extraídos através de instrumentospadronizados. Ademais, este tipo de pesquisa busca a explicação de fenômenos e relaçãoentre variáveis através da aplicação de métodos matemáticos. Portanto, a pesquisa emquestão pode ser classificada, quanto ao seu tipo de abordagem, como quantitativa.

Paralelamente, este trabalho pode ser definido como uma pesquisa aplicada. Silveirae Cordova (2009, p. 35) definem, no âmbito da natureza da pesquisa, a modalidadeestabelecida como aplicada por conter implementações práticas, solucionando problemasespecíficos.

Por fim, a pesquisa explicativa pode ser categorizada através da explicação domotivo de fenômenos por meio de resultados (SILVEIRA; CORDOVA, 2009, p. 35). Destaforma, a pesquisa atual também pode ser determinada, no domínio da categoria de objetivoda pesquisa, como uma pesquisa explicativa.

3.2 Preparação de Dados PluviométricosOriginalmente, os datasets de dados pluviométricos são frequentemente compostos

por dois gêneros de listagem: índices pluviométricos temporais de postos de medição dechuva, geralmente baseado em dados diários ou mensais; informações de caráter identifica-tivo sobre cada posto relacionado no item anterior (e.g. código de identificação, latitude,longitude, altitude).

Adaptando as demandas genéricas listadas por Visochek (2017) e McKinney (2013)na Seção 2.2.1, a preparação de dados pluviométricos provenientes de várias fontes incluios seguintes tópicos:

Page 22: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 3. Metodologia 21

1. Remoção de informações excessivas/descartáveis para uso futuro

2. Remoção de postos (e seus índices) que não possuem informações essenciais completas

a) Informação geográfica do posto incompleta ou imprecisa

b) Cruzamento de disponibilidade entre índice e posto incoerente

3. Remoção de outliers e incoerências dos dados

a) Valores irreais marcados como inexistentes (e.g. NaN, -1)

b) Valores de chuva muito acima da realidade do local estudado

c) Registros duplicados para a mesma fonte

4. Unificação de dados

a) Criação de um formato único para os índices pluviométricos

b) Adaptação da formatação dos registros temporais dos índices

c) Conversão das informações geográficas para formato unificado

d) Criação de uma identificação unificada para todos os postos

5. Aplicação de preferências entre datasets

a) Dados pluviométricos conflitantes entre fontes diferentes para o mesmo momento

b) Dados geográficos conflitantes entre fontes diferentes para o mesmo posto

6. Filtragem de dados para aplicações mais específicas

a) Dados originais reduzidos para dados suficientes.

b) Descartar dados fora do nível de qualidade desejado

7. Criação de dados adicionais relevantes

a) Contabilizador do número de registros por posto

b) Coeficiente de preenchimento dos dados ao longo do período existente

3.3 Cenário InicialCom a finalidade de tornar a leitura compreensível, os tipos de datasets descritos,

deste ponto em diante, seguirão a convenção proposta na Seção 3.2. Portanto, os dadospluviométricos neste trabalho são compostos por dois tipos de datasets: dataset de índices oudados (pluviométricos) e dataset de postos (com informações de cada posto pluviométrico).

Page 23: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 3. Metodologia 22

A pesquisa foi desenvolvida utilizando bancos de dados pluviométricos do RioGrande do Norte, sendo composto por dados públicos da SUDENE (2017) e dados privadosda EMPARN, fornecidos pela empresa.

Os dados provenientes da SUDENE encontram-se originalmente no formato .TXT,separando as colunas de dados de forma tabular. Por outro lado, as amostras procedentesda EMPARN estão dispostas em arquivos no formato .DBF.

3.4 InstrumentaçãoVisando aplicar os tópicos de preparação de dados pluviométricos listados na Seção

3.2 nos datasets referenciados na Seção 3.3, a linguagem de programação Python1 foiescolhida como a linguagem utilizada nesta pesquisa, devido à viabilidade de manipulaçãode dados de forma prática e em alto nível.

Com a finalidade de facilitar o manuseio dos dados pluviométricos, foram utilizadasas bibliotecas listadas na Tabela 1. Além destas, o site kepler.gl2 foi utilizado com o intuitode gerenciar mapas com visualização de dados.

Biblioteca DescriçãoPandas3 Conjunto de ferramentas de análise de dados.NumPy4 Ferramentas para computação científica

DBFRead5 Leitor de arquivos .DBFzipfile6 Compressão e descompressão de arquivosShapely7 Cálculos geográficos de fronteira e centróides

Tabela 1 – Bibliotecas utilizadas no desenvolvimento do estudo.

Fonte – Elaborado pelo autor.

1https://www.python.org/2https://kepler.gl/3https://pandas.pydata.org/4https://www.numpy.org/5https://dbfread.readthedocs.io/6https://docs.python.org/3/library/zipfile.html7https://shapely.readthedocs.io/

Page 24: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

23

4 DESENVOLVIMENTO

Neste capítulo, será apresentado todo o desenvolvimento desta pesquisa, almejandopropor uma visão mais aprofundada da problemática e suas soluções.

4.1 Otimização Introdutória dos DatasetsInicialmente, os datasets estão dispostos em diversos arquivos separados. A Tabela

2 demonstra as características iniciais para todos os arquivos crus.

Origem do ArquivoNome

(Linhas)Ocorrências

(Colunas)Atributos Tamanho

a SUDENE pluvio rn.txt 1.819.097 6 103,7 MBb SUDENE pluvio rn tab.txt 123 18 26,8 KBc EMPARN plumovim.dbf 1.595.421 5 31,9 MBd EMPARN PLUPOSTO.DBF 270 18 46,2 KBe EMPARN CHUVAS.DBF 504.413 6 22,7 MBf EMPARN PLUMICRO.DBF 19 2 688 Bg EMPARN PLUMUNIC.DBF 167 4 6,2 KBh EMPARN PLUFONTE.DBF 4 2 207 Bi EMPARN PLUNORMA.DBF 0 51 1,7 KB

Tabela 2 – Distribuição inicial dos dados crus disponíveis.

Fonte – Elaborado pelo autor.

4.1.1 Análise Individual dos Arquivos Crus

a) pluvio rn.txt

O arquivo possui dados pluviométricos diários registrados por postos da SUDENE,catalogados através da identificação do posto por código, o estado onde ocorreu o registro,data (em formato separado) da ocorrência e o valor registrado. Assim, podemos concluirque o arquivo em questão, demonstrado na Figura 3, é um dataset de índice.

Figura 3 – Amostra dos primeiros registros do arquivo pluvio rn.txt.

Fonte – Adaptado a partir dos dados disponibilizados pela SUDENE.

Page 25: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 24

b) pluvio rn tab.txt

O arquivo possui informações referentes aos postos da SUDENE, com até 18atributos listados por posto, com geoinformações inclusas. Trata-se, portanto, de umdataset de postos, conforme exibido parcialmente na Figura 4.

Figura 4 – Amostra parcial dos primeiros registros do arquivo pluvio rn tab.txt.

Fonte – Adaptado a partir dos dados disponibilizados pela SUDENE.

c) plumovim.dbf

O principal registro de dados pluviométricos diários de postos da EMPARN apre-senta configuração similar da formatação exposta na Figura 3 para o arquivo pluvio rn.txt,caracterizando-se como um dataset de índices. Difere, quando comparado ao dataset deíndices da SUDENE, na representação da identificação do posto (utilizando um conjuntode três códigos) e na formatação da data, exibido na Figura 5.

Figura 5 – Amostra dos primeiros registros do arquivo plumovim.dbf.

Fonte – Adaptado a partir dos dados disponibilizados pela EMPARN.

Page 26: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 25

d) PLUPOSTO.DBF

Semelhantemente ao arquivo pluvio rn tab.txt, o arquivo em questão armazena até18 informações pertinentes a cada posto da EMPARN, segundo exposto na Figura 6. Destaforma, este arquivo também pode ser considerado um dataset válido de postos.

Figura 6 – Amostra parcial dos primeiros registros do arquivo PLUPOSTO.DBF.

Fonte – Adaptado a partir dos dados disponibilizados pela EMPARN.

e) CHUVAS.DBF

Diante da possibilidade de ser um dataset de índices válidos, este arquivo foianalisado de forma aprofundada. O resultado obtido demonstrou que os dados existentes emCHUVAS.DBF, exibida parcialmente na Figura 7, são extrações tratadas de plumovim.dbf,possivelmente executada em alguma requisição passada. Portanto, CHUVAS.DBF foidescartado, por se tratar de um subgrupo de plumovim.dbf.

Figura 7 – Amostra dos primeiros registros do arquivo CHUVAS.DBF.

Fonte – Adaptado a partir dos dados disponibilizados pela EMPARN.

Page 27: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 26

f) PLUMICRO.DBF

A Figura 8 exemplifica parte dos dados disponíveis em PLUMICRO.DBF, destinadoà determinar a microrregião dos postos da EMPARN. Pelo fato das únicas informaçõesgeográficas relevantes neste estudo serem latitude, longitude e altitude, os dados dePLUMICRO.DBF não foram utilizados adiante.

Figura 8 – Amostra dos primeiros registros do arquivo PLUMICRO.DBF.

Fonte – Adaptado a partir dos dados disponibilizados pela EMPARN.

g) PLUMUNIC.DBF

Os dados registrados no arquivo permitem uma conversão dos códigos de micror-região e município dos postos da EMPARN para o nome do correspondente município,conforme demonstrado na Figura 9. Devido à irrelevância dos dados, também foi descartadopara este estudo.

Figura 9 – Amostra dos primeiros registros do arquivo PLUMUNIC.DBF.

Fonte – Adaptado a partir dos dados disponibilizados pela EMPARN.

Page 28: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 27

h) PLUFONTE.DBF

O arquivo possui uma relação de códigos, conforme reproduzido na Figura 10,indicando a fonte dos dados de cada posto da EMPARN. Por ser uma informação desprezívelao tratamento, foi descartado.

Figura 10 – Registros do arquivo PLUFONTE.DBF.

Fonte – Adaptado a partir dos dados disponibilizados pela EMPARN.

i) PLUNORMA.DBF

Assim como exposto na Figura 11, o arquivo não possui nenhuma ocorrênciaregistrada, sendo assim automaticamente descartado.

Figura 11 – Amostra parcial dos registros do arquivo PLUNORMA.DBF.

Fonte – Adaptado a partir dos dados disponibilizados pela EMPARN.

Desta forma, apenas os datasets de índices pluvio rn.txt e plumovim.dbf , alémdos datasets de postos pluvio rn tab.txt e PLUPOSTO.DBF foram mantidos para futuramanipulação dos dados. Para isto, tornou-se necessário converter estes arquivos, posto queos formatos originais .TXT e .DBF dificultam manipulação direta e possuem tamanhoexcessivo, quando comparado com alternativas mais modernas.

4.1.2 Conversão

Um pequeno script foi desenvolvido para finalizar a etapa de otimização, objetivandoa conversão dos datasets para o formato .CSV através das bibliotecas Pandas (.TXT para.CSV), DBFRead (.DBF para .CSV) e zipfile (comprimir arquivos), assim viabilizando oarmazenamento dos datasets originais utilizando o mínimo de espaço possível.

Para que a conversão fosse viável, os arquivos necessitavam possuir uma formataçãoaceita pelos conversores utilizados para ambos os formatos .TXT e .DBF. Todos os datasets,exceto por pluvio rn tab.txt, estavam originalmente em formatações satisfatórias.

Page 29: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 28

O arquivo pluvio rn tab.txt originalmente possui tabulação irregular, possivelmentepor ser proveniente de uma exportação adaptada via software, tornando a conversão para.CSV impossível devido à imprevisibilidade do número de tabulações para distinguir cadacoluna. Assim, ajustes manuais foram efetivados na tabulação. A Figura 12 compara adiferença existente entre o arquivo original (Figura 12a) e o arquivo ajustado (Figura 12b).

(a) Formatação inicial.

(b) Formatação ajustada.

Figura 12 – Ajuste de formatação do arquivo pluvio rn tab.txt.

Fonte – Elaborado pelo autor.

Page 30: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 29

Ao executar o script proposto, todos os 4 datasets foram convertidos em cenáriosdistintos. Observou-se um desempenho satisfatório, conforme exposto na Tabela 3, conquis-tando uma redução de aproximadamente 94,62% no tamanho dos datasets simplesmenteconvertendo os arquivos originais em arquivos .CSV zipados.

dos FormatosCenário

dos ArquivosTamanho Total

(segundos)Tempo de Conversão

.DBF + .TXT 135,7 MB -.CSV separados 76,4 MB 32,718

.CSV (.ZIP via bzip2) 7,3 MB 32,674

Tabela 3 – Desempenho do script de conversão.

Fonte – Elaborado pelo autor.

Após serem convertidos, os datasets são armazenados para posteriormente seremimportados pelas bibliotecas Pandas e zipfile. A biblioteca é encarregada por converteros dados, originalmente em .CSV zipado, para a estrutura de dados DataFrame1. Destaforma, possibilita-se a manipulação de dados proposta na Seção 4.2.

4.2 Aplicação de Técnicas de Preparação de Dados PluviométricosUm pacote2 Python foi desenvolvido com o intuito de aplicar as técnicas descritas nos

tópicos da Seção 3.2 aos dados obtidos após análise introdutória e conversão. A progressãodas técnicas foi arquitetada através de módulos de fase, englobando as aplicações necessáriaspara tornar os dados aptos para uso futuro. Em outras palavras, um script global executacada fase necessária, em forma de módulo, para preparar os dados.

4.2.1 Módulo 1 – init_treat.py

O módulo init_treat.py foi desenvolvido com a finalidade de tratar os DataFramesrecém-importados preliminarmente. Este módulo é responsável por:

I) Remover todas as colunas de informações irrelevantes ao estudo (tópico 1)

O foco demandado geralmente consiste em conservar listagens de informaçõesgeográficas em forma de coordenadas, códigos de identificação padronizados e índices plu-viométricos temporais. Assim, parte majoritária dos atributos disponíveis, principalmentenos datasets de postos, são descartáveis devido à falta de demanda de uso futuro. A listade atributos descartados inclui: nome do observador do posto, endereço do posto, telefonepara contato, nome do posto, nome do município, entre outros.

1https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html2Conjunto de módulos, ou scripts.

Page 31: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 30

Entretanto, o descarte destes dados não indica uma perda irreversível. O códigode identificação de cada fonte, por exemplo, pode servir como chave estrangeira paraacesso futuro dos dados descartados através dos datasets crus, sendo assim um atributoimportante a ser conservado.

II) Remover postos com informação geográfica incompleta (tópico 2a)

Alguns postos foram descartados por ausência de informação geográfica completa, ouseja, pelo menos um dos itens essenciais (latitude, longitude ou altitude) não estava devida-mente registrado. Isto acarretou em uma limpeza posterior de alguns índices pluviométricosvinculados aos postos descartados, conforme descrito no módulo clear_df.py.

III) Unificar o formato dos índices pluviométricos para uma casa decimal (tópico 4a)

IV) Converter o formato de data para datetime em cada registro de chuva (tópico 4b)

A unificação do formato do índice pluviométrico e data foi essencial para o futurouso das ferramentas de manipulação e análise.

V) Converter as coordenadas geográficas para o formato decimal (tópico 4c)

No momento da análise preliminar dos arquivos, observou-se que as coordenadasgeográficas de ambas as fontes possuíam quatro dígitos não-decimais, conforme exibidopela Figura 6 nas colunas ALATITUDE e ALONGITUDE.

Ao executar alguns testes, constatou-se que o formato poderia ser uma forma redu-zida de coordenadas DMS, no qual os dois primeiros dígitos significavam a quantidade degraus, e os dois últimos dígitos significavam a quantidade de minutos. Visando praticidadeno uso posterior destas informações em ferramentas, uma conversão deste formato paragraus decimais (DD) foi efetivada.

Figura 13 – Posicionamento do Rio Grande do Norte no mapa-mundi.

Fonte – Elaborado pelo autor.

Page 32: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 31

Por convenção do formato DD, atribuiu-se sinal negativo para as coordenadas. Istotornou-se necessário devido à posição do Rio Grande do Norte no terceiro quadranterelativo ao Meridiano de Greenwich e a Linha do Equador, conforme exposto na Figura13. Além disso, a precisão das coordenadas decimais foi limitada em três casas decimais,dado que a fonte original não possui precisão no patamar dos segundos.

Após a conversão ser concluída, foi desenvolvido um método de processamento paravalidação das coordenadas, objetivando averiguar se todos os postos listados estão, de fato,localizados no Rio Grande do Norte. Este método utilizou a biblioteca Shapely, associadaa um arquivo .GeoJSON como base para delimitar o território da unidade federativa(BRUGNARA, 2015). Desta forma, foi possível detectar falhas de registro caso algum dospostos esteja erroneamente catalogado fora do estado.

4.2.2 Módulo 2 – clear_df.py

O módulo clear_df.py possui a finalidade de limpar os DataFrames, preparando-ospara a unificação posterior. Para tanto, o módulo efetiva as seguintes funções:

I) Remover ocorrências inexistentes/duplicadas (tópicos 3a e 3c)

Alguns registros foram descartados por possuírem valores irreais para o caso estu-dado. No âmbito dos índices, os valores abaixo de zero ou exatamente em 999,9mm diárioforam removidos, por serem valores comumente utilizados como dummy para indicar valorinexistente em bancos de dados de chuva. Já no contexto temporal, datas antes3 do ano1678 ou depois do momento corrente de execução do código foram retiradas dos datasets.Além destes, outros registros também foram retirados devido à presença de duplicatas,mantendo apenas uma das cópias.

II) Procurar por paridade entre DataFrames de índices e postos (tópico 2b)

A remoção de postos pluviométricos com informação geográfica incompleta, ocorridano módulo init_treat.py, assim como as remoções promovidas no item anterior deste módulo,podem gerar assincronia entre os DataFrames de índices e postos. Portanto, sem qualquertratamento neste aspecto, os DataFrames posteriormente apresentariam inconsistênciasentre si.

Para tanto, uma ferramenta foi desenvolvida para remover possíveis resíduos causa-dos pela assincronia. Ou seja, houve a verificação dos cenários onde postos foram removidose os seus respectivos índices mantiveram-se no DataFrame de índices, assim como a situaçãono qual todos os índices de um determinado posto foram descartados previamente, semretirar o posto em questão do DataFrame de postos. Desta forma, após a concretização dasincronia, possibilitou-se a unificação dos DataFrames no módulo unif_df.py.

3https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timestamp-limitations

Page 33: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 32

4.2.3 Módulo 3 – unif_df.py

O propósito do desenvolvimento do módulo unif_df.py consiste em unificar osDataFrames de índices e postos provenientes da EMPARN e SUDENE, através dasseguintes manipulações:

I) Criação de uma identificação padronizada para todos os postos (tópico 4d)

Com o intuito final de maximizar a unificação dos dados disponíveis, uma iden-tificação foi gerada para todos os postos listados de ambas as fontes. Assim, todos osíndices pluviométricos registrados podem ser alocados no mesmo DataFrame, sem possuirdependência direta com a sua identificação de posto original.

Os códigos originais de cada fonte foram mantidos no DataFrame de postos, conse-quentemente permitindo que a identificação unificada sirva como chave estrangeira paraum potencial acesso, mantendo a integridade histórica inalterada.

No ato de padronizar a identificação de postos, notou-se que alguns postos daEMPARN possuíam código SUDENE registrado, potencialmente revelando conflitos dedados entre as fontes. Em razão disso, medidas foram aplicadas aos casos, conformeresumido nos pontos seguintes.

II) Resolver índices pluviométricos conflitantes/incoerentes (tópico 5a)

Dois cenários foram ponderados como importantes em eventos de conflito de índices.Primeiramente, caso existisse uma ocorrência nas duas fontes para o mesmo posto nomesmo dia, optou-se pelo índice registrado pela EMPARN, por tratarem-se de dados maisconfiáveis. Em outra situação hipotética, embora quiçá absurda, poderiam existir duasocorrências registradas no mesmo posto para a mesma fonte. Neste caso, foi priorizada aocorrência com maior medição.

Para todos os cenários, um novo atributo foi criado, com o intuito de demonstrar aorigem do índice pós-unificação.

III) Resolver geoinformações conflitantes/incoerentes (tópico 5b)

Em caso de conflito de coordenadas geográficas entre fontes para o mesmo posto,as coordenadas da EMPARN foram priorizadas, devido a maior confiabilidade em relaçãoaos dados da SUDENE.

IV) Simplificar código da EMPARN (tópico 6a)

Após a finalização de todos os procedimentos que necessitavam dos códigos relativosaos postos da EMPARN, unificou-se o código em questão, aglutinando as três colunasexistentes (código do município, dígito do município e código do posto) em uma únicacoluna.

Page 34: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 33

4.2.4 Módulo 4 – reduce_df.py

Omódulo reduce_df.py realiza ações redutoras no DataFrame de índices, objetivandoproduzir dados mais compactos porém ainda relevantes ao caso. Este módulo é de usofacultativo, em vista que a redução temporal de dados não é essencial para o prosseguimentode todos os cenários de preparação de dados pluviométricos. Suas funções consistem empromover as seguintes finalidades:

I) Dados diários reduzidos para dados mensais (tópicos 6a e 7b)

Conforme verificado por Ly, Charles e Degre (2011), a maioria das aplicaçõesreferentes a interpolação espacial de dados de precipitação utilizam passo temporal mensalou anual. Por isso, os índices disponíveis, originalmente em passo temporal diário, foramagrupados em ocorrências mensais, através do cálculo da soma das ocorrências dentro doperíodo de um mês.

Este procedimento gerou um novo atributo aos índices, nomeado Coeficiente dePreenchimento Mensal (CPM). Cada ocorrência mensal possui uma indicação da integridadeoriginal dos dados, apresentando uma percentagem de cobertura de dados diários no referidomês.

II) Filtrar dados por CPM e percentil (tópicos 6b e 3b)

Consequentemente, alguns índices mensais podem apresentar um valor de CPMbaixo, indicando insuficiência para tornar o índice mensal válido. Para tanto, o módulofiltra o DataFrame dos índices por valor mínimo aceitável de CPM. Além disso, foiimplementada uma função direcionada para filtragem das ocorrências através do percentilmáximo aceitável, eliminando potenciais valores erroneamente registrados.

4.2.5 Módulo 5 – pre_export.py

Finalmente, o módulo pre_export.py prepara os DataFrames para serem exportados,efetivando os seguintes incrementos:

I) Adicionar atributos extras às informações dos postos (tópico 7a)

Algumas informações pertinentes são adicionadas ao DataFrame dos postos: quanti-dade de ocorrências disponíveis no DataFrame de índices; datas limítrofes do primeiro aoúltimo registro existente para cada posto.

II) Adicionar Coeficiente de Preenchimento Total (CPT) dos postos (tópico 7b)

O Coeficiente de Preenchimento Total (CPT) é calculado de forma semelhante aoCPM, analisando a disponibilidade de dados ao longo do período descrito pelos atributoscriados no item anterior.

Page 35: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 34

4.3 Exemplo de Tipo de Aplicação Pós-Tratamento: InterpolaçãoApós a execução dos módulos descritos na Seção 4.2, os DataFrames foram expor-

tados de forma compactada. Com isso, a preparação de dados pluviométricas foi concluída,disponibilizando os dados tratados para usos diversos.

Com o objetivo exemplificativo, um conjunto de scripts foi desenvolvido com afinalidade de aplicar uma técnica de interpolação nos índices pluviométricos, visandoanalisar a eficácia da referente técnica sob os dados disponíveis. Caso a eficácia fossecomprovada, possibilita-se a utilização da dita técnica para diversas aplicações, como aampliação da cobertura histórica dos dados existentes, consequentemente elevando o CPTdos postos listados.

4.3.1 Interpolação para Índices Pluviométricos

Dados de chuva desconhecidos podem ser calculados através de técnicas catego-rizadas como interpolações espaciais, temporais ou espaço-temporais. No primeiro caso,estima-se o índice pluviométrico para um local baseado em medições espacialmente vizinhasnaquele mesmo período; já na segunda classificação, a ocorrência é virtualmente aferidabaseando-se no histórico de chuva daquele local exclusivamente. Por último, aplica-se ainterpolação espaço-temporal como uma fusão das duas anteriormente descritas.

Neste trabalho, foi aplicado um método de interpolação espacial. Segundo Ly,Charles e Degre (2011), calcula-se o valor estimado através deste tipo de interpolação por:

V ∗h =

T∑i=1

λi,hVobsi(4.1)

Onde:

- V ∗h representa o valor interpolado para o posto h com medição desconhecida;

- T representa o número de medições vizinhas disponíveis na mesma data;

- λi,h representa o peso da medição vizinha i relativo ao posto h;

- Vobsirepresenta o valor da medição vizinha i.

4.3.2 Inverso da Potência das Distâncias

O método determinístico denominado como Inverso da Potência das Distâncias(do inglês Inverse Distance Weighting, ou IDW) consiste em estimar valores de um pontodesconhecido através de uma ponderação de pontos vizinhos, baseando-se na hipótese quepontos mais próximos de um determinado ponto a ser estimado são mais influentes.

Page 36: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 35

Conforme adaptado de Ly, Charles e Degre (2011), o peso de cada medição vizinha,relativa a um posto h com medição desconhecida em um determinado momento, descritana Equação 4.1, pode ser calculado por:

λi,h =D−d

i,h

T∑j=1

D−dj,h

(4.2)

Onde:

- λi,h representa o peso calculado a ser inserido na Equação 4.1 para cada posto vizinhoao posto h com medição desconhecida;

- Di,h representa a distância do posto i até o posto h com medição desconhecida;

- Dj,h representa a distância do posto j até o posto h com medição desconhecida.

- T representa a quantidade de postos vizinhos com medição conhecida;

- d representa um parâmetro de potência, maior que zero;

O valor do parâmetro d define o nível de parentesco que um suposto valor interpoladotem com seus vizinhos mais próximos. No âmbito da interpolação de índices pluviométricos,este valor é associado ao período de medição nos dados existentes. Segundo Dirks et al.(1998), d normalmente equivale a 2 quando os dados estão em passo diário ou mensal,assim minimizando os erros de interpolação.

4.3.3 Critérios de Validação

Almejando a verificação da eficácia de um hipotético método interpolador aos índicespluviométricos existentes, a validação cruzada pode ser efetivada ao extrair amostras dodataset de índices, estimar o valor interpolado no posto/data de cada ocorrência e compararposteriormente com o valor real registrado através de artifícios estatísticos (ISAAKS, 1989).

Idealmente, este gênero de validação seria aplicado em todos os dados existentes,visando garantir a comprovação da eficácia do método. Entretanto, a validação cruzadapode consumir tempos de processamento exacerbados caso o dataset a ser testado sejaexcessivamente volumoso. Por isso, testa-se o método proposto com o maior númeropossível de amostras, dentro da capacidade computacional disponível, com o intuito degeneralizar a comprovação da eficácia.

A comparação entre medições estimadas e reais da amostra extraída pode serrealizada pelo cálculo da Raiz do Erro Quadrático Médio (do inglês Root Mean SquareError, ou RMSE) e do Coeficiente de Correlação de Pearson (CCP).

Page 37: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 4. Desenvolvimento 36

a) RMSE

RMSE =√√√√ 1n

n∑i=1

(V ∗i − Vi)2 (4.3)

Onde:

- V ∗i representa o valor estimado pela interpolação para o posto/data i;

- Vi representa o valor real do posto/data i;

- n representa o tamanho da amostra analisada.

O RMSE, de forma ótima, deve possuir valor próximo de 0, sendo comumenteutilizado para fins comparativos entre métodos de interpolação para datasets com a mesmaunidade métrica.

b) CCP

CCP =

n∑i=1

(V ∗i − V ∗)(Vi − V )√

n∑i=1

(V ∗i − V ∗)2 ·

√n∑

i=1(Vi − V )2

(4.4)

Onde:

- V ∗i representa o valor estimado pela interpolação para o posto/data i;

- V ∗ representa a média dos valores estimados pela interpolação;

- Vi representa o valor real do posto/data i;

- V representa a média dos valores reais registrados;

- n representa o tamanho da amostra analisada.

O valor resultante de CCP pode ser interpretado por meio da análise da Tabela 4,verificando o grau de correlação entre duas variáveis métricas.

CCP Interpretação.90 até 1.00 (-.90 até -1.00) Correlação Positiva (Negativa) Muito Forte.70 até .90 (-.70 até -.90) Correlação Positiva (Negativa) Forte.50 até .70 (-.50 até -.70) Correlação Positiva (Negativa) Moderada.30 até .50 (-.30 até -.50) Correlação Positiva (Negativa) Baixa.00 até .30 (-.00 até -.30) Correlação Positiva (Negativa) Desprezível

Tabela 4 – Interpretação do valor resultante de CCP.

Fonte – Adaptado de Hinkle (2003).

Page 38: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

37

5 RESULTADOS

Anteriormente nas Seções 4.2 e 4.3, foram descritas as especificações de cadamódulo e script a ser utilizado para promover a preparação e a execução da aplicaçãopós-tratamento, respectivamente, dos datasets provenientes da EMPARN e SUDENE.Neste capítulo, serão expostos os resultados relevantes obtidos pela aplicação dos tópicoslistados nas Seções citadas aos referentes datasets.

5.1 Preparação de DadosOs resultados do processamento de dados efetivado pelos módulos da Seção 4.2

serão apresentados abaixo, demonstrando o aperfeiçoamento gerado pelas funções dosmódulos criados.

5.1.1 Resultados do Módulo init_treat.py

EMPARNÍndices

SUDENEÍndices

EMPARNPostos

SUDENEPostos

Antes 1.595.421 x 5 1.819.097 x 6 270 x 18 123 x 18Depois 1.595.421 x 5 1.819.097 x 3 210 x 7 123 x 4

Tabela 5 – Progresso das dimensões dos datasets com o módulo init_treat.py

Fonte – Elaborado pelo autor.

A) 25 colunas (de 36) dos datasets de postos consideradas irrelevantes ao estudo foramremovidas pelo módulo, sendo 11 da EMPARN e 14 da SUDENE.

B) 60 postos (de teóricos1 393) foram descartados por informação geográfica incompleta,todos originários da EMPARN. Nenhum dos postos possuía código SUDENE associado,portanto não houve qualquer alternativa para obter as informações completas.

16 postos não possuíam qualquer uma das três informações (latitude, longitude oualtitude) e 44 não possuíam apenas a informação da altitude disponível.

C) A conversão da data de registro de cada índice pluviométrico para datetime reduziu,no dataset de índices da SUDENE, o número de colunas de 6 para 3. Por outro lado, pelofato do dataset de índices da EMPARN originalmente utilizar uma única coluna com estepropósito, a dimensão se manteve inalterada.

1Posteriormente, constata-se que existem postos em comum entre os datasets.

Page 39: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 38

D) A ferramenta de validação de coordenadas apontou que 7 postos estavam posicio-nados fora do estado, por uma distância inferior a um quilômetro da fronteira, assim comomostrado nas Figuras 14 e 15.

A ausência dos segundos na fonte das coordenadas propiciou uma margem de errode aproximadamente um quilômetro, gerando situações de falso positivo. Isto posto, todosos 7 postos foram mantidos adiante.

Figura 14 – Postos listados virtualmente fora do Rio Grande do Norte.

Fonte – Elaborado pelo autor.

Figura 15 – Localização dos postos filtrados pela validação de coordenadas.

Fonte – Elaborado pelo autor.

Page 40: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 39

5.1.2 Resultados do Módulo clear_df.py

EMPARNÍndices

SUDENEÍndices

EMPARNPostos

SUDENEPostos

Antes 1.595.421 x 5 1.819.097 x 3 210 x 7 123 x 4Depois 1.317.711 x 5 1.819.097 x 3 210 x 7 123 x 4

Tabela 6 – Progresso das dimensões dos datasets com o módulo clear_df.py

Fonte – Elaborado pelo autor.

A) Todos os 277.710 índices descartados neste módulo provieram do dataset de índicesda EMPARN. Destes:

• 187.049 índices foram caracterizados como valores dummy configurados exatamente em999,9mm, provavelmente com o propósito de preencher linhas de tempo incompletas;

• 83.907 índices pertenciam a postos removidos anteriormente pelo módulo init_treat.pypor informação geográfica incompleta;

• 4.270 índices foram descartados por serem duplicatas;

• 2.239 índices não possuíam pelo menos um dos atributos preenchidos;

• 245 índices foram catalogados erroneamente em datas futuras, variando entre 2021 e2056.

B) Nenhum posto foi removido por este módulo, indicando que não existem postosduplicados no dataset de postos em ambas as fontes, tampouco com ausência total deíndices disponíveis pós-processamento até o momento.

5.1.3 Resultados do Módulo unif_df.py

EMPARNÍndices

SUDENEÍndices

EMPARNPostos

SUDENEPostos

Antes 1.317.711 x 5 1.819.097 x 3 210 x 7 123 x 4

Tabela 7 – Dimensões dos datasets antes de executar o módulo unif_df.py

Fonte – Elaborado pelo autor.

UnificadosÍndices

UnificadosPostos

Depois 3.090.586 x 4 229 x 6

Tabela 8 – Dimensões dos datasets depois de executar o módulo unif_df.py

Fonte – Elaborado pelo autor.

Page 41: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 40

A) As 3.090.586 ocorrências se dividem quanto a sua origem nas seguintes proporções:

• 1.773.047 índices são derivados do dataset da SUDENE (código S);

• 1.271.317 índices são derivados do dataset da EMPARN (código E);

• 45.486 índices são derivados de ambos os datasets (código SE);

• 564 índices são derivados a partir da preferência da EMPARN acima da SUDENEem medições distintas para a mesma data/posto (código SE+);

• 172 índices são derivados por confirmação da maior medição disponível pela EMPARN,no cenário onde índices diferentes existem para a mesma data/posto (código E+);

• Nenhum índice foi catalogado como maior medição disponível pela SUDENE (códigoS+) ou preferência de maior medição disponível da EMPARN acima da SUDENE(código SE++), ambas situações para a mesma data/posto.

B) 229 postos compõem o dataset unificado de postos, sendo:

• 106 postos exclusivos da EMPARN;

• 104 postos catalogados por ambas as fontes;

• 19 postos exclusivos da SUDENE.

(a) Dataset de índices.

(b) Dataset de postos.

Figura 16 – Amostras aleatórias de ocorrências dos datasets pós-unificação.

Fonte – Elaborado pelo autor.

Page 42: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 41

5.1.4 Resultados do Módulo reduce_df.py

UnificadosÍndices

UnificadosPostos

Antes 3.090.586 x 4 229 x 6Depois 99.598 x 5 229 x 6

Tabela 9 – Progresso das dimensões dos datasets com o módulo reduce_df.py

Fonte – Elaborado pelo autor.

A) O remapeamento dos dados diários para dados mensais transformou 3.090.586índices diários em 103.520 índices mensais, propiciando uma redução de 96,65%.

B) A distribuição do CPM nos 103.520 índices, conforme exibida no histograma acumu-lado da Figura 17, demonstra um ótimo aproveitamento na redução, com aproximadamente0,98 de CPM médio (indicado pela linha tracejada preta). Analisando o eixo do númerode ocorrências acumuladas, percebe-se que a maioria incontestável dos meses registradospossui CPM acima de 0,95.

Portanto, os registros foram filtrados a partir de 0,95 CPM, purificando os índi-ces mensais disponíveis. Nesta etapa, apenas 3.822 índices mensais (ou 3,692%) foramdescartados, reduzindo o total para 99.698 registros disponíveis.

Figura 17 – Distribuição acumulada do CPM ao longo dos dados recém-reduzidos.

Fonte – Elaborado pelo autor.

C) Segundo Su et al. (2012), os índices pluviométricos limitantes para consideraruma chuva como extrema são usualmente associados aos percentis 90, 95 e 99 dos dadosexistentes da região em questão. A filtragem por percentil foi aplicada ao percentil 99.9,descartando 100 índices (ou 0,1%) potencialmente registrados de forma errônea. Os índicesmensais foram distribuídos pelas origens conforme demonstrado na Tabela 10.

Page 43: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 42

S/SE E/E+ SE/SE+ SE E S Total1 102 164 1.348 39.785 58.198 99.598

Tabela 10 – Proporção de origens dos índices mensais pós-filtro de CPM e percentil.

Fonte – Elaborado pelo autor.

5.1.5 Resultados do Módulo pre_export.py

UnificadosÍndices Diários

UnificadosÍndices Mensais

UnificadosPostos

Antes 3.090.586 x 4 99.598 x 5 229 x 6Depois 3.090.586 x 4 99.598 x 5 229 x 10

Tabela 11 – Progresso das dimensões dos datasets com o módulo pre_export.py

Fonte – Elaborado pelo autor.

A) Conforme constatado na Tabela 11 e na descrição do módulo, este módulo promoveincremento de atributos exclusivamente no dataset de postos. A Tabela 12 demonstra,em média, os valores relevantes extraídos dos novos atributos. A Figura 18 exibe adisponibilidade de dados diários e mensais no momento da exportação, demonstrandointegridade proporcional dos registros após a execução do módulo reduce_df.py.

Índices/Posto MédioCPT

Diários 13.496 0,83Mensais 435 0,84

Tabela 12 – Estatísticas de média obtidas por atributos gerados por pre_export.py

Fonte – Elaborado pelo autor.

B) Os datasets são exportados para armazenamento nesta etapa, resultando em datasetsconforme exibido na Figura 19, dependendo apenas se foi efetivado o uso do móduloreduce_df.py. A Tabela 13 indica o progresso do tamanho dos arquivos gerados ao longodo procedimento de preparação dos dados.

(Pós-conversão)Original

(diário)Pós-DW

(mensal)Pós-DW

(descompactado)Tamanho Total 76,4 MB 74,4 MB 2,6 MB

(compactado)Tamanho Total 7,3 MB 6,1 MB 331,5 KB

Tabela 13 – Progresso do tamanho dos arquivos gerados pelo processamento de dados.

Fonte – Elaborado pelo autor.

Page 44: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 43

(a) Índices diários

(b) Índices mensais (pós-filtro de CPM e percentil)

Figura 18 – Disponibilidade dos dados via CPT e quantidade de dados.

Fonte – Elaborado pelo autor.

Page 45: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 44

(a) Dataset diário de índices.

(b) Dataset de postos com ocorrências diárias.

(c) Dataset mensal de índices.

(d) Dataset de postos com ocorrências mensais.

Figura 19 – Amostras aleatórias de ocorrências dos datasets exportados.

Fonte – Elaborado pelo autor.

Page 46: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 45

5.2 Aplicação Pós-Tratamento: InterpolaçãoA interpolação espacial descrita na Seção 4.3 foi implementada em scripts com

diferentes propósitos, utilizando dados mensais. Preliminarmente, um índice escolhido ale-atoriamente foi analisado para exemplificar o funcionamento do método IDW visualmente.

(a) Utilizando parâmetro de potência d = x

(b) Utilizando parâmetro de potência d = y, y > x

Figura 20 – Representação visual do método IDW (P-0171, Novembro de 2009).

Fonte – Elaborado pelo autor.

Page 47: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 46

Conforme exibido nas Figuras 20a e 20b, atribui-se um valor interpolado ao postoalvo P-0171, representado pelo círculo branco ao sul do estado, a partir dos valoresregistrados pelos postos vizinhos.

O tamanho dos círculos foi definido proporcionalmente ao índice registrado por cadaposto. Ademais, as cores de cada medição foram definidas baseando-se no peso de cadamedição vizinha relativo ao posto alvo, apresentando cor mais escura caso possuísse pesomaior. As Figuras 20a e 20b diferem no aspecto hipotético de uso distinto do parâmetrode potência d, demonstrando maior dependência dos índices de postos mais próximos casoo parâmetro em questão seja incrementado.

Desse modo, o método foi aparentemente implementado de forma correta, demons-trando coerência visual entre a Figura 20 e a teoria descrita na Seção 4.3. Entretanto,validações numéricas são necessárias para comprovar a eficácia do método aplicado aosdados pluviométricos existentes.

5.2.1 Validações Numéricas

A) Validação espacial com baixa interferência

A interpolação foi aplicada para pontos intermediários entre os dois postos-alvo,objetivando verificar se a interpolação correspondia à progressão prevista entre os índicesregistrados por cada posto. Para tanto, os índices dos postos-alvo foram escolhidos sob acondição de não possuir outros postos relativamente próximos à linha de pontos interme-diários gerada, amenizando a interferência externa no experimento, conforme exibido nasFiguras 21a e 22a. As Figuras 21b e 22b demonstram que os valores interpolados entre osdois postos possuem progressão correspondente ao previsto na teoria, com leve influênciados postos ao redor.

(a) Visão geral dos postos analisados (Junhode 1945)

(b) Interpolação dos pontos intermediários(Junho de 1945)

Figura 21 – Representação visual do método IDW (Junho de 1945).

Fonte – Elaborado pelo autor.

Page 48: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 47

(a) Visão geral dos postos analisados (Maiode 1978)

(b) Interpolação dos pontos intermediários(Maio de 1978)

Figura 22 – Representação visual do método IDW (Maio de 1978).

Fonte – Elaborado pelo autor.

B) Validação espacial com alta interferência

A interpolação foi efetivada com a finalidade de verificar a influência de um terceiroposto suficientemente próximo aos pontos intermediários entre dois postos-alvo. O resultado,exposto nas Figuras 23a e 23b, indica que o terceiro posto exerce considerável influênciasobre os pontos intermediários dispostos, conforme previsto na teoria do método IDW.

(a) Interpolação dos pontos intermediários (Maio de 2001)

Page 49: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 48

(b) Interpolação dos pontos intermediários (Junho de 2001)

Figura 23 – Representação visual do método IDW (Maio e Junho de 2001).

Fonte – Elaborado pelo autor.

C) Validação cruzada

A validação cruzada foi efetivada conforme descrito na Seção 4.3.3, calculando ovalor de RMSE e CCP entre os índices pluviométricos estimados através do método IDWe os índices reais, para um crescente número de amostras aleatórias do dataset de índices.

Figura 24 – Progressão da média acumulada de RMSE e CCP.

Fonte – Elaborado pelo autor.

Page 50: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 49

A Figura 24 pode ser analisada em dois aspectos. Primeiramente, ao fundo, observam-se todos os valores de RMSE e CPP calculados para 10 a 500 amostras aleatórias, em passo10. Além disso, as linhas evidentes demonstram a média acumulada dos cálculos, tambémcalculada em passo 10. As linhas das médias acumuladas apontam que, conforme cresci-mento do número de amostras, os valores de RMSE e CPP convergem, respectivamente,em 38,82mm/mês (ou aproximadamente 1,28mm/dia) e 0,893.

Comparando o valor de RMSE obtido aos valores encontrados em outros estudos(Ly, Charles e Degre (2011), Yang et al. (2015)), atingiu-se um resultado satisfatório. Emrelação ao CPP, o valor calculado pode ser classificado como uma Correlação Positiva Forte,indicando que existe alto nível de coerência na estimativa feita pela interpolação proposta.Portanto, o método IDW pode ser considerado adequado para os dados disponíveis nesteestudo.

5.2.2 Exemplo de Uso

A implementação com sucesso do método IDW possibilita o cálculo estimado deíndices pluviométricos para qualquer ponto geográfico suficientemente próximo dos postoscom disponibilidade de dados pluviométricos. Para tanto, um script foi desenvolvido com afinalidade de estimar índices de chuva para todos os municípios delimitados no Rio Grandedo Norte em uma determinada data.

Todos os municípios do estado foram delimitados através de um arquivo .GeoJSON(BRUGNARA, 2015), e o centroide de cada município foi utilizado como ponto de referênciapara obter o valor estimado, conforme exibido na Figura 25.

Figura 25 – Localização dos municípios do Rio Grande do Norte e seus centroides.

Fonte – Elaborado pelo autor.

Page 51: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 50

As Figuras 26a, 26b, 26c e 26d demonstram o resultado da execução do script.A intensidade de cor de preenchimento de cada município indica o valor estimado pelocentroide correspondente na data-alvo, assim como a intensidade de cor de cada posto comíndice catalogado para a data-alvo indica o valor real registrado. Observa-se claramente arelação entre o valor calculado para cada município e o valor registrado por cada posto emsuas redondezas.

(a) Abril de 1925

(b) Setembro de 1940

Page 52: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 5. Resultados 51

(c) Março de 1976

(d) Janeiro de 2008

Figura 26 – Representação visual dos valores interpolados para municípios.

Fonte – Elaborado pelo autor.

Page 53: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

52

6 CONCLUSÃO

Os scripts desenvolvidos prepararam os dados pluviométricos de forma suficiente-mente eficiente, permitindo que o uso posterior dos dados tratados demonstrasse coerênciaentre a teoria proposta e a implementação efetivada. Portanto, conforme dissertado aolongo do trabalho, os objetivos listados na Seção 1.4 foram cumpridos com sucesso.

6.1 Sugestões de Trabalhos FuturosA) Aumento da precisão de localização dos postos

A Figura 27 demonstra os arcos entre os 104 postos registrados em comum porparte da SUDENE (extremidade em branco) e EMPARN (extremidade em preto). Adiscrepância apresentada provavelmente provêm da imprecisão dos dados geográficos decada posto, limitados em graus e minutos, conforme descrito na Seção 4.2.1. Possivelmente,o incremento na precisão geográfica para a casa dos segundos, além da revisão dasgeoinformações existentes por ambas as fontes, resolveria o problema.

Figura 27 – Discrepância geográfica apresentada entre registros das duas fontes.

Fonte – Elaborado pelo autor.

B) Obtenção de altitude para postos incompletos

Conforme exposto na Seção 5.1.1, 44 postos não possuíam a disponibilidade dainformação de altitude. Por questões de controle de qualidade dos dados, os postos nãoforam mantidos, acarretando na rejeição de 63.194 índices diários.

Page 54: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Capítulo 6. Conclusão 53

Entretanto, caso o controle de qualidade do estudo permita, o descarte pode serevitado estimando a altitude através de APIs de mapas (e.g. OpenElevation1, GoogleElevation2).

C) Aplicação de outros métodos de interpolação

Embora o método IDW tenha apresentado resultados satisfatórios, outros métodosde interpolação espaço-temporais devem ser testados, com o propósito de encontrar omenor erro possível entre dado estimado e real.

D) Criação de aplicação generalizada de preparação de dados pluviométricos

Neste trabalho, o procedimento aplicado aos dados existentes foi moldado atravésde uma análise prévia das propriedades originais dos dados, impossibilitando o uso futuroda aplicação para outros formatos de datasets de dados pluviométricos. Portanto, a criaçãode um protocolo para cumprir todos os pontos da Seção 3.2 em qualquer dataset dedados pluviométricos torna-se necessária para facilitar o desenvolvimento de aplicações depreparação de dados de chuva em outros cenários.

1https://open-elevation.com2https://developers.google.com/maps/documentation/elevation/intro

Page 55: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

54

REFERÊNCIAS

ANTONIO, C. A. D. A. GEOESTATÍSTICA APLICADA À ACUMULAÇÃO DAPRECIPITAÇÃO PLUVIOMÉTRICA COM RADAR METEOROLÓGICO. Dissertação(Mestrado) — UNIVERSIDADE ESTADUAL PAULISTA JÚLIO DE MESQUITAFILHO, aug 2007. 17

BLEI, D. M.; SMYTH, P. Science and data science. Proceedings of the National Academyof Sciences, National Academy of Sciences, 2017. ISSN 0027-8424. Disponível em:<http://www.pnas.org/content/early/2017/08/04/1702076114>. 18

BRUGNARA, T. Arquivos Geojson com perímetros dos municípios brasileiros por estado.2015. Disponível em: <https://github.com/tbrugz/geodata-br>. Acesso em: 11 nov. 2018.31, 49

CADY, F. The data science handbook. Hoboken, NJ: John Wiley & Sons, Inc, 2017. ISBN1119092949. 18, 19

DAEE. O POSTO PLUVIOMÉTRICO. 2000. Disponível em: <http://www.daee.sp.gov-.br/acervoepesquisa/relatorios/pluvpmsp/capitulo02.htm>. Acesso em: 05 mai. 2019.15

DIRKS, K. et al. High-resolution studies of rainfall on norfolk island. Journalof Hydrology, Elsevier BV, v. 208, n. 3–4, p. 187–193, Jul 1998. Disponível em:<http://dx.doi.org/10.1016/S0022-1694(98)00155-3>. 35

FISCH, G.; VENDRAME, I.; HANAOKA, P. Cesar de M. Variabilidade espacial da chuvadurante o experimento lba/trmm 1999 na amazônia. Acta Amazonica, v. 37, 01 2007. 16

FONSECA, J. J. S. da. Metodologia da pesquisa científica. 2002. 20

HINKLE, D. Applied statistics for the behavioral sciences. Boston, Mass. London:Houghton Mifflin Hi Marketing (distributor, 2003. ISBN 978-0618124053. 36

ISAAKS, E. Applied geostatistics. New York: Oxford University Press, 1989. ISBN0-19-505012-6. 35

LY, S.; CHARLES, C.; DEGRE, A. Geostatistical interpolation of daily rainfall atcatchment scale: the use of several variogram models in the ourthe and amblevecatchments, belgium. Hydrology and Earth System Sciences, Copernicus GmbH, v. 15, n. 7,p. 2259–2274, Jul 2011. Disponível em: <http://dx.doi.org/10.5194/hess-15-2259-2011>.33, 34, 35, 49

MARTINS, J. E. M. P. IMPLEMENTAÇÃO DE UM PROTÓTIPO ELETRÔNICOPARA REGISTROS DIÁRIOS DE DADOS PLUVIOMÉTRICOS. 2003. Disponível em:<http://www.ambiente-augm.ufscar.br/uploads/A2-154.pdf>. Acesso em: 12 mai. 2019.14, 17

MCKINNEY, W. Python for data analysis. Beijing Sebastopol, Calif: O’Reilly, 2013.ISBN 978-1-449-31979-3. 19, 20

Page 56: ImplementaçãodeTécnicasdePreparação ... · 8 qlyhuvlgdgh)hghudogr5 lr* udqghgr1 ruwh±8 )5 1 6lvwhp dgh% leolrwhfdv±6,6% , & dwdorjdomrgd3xeolfdomrqd)rqwh % leolrwhfd& hqwudo=lod0

Referências 55

MURTA, R. M. et al. Precipitação pluvial mensal em níveis de probabilidadepela distribuição gama para duas localidades do sudoeste da bahia. Ciência eAgrotecnologia, FapUNIFESP (SciELO), v. 29, n. 5, p. 988–994, Oct 2005. Disponível em:<http://dx.doi.org/10.1590/S1413-70542005000500011>. 13

OLIVEIRA, A. S. de. Precipitação Pluviométrica. 2006. Disponível em: <https:/-/www.ufrb.edu.br/neas/documento/category/8-cca-035-meteorologia-e-climatologia-agricola?download=37:cap-11-precpluv>. Acesso em: 02 mai. 2019. 16

SALGUEIRO, J. H. P. de B. AVALIAÇÃO DE REDE PLUVIOMÉTRICA E ANÁLISEDE VARIABILIDADE ESPACIAL DA PRECIPITAÇÃO: ESTUDO DE CASONA BACIA DO RIO IPOJUCA EM PERNAMBUCO. Dissertação (Mestrado) —UNIVERSIDADE FEDERAL DE PERNAMBUCO, aug 2005. 13, 14, 15, 16, 17

SILVEIRA, D. T.; CORDOVA, F. P. Métodos de Pesquisa: A pesquisa científica. 2009.Disponível em: <http://www.ufrgs.br/cursopgdr/downloadsSerie/derad005.pdf>. Acessoem: 20 mai. 2019. 20

STODDER, D. Improving Data Preparation for Business Analytics. [S.l.], 2016. 19

STUDART, T. M. de C. Hidrologia: Precipitação. 2006. 15, 16

SU, S.-H. et al. Temporal and spatial characteristics of typhoon extreme rainfall in taiwan.Journal of the Meteorological Society of Japan. Ser. II, Meteorological Society of Japan,v. 90, n. 5, p. 721–736, 2012. Disponível em: <http://dx.doi.org/10.2151/jmsj.2012-510>.41

SUDENE. Rede Hidroclimatológica do Nordeste. 2017. Disponível em: <http://www-.sudene.gov.br/area-de-atuacao/regiao-nordeste-estatisticas/rede-hidroclimatologica-do-nordeste>. Acesso em: 03 set. 2018. 22

VAREJÃO-SILVA, M. A. Meteorologia e Climatologia. 2006. Disponí-vel em: <http://www.icat.ufal.br/laboratorio/clima/data/uploads/pdf-/METEOROLOGIA E CLIMATOLOGIA VD2 Mar 2006.pdf>. Acesso em: 10mai. 2019. 15, 16

VISOCHEK, A. Practical data wrangling : expert techniques for transforming your rawdata into a valuable source for analytics. Birmingham, UK: Packt Publishing, 2017. ISBN9781787286139. 19, 20

YANG, X. et al. Spatial interpolation of daily rainfall data for local climate impactassessment over greater sydney region. Advances in Meteorology, Hindawi Limited, v. 2015,p. 1–12, 2015. Disponível em: <http://dx.doi.org/10.1155/2015/563629>. 49