modelação da incerteza e deteção de outliers melhoria ... · do desvio studentizado extremo...

114
Modelação da Incerteza e Deteção de Outliers para Melhoria do Diagnóstico de Perdas em Sistemas de Abastecimento de Água Maria José de Almeida e Silva Dissertação para obtenção do Grau de Mestre em Matemática e Aplicações Orientadores: Prof. a Maria da Conceição Esperança Amado Dr. a Dália Susana dos Santos da Cruz Loureiro Júri Presidente: Prof. António Manuel Pacheco Pires Orientador: Dr. a Dália Susana dos Santos da Cruz Loureiro Vogais: Prof. Manuel Gonzalez Scotto Dr. Álvaro Silva Ribeiro Novembro 2016

Upload: lydien

Post on 04-Jul-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Modelação da Incerteza e Deteção de Outliers paraMelhoria do Diagnóstico de Perdas em Sistemas de

Abastecimento de Água

Maria José de Almeida e Silva

Dissertação para obtenção do Grau de Mestre em

Matemática e Aplicações

Orientadores: Prof.a Maria da Conceição Esperança AmadoDr.a Dália Susana dos Santos da Cruz Loureiro

Júri

Presidente: Prof. António Manuel Pacheco PiresOrientador: Dr.a Dália Susana dos Santos da Cruz LoureiroVogais: Prof. Manuel Gonzalez Scotto

Dr. Álvaro Silva Ribeiro

Novembro 2016

Page 2: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

ii

Page 3: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Agradecimentos

Gostaria de começar por expressar o meu profundo agradecimento à minha orientadora, Professora

Conceição Amado, por todo o seu apoio e dedicação durante todo o desenvolvimento desta dissertação.

Gostaria ainda de expressar o meu obrigada à minha co-orientadora, Eng. Dália Loureiro, por toda a

disponibilidade em me explicar todos os conceitos relativos a perdas e consumos de água.

Deixo ainda expresso o meu agradecimento à equipa do Núcleo de Engenharia Sanitária do LNEC,

pelo ambiente tranquilo e saudável que me proporcionaram para o desenvolvimento desta dissertação.

Em particular, gostaria de referir a equipa do projeto iPerdas 2016, Dália, Ana, Aisha e Marta, tal

como as entidades gestoras participantes do projeto que comigo colaboraram permitindo, deste modo,

conferir uma maior realidade às análises realizadas.

Não poderia deixar de agradecer aos meus amigos por todo o apoio que me deram e pela compre-

ensão que demonstraram pela minha falta de tempo. Um agradecimento muito especial à Mariana e à

Valentina por a distância nunca nos ter separado. Quero ainda agradecer a todos os meus colegas, de

ambas as universidades, em especial à Adriana, Ana Paula e Rita da UM.

Por último, mas não menos importante, agradeço profundamente aos meus pais e a toda a minha

família, por todo o apoio que recebi durante esta etapa.

iii

Page 4: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

iv

Page 5: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Resumo

As perdas de água que ocorrem nos sistemas de abastecimento de água constituem um grave pro-

blema, em termos económico, ambiental e social, que se reflete em duas áreas distintas, que serão

objeto de estudo nesta dissertação: nas incertezas no cálculo do balanço hídrico anual e em alguns pi-

cos de consumo existentes nas séries temporais de caudal, sendo outros relativos a consumos atípicos.

Contudo, os dois temas permitem melhorar as ferramentas existentes para o diagnóstico de perdas de

água. No primeiro caso, estas são quantificadas utilizando dados medidos ou estimados e que, por

isso, possuem incertezas que se propagam com os cálculos efetuados. Deste modo, esta propagação

foi estudada, considerando-se dois formatos diferentes de introdução das incertezas e três métodos de

propagação das mesmas, sendo um deles uma inovação. A combinação entre bandas de incerteza e

intervalos de confiança foi a que permitiu obter os melhores resultados. O segundo ponto visa contribuir

para a redução da incerteza na estimativa de perdas reais – uma das componentes mais relevantes do

balanço hídrico, através da deteção automatizada de eventos associados a roturas. Para tal, aplicaram-

se diversos métodos de deteção de outliers, métodos estes resultantes de inovações com base no teste

do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se

o melhor para séries com e sem sazonalidade anual, caracterizada por consumos mais elevados nos

meses quentes.

Palavras-chave: Propagação de incertezas. Bandas de incerteza. Deteção de outliers. Balanço

hídrico. Sistemas de abastecimento de água. SAX.

v

Page 6: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

vi

Page 7: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Abstract

The water losses that occur in water supply systems are a great problem, in economic, environmental

and social terms, in two different areas, which will be object of study in this dissertation: in the uncer-

tainties in the annual water balance calculations and in some of the consumption peaks that exist in

flow time series, being others concerning to atypical consumptions. However, these two subjects help

to improve the existing diagnostic tools for water losses. In the first case, the water losses are quantified

using metered or estimated data with uncertainties that propagate through the calculations. Therefore,

this propagation was studied, considering two different formats for the specification of uncertainties and

three propagation methods, being one of them an innovation. The combination between uncertainty

bands and confidence intervals gave the best results. The second issue aims to contribute to reduction

of uncertainty in the real losses estimative – one of the most relevant water balance components, th-

rough automated detection of events associated with pipe bursts. For that, several methods of outlier

detection were applied, being these methods resulting from innovations based on the generalized ex-

treme studentized deviate test, on the Tukey method and on the SAX. This last method was the best for

time series with and without annual seasonality, characterized by higher consumptions in hot months.

Keywords: Propagation of uncertainties. Uncertainty bands. Detection of outliers. Water Balance.

Water supply systems. SAX.

vii

Page 8: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

viii

Page 9: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Conteúdo

Agradecimentos iii

Resumo v

Abstract vii

Lista de Figuras xii

Lista de Tabelas xiv

1 Introdução 1

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Estrutura da tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Estado de arte 3

2.1 Propagação de incertezas no balanço hídrico e nos indicadores de perdas de água . . . 3

2.2 Deteção de outliers em séries temporais de caudal . . . . . . . . . . . . . . . . . . . . . . 4

3 Metodologia para a propagação de incertezas no balanço hídrico e nos indicadores de

perdas de água 7

3.1 Conceitos teóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.2 Balanço hídrico e indicadores de perdas de água . . . . . . . . . . . . . . . . . . . . . . . 9

3.3 Métodos de determinação da propagação de incerteza baseados em bandas de incerteza 10

3.3.1 Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.3.2 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.3.3 O método de Monte Carlo para cálculo de incertezas . . . . . . . . . . . . . . . . 16

3.4 Métodos de cálculo da propagação de incertezas baseados nos valores mínimos e máxi-

mos das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4 Resultados da propagação de incertezas no balanço hídrico e nos indicadores de perdas

de água 23

4.1 Métodos de propagação de incertezas baseados em bandas de incerteza . . . . . . . . . 23

4.1.1 Método Delta e intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1.2 Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.1.3 Comparação dos resultados de um exemplo com dois casos reais . . . . . . . . . 28

4.2 Métodos de propagação de incertezas baseados nos valores mínimos e máximos das

variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.3 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

ix

Page 10: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

5 Métodos para a detecção de outliers em séries temporais de caudal 35

5.1 Deteção de outliers com base no modelo TBATS . . . . . . . . . . . . . . . . . . . . . . . 35

5.1.1 Estimação dos parâmetros e seleção do modelo . . . . . . . . . . . . . . . . . . . 37

5.1.2 Intervalos de previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.1.3 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.1.4 Intervalos de previsão e de confiança combinados . . . . . . . . . . . . . . . . . . 41

5.2 Métodos para a deteção de outliers baseados nas características das séries temporais

de caudal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.2.1 Agrupamento e classificação de séries temporais de consumos de água . . . . . . 41

5.2.2 Método Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.2.3 Método de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.2.4 Método baseado na representação simbólica de séries temporais (SAX) . . . . . . 44

5.3 Medidas de avaliação de desempenho entre diferentes métodos . . . . . . . . . . . . . . 48

6 Resultados da deteção de outliers em séries temporais de caudal 51

6.1 Deteção de outliers com base no modelo TBATS . . . . . . . . . . . . . . . . . . . . . . . 52

6.1.1 Intervalos de previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.1.2 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.1.3 Intervalos de previsão e de confiança combinados . . . . . . . . . . . . . . . . . . 55

6.2 Agrupamento e classificação de séries temporais de consumos de água . . . . . . . . . . 58

6.3 Métodos para a deteção de outliers baseados nas características das séries temporais

de caudal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

6.3.1 Método Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

6.3.2 Método de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.3.3 Método baseado na representação simbólica de séries temporais (SAX) . . . . . . 69

6.4 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

7 Conclusões gerais 83

7.1 Síntese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.2 Trabalho futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

Bibliografia 85

A Propagação de incertezas no balanço hídrico e nos indicadores de perdas de água 89

B Deteção de Outliers em Séries Temporais de Caudal 93

x

Page 11: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Lista de Figuras

5.1 Exemplo da aplicação da PAA a uma série temporal. . . . . . . . . . . . . . . . . . . . . . 45

5.2 Exemplo da aplicação do SAX a uma série temporal. . . . . . . . . . . . . . . . . . . . . . 46

6.1 Intervalos de previsão para uma semana da série temporal ZMC1. . . . . . . . . . . . . . 53

6.2 Intervalos de previsão para uma semana da série temporal ZMC2. . . . . . . . . . . . . . 53

6.3 Intervalos de previsão para uma semana da série temporal ZMC3. . . . . . . . . . . . . . 53

6.4 Desvio padrão simulado para uma semana da série temporal ZMC1. . . . . . . . . . . . . 54

6.5 Desvio padrão simulado para uma semana da série temporal ZMC2. . . . . . . . . . . . . 54

6.6 Desvio padrão simulado para uma semana da série temporal ZMC3. . . . . . . . . . . . . 54

6.7 Intervalos de confiança na série temporal ZMC1. . . . . . . . . . . . . . . . . . . . . . . . 56

6.8 Intervalos de confiança na série temporal ZMC2. . . . . . . . . . . . . . . . . . . . . . . . 56

6.9 Intervalos de confiança na série temporal ZMC3. . . . . . . . . . . . . . . . . . . . . . . . 56

6.10 Intervalos de previsão e de confiança combinados na série temporal ZMC1. . . . . . . . . 57

6.11 Intervalos de previsão e de confiança combinados na série temporal ZMC2. . . . . . . . . 57

6.12 Intervalos de previsão e de confiança combinados na série temporal ZMC3. . . . . . . . . 57

6.13 Dendrograma das séries temporais padronizadas das medianas diárias dos consumos

de água obtido pelo método Ward com a dissemelhança DTW. . . . . . . . . . . . . . . . 59

6.14 Medianas diárias de duas das séries temporais de consumos de água padronizados do

cluster 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.15 Medianas diárias de duas das séries temporais de consumos de água padronizados do

cluster 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

6.16 Medianas diárias de duas das séries temporais de consumos de água padronizados do

cluster 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

6.17 Representação das séries temporais em duas dimensões com base no MDS métrico. . . 61

6.18 Gráfico do erro de má classificação estimado do kNN em função de k, utilizando a vali-

dação cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

6.19 Deteção de outliers na série 1759, do cluster 1, com recurso ao método Twitter HQ sem

transformações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

6.20 Dendrograma relativo à análise de clusters dos meses do ano da série 1759, do cluster 1. 65

6.21 Dendrograma relativo à análise de clusters dos meses do ano da série 2289, do cluster 2. 65

6.22 Dendrograma relativo à análise de clusters dos meses do ano da série 4867, do cluster 3. 65

6.23 Deteção de outliers na série 2166, do cluster 1, com recurso ao método de Tukey sem

transformações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

6.24 Comparação do SAX com w = 24, w = 48 e w = 96 considerando af = 4. . . . . . . . . . 70

6.25 Comparação do SAX com w = 24, w = 48 e w = 96 considerando af = 5. . . . . . . . . . 70

6.26 Comparação do SAX com o padrão construído com a média e a mediana, considerando

w = 48 e af = 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

xi

Page 12: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

6.27 Comparação do SAX com o padrão construído com a média e a mediana, considerando

w = 48 e af = 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.28 Aplicação do SAX com af = 4, considerando o padrão construído com a mediana e w = 48. 72

6.29 Aplicação do SAX com af = 5, considerando o padrão construído com a mediana e w = 48. 72

6.30 Identificação dos outliers obtidos aquando da aplicação do SAX com af = 4 a um exem-

plo, considerando o padrão construído com a mediana e w = 48. . . . . . . . . . . . . . . 72

6.31 Identificação dos outliers obtidos aquando da aplicação do SAX com af = 5 a um exem-

plo, considerando o padrão construído com a mediana e w = 48. . . . . . . . . . . . . . . 73

6.32 Representação de uma série após a normalização min-max segundo a alternativa 1. . . . 74

6.33 Representação de uma série após a normalização min-max segundo a alternativa 2. . . . 74

6.34 Representação de uma série após a normalização min-max segundo a alternativa 3. . . . 74

6.35 Representação de uma série após a normalização min-max segundo a alternativa 4. . . . 75

6.36 Representação de uma série após a padronização com a média e o desvio padrão. . . . 75

6.37 Representação de uma série após a padronização com a mediana e o MAD. . . . . . . . 75

6.38 Deteção de outliers na série 1759, do cluster 1, com recurso ao método baseado no SAX

e a transformação de Box-Cox. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.39 Deteção de outliers na série 1759, do cluster 1, com recurso ao método baseado no SAX,

com a transformação de Box-Cox e com a utilização do valor δ. . . . . . . . . . . . . . . . 78

B.1 Boxplots das medianas dos consumos diários, no cluster 1. . . . . . . . . . . . . . . . . . 96

B.2 Boxplots das medianas dos consumos diários, no cluster 2. . . . . . . . . . . . . . . . . . 97

B.3 Boxplots das medianas dos consumos diários, no cluster 2 (continuação). . . . . . . . . . 98

B.4 Boxplots das medianas dos consumos diários, no cluster 3. . . . . . . . . . . . . . . . . . 98

xii

Page 13: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Lista de Tabelas

3.1 Componentes do balanço hídrico (retirado de Alegre et al. (2005) e definido de acordo

com IWA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.2 Notação para a definição dos indicadores de desempenho de perdas de água . . . . . . 11

3.3 Indicadores de desempenho de perdas de água (retirado de Alegre et al. (2005)) . . . . . 11

3.4 Bandas de incerteza dos dados (retirado de Alegre et al. (2005)) . . . . . . . . . . . . . . 11

3.5 Banda de fiabilidade da fonte de informação (retirado de Alegre et al. (2005)) . . . . . . . 12

3.6 Sistematização dos métodos de propagação de incertezas aplicados a cada caso de

estudo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.1 Incertezas para as componentes do balanço hídrico, com base no método Delta, IC e

MMC com a distribuição normal para o exemplo de Vila Faia. . . . . . . . . . . . . . . . . 25

4.2 Incertezas, no formato de bandas, dos dados complementares do balanço hídrico do

exemplo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.3 Incertezas dos indicadores de desempenho de perdas de água, com base no método

Delta, IC e MMC com a distribuição normal para o exemplo de Vila Faia. . . . . . . . . . . 26

4.4 Incertezas para as componentes do balanço hídrico, com base no MMC com a distribui-

ção gama, para o exemplo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.5 Incertezas dos indicadores de desempenho de perdas de água, com base no MMC com

a distribuição gama, para o exemplo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . 30

4.6 Incertezas de algumas componentes do balanço hídrico para o caso da entidade #8. . . 30

4.7 Incertezas de algumas componentes do balanço hídrico para o caso da entidade #13. . . 30

4.8 Incertezas para as componentes do balanço hídrico, com base no MMC com a distribui-

ção triangular, para o exemplo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.9 Incertezas dos dados complementares, com base na distribuição triangular, para o exem-

plo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.10 Incertezas dos indicadores de desempenho de perdas de água, com base no método

Delta e MMC com a distribuição triangular, para o exemplo de Vila Faia. . . . . . . . . . . 33

4.11 Incertezas de algumas componentes do balanço hídrico para o caso da entidade #8,

utilizando a distribuição triangular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.1 Notação utilizada no SAX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.2 Matriz de confusão associada ao problema de classificação binária. . . . . . . . . . . . . 49

6.1 Medidas de desempenho nas 3 ZMC, utilizando os intervalos de previsão como método

de deteção de outliers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.2 Medidas de desempenho nas 3 ZMC, utilizando os intervalos de confiança como método

de deteção de outliers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

xiii

Page 14: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

6.3 Medidas de desempenho nas 3 ZMC, utilizando os intervalos de previsão e de confiança

combinados como método de deteção de outliers. . . . . . . . . . . . . . . . . . . . . . . 58

6.4 Clusters relativos aos meses, no cluster 1. . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.5 Clusters relativos aos meses, no cluster 2. . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.6 Clusters relativos aos meses, no cluster 3. . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.7 Sensibilidade do método Twitter e do método de Tukey no grupo 1. . . . . . . . . . . . . . 67

6.8 Precisão do método Twitter e do método de Tukey no grupo 1. . . . . . . . . . . . . . . . 67

6.9 Score F1 do método Twitter e do método de Tukey no grupo 1. . . . . . . . . . . . . . . . 68

6.10 Sensibilidade do método Twitter e do método de Tukey no grupo 3. . . . . . . . . . . . . . 68

6.11 Precisão do método Twitter e do método de Tukey no grupo 3. . . . . . . . . . . . . . . . 68

6.12 Score F1 do método Twitter e do método de Tukey no grupo 3. . . . . . . . . . . . . . . . 69

6.13 Sensibilidade do método baseado no SAX no grupo 1. . . . . . . . . . . . . . . . . . . . . 80

6.14 Precisão do método baseado no SAX no grupo 1. . . . . . . . . . . . . . . . . . . . . . . 80

6.15 Score F1 do método baseado no SAX no grupo 1. . . . . . . . . . . . . . . . . . . . . . . 81

6.16 Sensibilidade do método baseado no SAX no grupo 3. . . . . . . . . . . . . . . . . . . . . 81

6.17 Precisão do método baseado no SAX no grupo 3. . . . . . . . . . . . . . . . . . . . . . . 81

6.18 Score F1 do método baseado no SAX no grupo 3. . . . . . . . . . . . . . . . . . . . . . . 82

A.1 Componentes do balanço hídrico com o exemplo do município de Vila Faia. . . . . . . . . 91

A.2 Continuação das componentes do balanço hídrico com o exemplo do município de Vila

Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

B.1 Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de

deteção de outliers, no cluster 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

B.2 Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de

deteção de outliers, no cluster 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

B.3 Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de

deteção de outliers, no cluster 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

B.4 Sensibilidade do método Twitter e do método de Tukey no grupo 2. . . . . . . . . . . . . . 94

B.5 Precisão do método Twitter e do método de Tukey no grupo 2. . . . . . . . . . . . . . . . 95

B.6 Score F1 do método Twitter e do método de Tukey no grupo 2. . . . . . . . . . . . . . . . 95

B.7 Sensibilidade do método baseado no SAX no grupo 2. . . . . . . . . . . . . . . . . . . . . 99

B.8 Precisão do método baseado no SAX no grupo 2. . . . . . . . . . . . . . . . . . . . . . . 99

B.9 Score F1 do método baseado no SAX no grupo 2. . . . . . . . . . . . . . . . . . . . . . . 100

B.10 Valores δ na aplicação do método SAX com a padronização 2 ao cluster 1. . . . . . . . . 100

B.11 Valores δ na aplicação do método SAX com a padronização 2 ao cluster 2. . . . . . . . . 100

B.12 Valores δ na aplicação do método SAX com a padronização 2 ao cluster 3. . . . . . . . . 100

xiv

Page 15: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Capítulo 1

Introdução

Os sistemas de abastecimento de água encontram-se divididos em subsistemas, nos quais são con-

trolados os fluxos de água, através de medições efetuadas com recurso a medidores de fluxo. Deste

modo, a cada medidor de fluxo está associada uma zona de medição controlada (ZMC). A divisão em

subsistemas permite uma melhor gestão operacional, uma vez que é possível fazer uma melhor moni-

torização das perdas de água e dos consumos atípicos em cada subsistema, utilizando-se para tal os

dados recolhidos e as estimativas realizadas para os consumos.

Com o crescimento da população em zonas urbanas, as alterações climáticas e a crescente escas-

sez de água, a importância de uma melhor monitorização destas zonas torna-se elevada. Deste modo,

o controlo das perdas de água torna-se uma questão essencial, de modo a permitir a existência de água

suficiente com qualidade.

Contudo, em Portugal, a percentagem de água não faturada, relativamente ao total de água entrada

nos sistemas, é bastante elevada (cerca de 31%, segundo um estudo anual, publicado em 2014, reali-

zado pela ERSAR – Entidade Reguladora dos Serviços de Água e Resíduos), tendo efeitos diretos na

sustentabilidade económica, financeira e ambiental das entidades gestoras. Na primeira edição do pro-

jeto iPerdas – Iniciativa Nacional para a Gestão Eficiente de Perdas, que ocorreu em 2014, verificou-se

que, nas entidades gestoras de água participantes, a percentagem de água não faturada era de cerca

de 25.6% do total de água entrada nos sistemas. A água não faturada pode ser dividida em três par-

celas: o consumo autorizado não faturado, as perdas aparentes (que correspondem ao consumo não

autorizado e a erros de medição) e as perdas reais (relativas a perdas físicas nas condutas, devidas a

ruturas e vazamentos), sendo esta última parcela a mais representativa de entre as três.

Duas formas diferentes podem ser utilizadas para estimar as perdas de água. Por um lado, através

do balanço hídrico, onde se utiliza os valores de água entrada no sistema e dos consumos autorizados

para estimar este valor, ou seja, as perdas de água são estimadas através de uma abordagem top-

down, sendo necessário associar uma incerteza a este valor estimado, dadas as incertezas associadas

a algumas das medições e estimativas dos consumos. Por outro lado, através da deteção de eventos

anómalos, também designados de outliers, nas séries temporais de caudal é possível estimar os valores

de perdas de água associados a fugas em condutas e ramais e, simultaneamente, diminuir a incerteza

associada a esta componente das perdas de água. Estas duas abordagens, ou seja, a propagação de

incertezas no cálculo do balanço hídrico e a deteção de outliers em séries temporais de caudal, serão

estudadas na presente dissertação como dois assuntos distintos e independentes.

1

Page 16: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

1.1 Motivação

No caso do balanço hídrico, pretende-se quantificar as perdas de água, através da análise da água

entrada no sistema, dos consumos medidos e não medidos autorizados, entre outros. Contudo, para o

cálculo de alguns destes consumos, como os não medidos, é necessário realizar estimativas e, por isso,

os valores calculados no balanço hídrico não podem ser considerados por si só, uma vez que existem

incertezas associadas. Também no caso dos consumos medidos é necessário associar incertezas,

neste caso relativas aos equipamentos de medição, à leitura manual ou automática e à transferência

e processamento de dados. Assim, dado que é necessário efetuar cálculos com os dados obtidos de

modo a obter os valores de todas as componentes do balanço hídrico, tal como as perdas de água,

torna-se necessário estudar a propagação das incertezas ao longo dos cálculos efetuados, sendo este

um dos principais objetivos desta tese. Além disso, as componentes do balanço hídrico são utilizadas

para o cálculo de indicadores de perdas de água, cujo principal objetivo é a ajuda à tomada de decisões

sobre o que deve ser melhorado no balanço hídrico. Deste modo, a associação da incerteza a cada um

destes indicadores permite também saber quais os mais fiáveis para este efeito.

Uma das componentes mais relevantes das perdas de água são as perdas reais que, além de

perdas de base, incluem ainda as perdas por fugas e roturas reportadas e as perdas por fugas e

roturas passíveis de identificação através de deteção ativa de fugas. Pelo seu impacto, em termos

de volume associado e de consequências para o bom funcionamento dos sistemas, esta tese incidirá

também sobre a exploração de métodos para a deteção de roturas, ou seja, métodos para a deteção dos

picos de consumos verificados nas séries temporais de caudal, de modo a que estes sejam detetados

o mais precocemente possível. Estes eventos anómalos constituem outliers nas séries temporais de

caudal, contudo a sua origem poderá não ser apenas as fugas e vazamentos de água em condutas

e ramais, por deterioração das infraestruturas. Os problemas nas medições, que aparecem na forma

de valores extremos isolados ou longos períodos com medições contantes, também são considerados

como outliers, apesar de, em princípio, a sua deteção ser mais fácil. Também os consumos anormais

ou a inexistência de consumo, devidos a mudanças nas populações e no seu uso da água, constituem

outliers nestas séries. Existe ainda a possibilidade de estes serem devidos a manutenções nas válvulas

e bombas existentes na rede de distribuição. Na deteção de outliers que será realizada, a origem

dos outliers não será tida em consideração, ou seja, os métodos são construídos para a deteção de

qualquer evento anómalo, sendo necessária a presença humana para a identificação da sua origem.

Contudo, as séries temporais relativas a consumos de água apresentam algumas características que é

necessário tomar em consideração: sazonalidades diária e semanal, além de tendências ao longo do

ano, por exemplo. Dadas estas particularidades, torna-se necessário estudar métodos de deteção de

observações atípicas, ou seja, outliers, que tenham em consideração estes fatores, sendo este também

um dos principais objetivos da realização da presente dissertação.

1.2 Estrutura da tese

Esta dissertação estrutura-se como se descreve de seguida. No capítulo 2, é apresentado o estado de

arte relativo ao cálculo da propagação de incertezas e aos métodos de deteção de outliers. O capítulo 3

incide sobre métodos de propagação de incertezas, sendo as formulações teóricas de todos os métodos

estudados apresentadas nas secções de 3.3 a 3.4. Os resultados referentes a este tópico encontram-se

no capítulo 4. No capítulo 5, são apresentados todos os conceitos e métodos utilizados para a deteção

de outliers, sendo que, no capítulo 6, se encontram apresentados e discutidos os resultados obtidos. No

capítulo 7, encontram-se as principais conclusões retiradas dos estudos efetuados, tal como sugestões

de trabalho futuro.

2

Page 17: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Capítulo 2

Estado de arte

2.1 Propagação de incertezas no balanço hídrico e nos

indicadores de perdas de água

O estudo da propagação de incertezas é muito frequentemente associado a modelos, à estimação dos

seus parâmetros e a previsões realizadas, inclusive com o objetivo de ajudar a tomar decisões em áreas

como a hidrologia [Lee et al. (2000); Li et al. (2013)].

Contudo, em relação ao estudo da propagação de incertezas em cálculos que se baseiam apenas

em operações definidas, é possível de encontrar na literatura dois métodos: o método Delta, baseado

em séries de Taylor e que permite aproximar a variância de uma função de diversas variáveis numa

soma linear de variâncias [Bell (2001); Yegnan et al. (2002); Henriques et al. (2006); Refsgaard et al.

(2007); Coleman e Steele (2009); Babic et al. (2014)], e as simulações de Monte Carlo, baseadas na

realização de simulações a partir da definição de uma função densidade de probabilidade para cada

variável [Yegnan et al. (2002); Refsgaard et al. (2007); Coleman e Steele (2009)]. Apesar disso, apenas

é possível encontrar aplicações ao cálculo do balanço hídrico relativas ao primeiro destes métodos [Ale-

gre et al. (2005); Babic et al. (2014)]. Inclusive, este é o método utilizado para acreditação europeia [EA

(2013)]. É ainda possível encontrar um método com aplicações ao cálculo do balanço hídrico, baseado

numa distribuição normal, suposição para a qual não existe verificação, e no EQM (Erro Quadrático

Médio) [Liemberger e McKenzie (2003); Taylor et al. (2008); Thornton et al. (2008); Lambert (2010)].

Todos estes métodos permitem estimar a incerteza, conhecer a confiança sobre cada componente,

tomar decisões baseadas nas componentes e indicadores com menor incerteza e planear ações no

sentido de vir a reduzir a incerteza sobre certas componentes, em particular todas aquelas que não são

medidas. Alguns destes valores acrescentados do estudo das incertezas são mencionados em Sattary

et al. (2002) e Thornton et al. (2008).

Contudo, todos os métodos referidos têm por base um único valor para a incerteza, podendo não

se verificar tal facto no caso do balanço hídrico, uma vez que, em Alegre et al. (2004), Baptista et al.

(2005) e Alegre et al. (2005), se propõe a utilização de bandas de incerteza para a definição desta neste

contexto. Assim, nesta dissertação, o método Delta e as simulações de Monte Carlo serão adaptados

para a utilização de bandas de incerteza. Além disso, um novo método de propagação de incertezas

com aplicação exclusiva ao caso das bandas de incerteza será construído.

3

Page 18: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

2.2 Deteção de outliers em séries temporais de caudal

Dada a dependência temporal que existe nas séries temporais, para a deteção de outliers nestas séries,

nem sempre é possível utilizar os métodos de deteção de outliers que existem para bases de dados

em que não existe esta dependência temporal. Além disso, em Alvisi et al. (2007) e Mamade (2013),

verificou-se que as séries temporais de caudal possuem duas sazonalidades: diária e semanal. Dadas

as características particulares das séries temporais, vários métodos de deteção de outliers surgiram,

baseando-se em modelos específicos para séries temporais, como os AR e os ARIMA [Chen e Liu

(1993); Kaiser e Maravall (1999); Marek (2014)]. Nestes casos, usualmente, são utilizados os resíduos

do modelo para a deteção das observações atípicas. Por vezes, tal como em Hyndman (2015), procede-

se apenas à decomposição da série temporal nas tendência e sazonalidade e aplica-se o método de

Tukey, baseado na amplitude inter-quartil, aos resíduos. Contudo, em Barrela (2015), verificou-se que o

modelo TBATS, apresentado em De Livera et al. (2011), e uma modificação da abordagem de Quevedo

et al. (2010) modelavam ainda melhor as séries temporais resultantes de consumos de água. Contudo,

não existe bibliografia sobre a utilização deste modelo para deteção de outliers, apesar de ser um bom

método de preenchimento de falhas em séries temporais de caudal.

Em Verbesselt et al. (2010a) e Verbesselt et al. (2010b), procura-se encontrar instantes em que

ocorrem mudanças na tendência, na sazonalidade e nas restantes componentes de uma série temporal,

considerando-se estes pontos como outliers. Estes métodos têm por base a deteção de breakpoints, tal

como descrito em Bai (1997) e Bai e Perron (2003). Contudo, aquando da tentativa de aplicação destes

métodos a séries temporais de caudal, verificou-se que as alterações existentes nestas séries não são

suficientemente significativas para serem detetadas, além do peso computacional inerente à aplicação

destes métodos.

Em Rosner (1983), é apresentada uma generalização do teste do desvio studentizado extremo,

também conhecido por teste de Grubbs para outliers e descrito em Grubbs (1950), com o objetivo de

detetar um número máximo de outliers, indicado a priori, e tendo por base a suposição de se estar

perante uma população normal. Contudo, os estimadores de localização e de dispersão utilizados são

a média e o desvio-padrão, respetivamente. Uma vez que estes não são robustos na presença de

observações extremas, em Vallis et al. (2014), é proposta a utilização deste teste, após uma partição

e decomposição da série temporal, substituindo estes estimadores pela mediana e pelo MAD. Nesta

dissertação, analisa-se uma adaptação do procedimento seguido em Vallis et al. (2014) com base em

estimadores robustos mais eficientes que a mediana e o MAD.

O método de Tukey para deteção de outliers, descrito em Tukey (1977), propõe a utilização da ampli-

tude inter-quartil para a definição das observações consideradas extremas e muito extremas. Contudo,

a sua aplicação a séries temporais de caudal, que possuem sazonalidade, não permite uma deteção

correta, uma vez que existem diferenças, por exemplo, entre os consumos de água durante a noite e

ao início da manhã. Deste modo, considerando os instantes de tempo anteriores para a deteção de ou-

tliers nas primeiras horas da manhã, concluir-se-ia que, dados os baixos consumos registados durante

a noite, os valores da manhã seriam atípicos, mesmo não o sendo para aqueles instantes de tempo.

Alguns métodos recentes para a deteção de outliers em séries de caudal foram propostos em Loureiro

et al. (2016), Mamade (2013) e Barrela (2015), mas, nestes casos, os padrões de consumos são tidos

em consideração.

O SAX (Symbolic Aggregate approXimation), apresentado em Lin et al. (2007), resulta da represen-

tação simbólica de uma aproximação agregada por partes (PAA – Piecewise Aggregate Approximation),

através da utilização de letras. Em Lin et al. (2007), Lin e Li (2009) e Lin et al. (2012), é apresentado

este método, sendo estudada a sua aplicação a análises de clusters e a classificação. Contudo, o

estudo relativo a deteção de outliers, apesar de ser mencionado, não é desenvolvido em Lin e Li (2009)

4

Page 19: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

nem em Lin et al. (2012). No caso de Lin et al. (2007), é feita referência a um método de deteção de

outliers baseado em modelos de Markov e em árvores de sufixos.

No caso concreto de séries de caudal, os métodos mencionados poderão permitir a deteção de

grandes roturas de água, mas tornam-se inapropriados para a deteção de pequenas fugas na rede,

sendo que, para este efeito, no caso de zonas residenciais, dever-se-á fazer monitorização dos míni-

mos noturnos [Farley e Trow (2003); Puust et al. (2010)], ou seja, do menor fluxo fornecido para uma

área durante o período noturno (entre a meia-noite e as 5 da manhã [Loureiro (2010)]). Contudo, para

uma melhor deteção de outliers é necessário utilizar os dados históricos, uma vez que são estes que

permitem detetar os comportamentos típicos de cada zona e que, desta forma, poderão permitir distin-

guir as diferentes fontes dos outliers. Todavia, alguns dos métodos existentes não permitem a utilização

de muitos dados históricos.

Deste modo, na presente dissertação, propõem-se diferentes métodos que têm em consideração

não só as características destas séries, mas também os dados históricos. Os procedimentos propostos

baseiam-se no teste do desvio studentizado extremo generalizado [Rosner (1983)], no método de Tukey

[Tukey (1977)] e no SAX [Lin et al. (2007)].

5

Page 20: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

6

Page 21: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Capítulo 3

Metodologia para a propagação de

incertezas no balanço hídrico e nos

indicadores de perdas de água

Neste capítulo, pretende-se apresentar a metodologia utilizada para o estudo da primeira questão so-

bre a qual incide esta dissertação: a propagação de incertezas no cálculo do balanço hídrico e dos

indicadores de perdas de água. Para tal, começar-se-á por apresentar, na secção 3.1, os conceitos

teóricos sobre incertezas necessários a este estudo. Na secção 3.2, descrevem-se as componentes do

balanço hídrico, assim como os indicadores de desempenho de perdas de água, pertinentes para este

trabalho. Serão estudados dois formatos para a indicação das incertezas das componentes a introduzir

no balanço hídrico: (i) através de bandas (secção 3.3); (ii) e através da indicação de valores mínimos e

máximos para as componentes (secção 3.4).

3.1 Conceitos teóricos

Uma medição permite ficar a conhecer uma propriedade de alguma coisa, por exemplo, quão quente

ou quão longo é um determinado objeto. Contudo, aquando da avaliação dessa medida, podem ocorrer

alguns erros, o que leva a que seja necessário associar a cada medição uma incerteza, sendo esta,

por definição, a dúvida que existe em relação ao resultado da medição efetuada. Além disso, é preciso

ter em consideração a diferença entre erro e incerteza. O primeiro é definido como a diferença entre o

valor medido e o “verdadeiro valor” do que se está a medir, enquanto que a incerteza é a quantificação

da dúvida que existe sobre o valor medido.

As fontes de incerteza são variadas, desde as incertezas associadas ao instrumento utilizado ou à

pessoa responsável pela medição até às influências do próprio ambiente onde esta é realizada. Con-

tudo, existem duas formas de incerteza:

• aleatória: quando diferentes medições levam a diferentes resultados;

• sistemática: quando ocorre sempre a mesma influência nas várias medições efetuadas. Neste

caso, a realização de mais medições não permite identificar o problema.

A análise da propagação das incertezas baseia-se em probabilidades, no sentido em que é asso-

ciada uma variável aleatória a cada medição que se pretende efetuar. Assim, por exemplo, poderá ser

possível atribuir uma função de distribuição de probabilidade a cada variável aleatória, que permitirá

7

Page 22: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

saber qual a probabilidade daquela medição se encontrar dentro de um certo intervalo. No caso de se

poderem efetuar repetidas medições de uma mesma variável, ou seja, no caso de se poder ter uma

amostra da variável, esta poderá ser utilizada para retirar alguma informação sobre a incerteza desta

medição, através da avaliação do quão dispersos se encontram os resultados obtidos. A forma mais

usual para medir essa dispersão é o desvio padrão amostral, denotado usualmente por s, que dá uma

indicação do quão afastados os valores individuais obtidos estão do valor médio e que, considerando

um conjunto de n observações de uma variável X, pode ser expresso matematicamente por:

s =

√∑ni=1(xi − x)2

n− 1, (3.1)

onde xi representa a i-ésima medição e x a média dos n resultados. Assim, tomando o valor do desvio

padrão como a incerteza da medição, obtém-se a incerteza padrão. Deste modo e com base nas

medições (x1, x2, . . . , xn), X toma o valor x com uma incerteza de s, ou seja, tem-se x± s.Contudo, em geral, o objetivo de algumas medições, nomeadamente na física e na química, é o

seu uso subsequente em algumas fórmulas para se obter valores que não podem ser medidos direta-

mente. Assim, as incertezas das medições são propagadas (de alguma forma) para o resultado final

da fórmula. Contudo, por vezes, as fórmulas utilizadas não permitem o cálculo do desvio padrão de

forma analítica. Considerando apenas duas variáveis aleatórias X e Y , que poderão representar duas

diferentes medições, e supondo que existem todos os momentos necessários, veja-se, de seguida, o

que acontece à variância do produto e do quociente.

Como

V ar(X) = E[X2]− E[X]2, (3.2)

Cov(X2, Y 2) = E[X2Y 2]− E[X2]E[Y 2] e (3.3)

E[XY ] = Cov(X,Y ) + E[X]E[Y ] (3.4)

então

V ar(XY ) = E[(XY )2]− E[XY ]2 = E[X2Y 2]− E[XY ]2 e (3.5)

E[XY ]2 = (Cov(X,Y ) + E[X]E[Y ])2. (3.6)

Assim,

V ar(XY ) = Cov(X2, Y 2) + E[X2]E[Y 2]− (Cov(X,Y ) + E[X]E[Y ])2 (3.7)

= Cov(X2, Y 2) + (V ar(X) + E[X]2)(V ar(Y ) + E[Y ]2)− (Cov(X,Y ) + E[X]E[Y ])2. (3.8)

No caso de se ter X e Y variáveis aleatórias independentes, pode-se simplificar esta fórmula e

obtém-se:

V ar(XY ) = (V ar(X) + E[X]2)(V ar(Y ) + E[Y ]2)− E[X]2E[Y ]2

= V ar(X)V ar(Y ) + V ar(X)E[Y ]2 + E[X]2V ar(Y ). (3.9)

Utilizando o resultado da variância do produto de duas variáveis aleatórias não necessariamente

independentes, pode-se concluir que:

8

Page 23: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

V ar

(X

Y

)= Cov

(X2,

1

Y 2

)+ E[X2]E

[1

Y 2

]−(Cov

(X,

1

Y

)+ E[X]E

[1

Y

])2

= Cov

(X2,

1

Y 2

)+(V ar(X) + E[X]2

)(V ar

(1

Y

)+ E

[1

Y

]2)

−(Cov

(X,

1

Y

)+ E[X]E

[1

Y

])2

. (3.10)

Com estes resultados para funções simples de apenas duas variáveis, pode-se concluir que, quando

se aumentar a complexidade das expressões e o número de variáveis envolvido, nem sempre será

possível encontrar uma forma analítica para determinar a sua variância e, consequentemente, obter

a incerteza do valor da fórmula através do desvio padrão. Assim, será necessário recorrer a outros

métodos para estimar a variância.

3.2 Balanço hídrico e indicadores de perdas de água

O balanço hídrico realizado por entidades gestoras de água, e que se sugere que seja efetuado anu-

almente [Alegre et al. (2005)], consiste numa representação matemática das várias entradas e saídas

de água num sistema de abastecimento. O seu principal objetivo centra-se na subsequente análise das

perdas de água sendo, por vezes, este o único método que as entidades possuem para a contabilização

deste valor. Assim, durante a realização do balanço hídrico anual, pretende-se preencher um quadro

como o apresentado na tabela 3.1, de modo a calcular-se a partir deste os indicadores de desempenho

de perdas de água definidos na tabela 3.3, onde se utiliza a notação definida na tabela 3.2. Algumas das

componentes do balanço hídrico presentes na tabela 3.1 resultam de cálculos efetuados com base nas

componentes presentes nas tabelas A.1 e A.2 da secção A dos Anexos, onde se apresenta o balanço

hídrico completo, preenchido com um exemplo que será utilizado no capítulo 4. Nesta mesma secção

dos Anexos, encontra-se ainda explicado o modo de cálculo das diversas componentes presentes no

quadro da tabela 3.1 e, consequentemente, as componentes presentes na tabela 3.2. De salientar

que, aquando do cálculo do indicador financeiro água não faturada em termos de volume, considera-se

como água entrada no sistema o valor da componente de água entrada no sistema subtraído do valor

de água transferida para outros sistemas da mesma entidade gestora (como parte do consumo não

faturado medido) e como água não faturada a soma das seguintes parcelas: perdas de água, consumo

não faturado medido (distribuição direta), consumo não faturado medido (água transferida para outras

entidades gestoras) e consumo não faturado não medido.

Além de nem sempre existirem medições em todos os pontos de consumo, mesmo quando estas

existem (permitindo obter alguns dos dados necessários para o cálculo do balanço hídrico) não são

totalmente fiáveis, devido, por exemplo, às falhas que ocorrem nas leituras e aos próprios equipamentos

utilizados para as medições. Assim, torna-se necessário saber qual a incerteza associada a cada

uma das medições e estimativas utilizadas e aos subsequentes cálculos executados utilizando estes

mesmos valores e que, consequentemente, são apenas aproximados.

Dado que não é possível executar várias medições para cada uma das componentes do balanço hí-

drico e, portanto, não se pode considerar o seu desvio padrão amostral como a incerteza das mesmas,

utiliza-se uma classificação em bandas recomendada pelo IWA e pela ERSAR [Alegre et al. (2004);

Baptista et al. (2005)] e que se reproduz na tabela 3.4. Estas bandas são bandas da incerteza relativa

associada a cada medição.

A impossibilidade da realização de várias medições para cada uma das componentes do balanço

9

Page 24: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

hídrico e a consequente falta de uma amostra para cada uma delas, torna também impossível a utili-

zação de métodos de reamostragem, como o bootstrap e o jacknife, para o estudo da propagação de

incertezas.

Contudo, é ainda sugerido em Alegre et al. (2005) que seja indicada a fiabilidade da fonte de in-

formação, que deverá refletir a confiança que se tem na fonte fornecedora dos dados. A classificação

sugerida é reproduzida na tabela 3.5.

Tabela 3.1: Componentes do balanço hídrico (retirado de Alegre et al. (2005) e definido de acordo com IWA)

Água entradano sistema[m3/ano]

Consumoautorizado[m3/ano]

Consumoautorizadofaturado[m3/ano]

Consumo faturadomedido (incluindoágua exportada)

[m3/ano] Águafaturada[m3/ano]

Consumo faturadonão medido

[m3/ano]

Consumoautorizado

não faturado[m3/ano]

Consumo nãofaturado medido

[m3/ano]

Água nãofaturada[m3/ano]

Consumo não faturadonão medido

[m3/ano]

Perdas deágua

[m3/ano]

Perdasaparentes[m3/ano]

Uso não autorizado[m3/ano]

Erros de medição[m3/ano]

Perdas reais[m3/ano]

Fugas nas condutas deadução e/ou distribuição

[m3/ano]Fugas e extravasamentos

nos reservatórios deadução e/oudistribuição

[m3/ano]Fugas nos ramais

[m3/ano]Perdas reais nas condutas

de água bruta e nas estaçõesde tratamento de água

[m3/ano]

3.3 Métodos de determinação da propagação de incerteza

baseados em bandas de incerteza

Os métodos que serão apresentados nesta secção, que se baseiam na indicação de uma banda de

incerteza (limite superior e inferior) para cada uma das componentes do balanço hídrico, são gerais,

podendo ser aplicados a outras áreas, que não apenas o balanço hídrico e os indicadores de perdas

de água.

Como referido atrás, em probabilidades e estatística, a incerteza é, em geral, quantificada em termos

da raiz quadrada da variância (desvio padrão) associada à variável aleatória (v.a.) de interesse. Quando

a v.a. de interesse é função de outras variáveis, a incerteza final depende da incerteza de cada variável

per si. A este fenómeno designa-se propagação de incerteza (ou de erro).

Existem vários métodos para a determinação da propagação da incerteza e estes dependem não só

da natureza da função que descreve a relação entre a variável de interesse e as outras variáveis, mas

também dos constrangimentos associados à modelação do problema real.

10

Page 25: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 3.2: Notação para a definição dos indicadores de desempenho de perdas de água

Notação DescriçãoA3 Água entrada no sistemaA5 Água exportada faturadaA7 Água exportada não faturadaA8 Consumo faturado medido

A11 Consumo não faturado medidoA13 Consumo autorizado não faturadoA15 Perdas de águaA18 Perdas aparentesA19 Perdas reais (1)A21 Água não faturadaC8 Comprimento de condutas

C24 Número de ramaisC25 Comprimento médio dos ramais prediaisD34 Pressão média de operação (kPa)G5 Custos correntes

G57 Tarifa média para consumidores diretosG58 Custo unitário assumido das perdas reais

H2 Tempo de pressurização do sistema

Tabela 3.3: Indicadores de desempenho de perdas de água (retirado de Alegre et al. (2005))

Nome Notação Definição

Indicadores de recursos hídricos

Ineficiência na utilização dos recursos hídricos WR1 A19A3 × 100

Indicadores operacionais

Perdas de água por ramal Op23 (A15×365)/H1C24

Perdas de água por comprimento de conduta Op24 A15/365C8

Perdas aparentes por volume de água entrada no sistema Op26 A18A3 × 100

Perdas aparentes Op25 A18A3−A5−A7 × 100

Perdas reais por comprimento de conduta Op28 A19C8×H2×365/24

Perdas reais por ramal Op27 A19×1000/365C24×H2/24

Índice infra-estrutural de perdas Op29Op27

18×C8/C24+0.8+0.025×C25D34/10

Água não medida Op39 A3−A8−A11A3 × 100

Indicadores financeiros

Água não faturada em termos de volume Fi46 A21A3 × 100

Água não faturada em termos de custo Fi47 (A13+A18)×G57+A19×G58G5 × 100

Tabela 3.4: Bandas de incerteza dos dados (retirado de Alegre et al. (2005))

Banda de incerteza dosdados

Erro associado ao dado fornecido

0 - 5% Melhor ou igual a ±5%

5 - 20% Pior do que ±5%, mas melhor que ou igual a ±20%

20 - 50% Pior do que ±20%, mas melhor que ou igual a ±50%

50 - 100% Pior do que ±50%, mas melhor que ou igual a ±100%

100 - 300% Pior do que ±100%, mas melhor que ou igual a ±300%

> 300% Pior do que ±300%

11

Page 26: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 3.5: Banda de fiabilidade da fonte de informação (retirado de Alegre et al. (2005))

Banda de fiabilidade dafonte de informação

Conceito associado

? ? ?

Dados baseados em medições exaustivas, registos fidedignos, proce-dimentos, investigações ou análises adequadamente documentadas ereconhecidas como o melhor método de cálculo.

??Genericamente como a anterior, mas com algumas falhas não significa-tivas nos dados.

?Dados baseados em estimativas ou extrapolação a partir de uma amos-tra limitada.

3.3.1 Método Delta

Seja Y = f(X1, X2, . . . , Xp), onde f é uma função diferenciável das variáveis aleatórias Xi para i ∈{1, 2, . . . , p}. Quando Y não é uma combinação linear das p variáveis aleatórias, obter a sua variância

não é um procedimento simples. Uma alternativa nesta situação é o método Delta, que se baseia na

linearização da função f utilizando a série de Taylor. Assim,

V ar(Y ) ≈p∑i=1

(∂f

∂Xi

)2

V ar(Xi) +

p∑i=1

∑j 6=i

(∂f

∂Xi

)(∂f

∂Xj

)Cov(Xi, Xj) (3.11)

e, consequentemente, pode-se obter uma aproximação do desvio padrão da v.a. Y , ou seja, da incer-

teza padrão associada a este valor.

Quando se pode assumir que as variáveis são independentes (hipótese que, em geral, segundo

Alegre et al. (2005), se aplica ao caso em estudo), (3.11) simplifica-se e:

V ar(Y ) ≈p∑i=1

(∂f

∂Xi

)2

V ar(Xi). (3.12)

Esta aproximação é utilizada no Guide to the expression of uncertainty in measurement (GUM)

[BIPM et al. (2008)] para se obter a incerteza padrão da variável Y , dada pela raiz quadrada positiva da

variância de Y .

O valor da estimativa de Y , denotado por y, é calculado por:

y = f(x1, x2, . . . , xp). (3.13)

Daqui em diante, designa-se por incerteza absoluta de uma variável a incerteza padrão (dada pelo

desvio padrão) e por incerteza relativa o quociente entre o desvio padrão e o valor médio dessa mesma

variável, ou seja, considerando a variável aleatória X com variância σ2X e valor médio E[X], então σX é

a incerteza absoluta da variável X eσXE[X]

é a incerteza relativa (também conhecido como coeficiente

de variação).

Considere-se A e B variáveis aleatórias independentes com incerteza absoluta σA e σB , respeti-

vamente, e valores médios E[A] e E[B]. Considere-se ainda C uma variável aleatória com incerteza

absoluta σC e valor médio E[C]. Veja-se como é que ocorre a propagação da incerteza de algumas

funções básicas.

No caso da soma e da subtração, tem-se que:

Soma

Considerando C = A+B,

σ2C = σ2

A + σ2B ; (3.14)

12

Page 27: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Substração

Considerando C = A−B,

σ2C = σ2

A + σ2B . (3.15)

No caso do produto e do quociente, utilizando (3.12), tem-se que:

Produto

Considerando C = AB, (σCE[C]

)2

≈(σAE[A]

)2

+

(σBE[B]

)2

; (3.16)

Quociente

Considerando C =A

B,

σ2C ≈

1

E[B]2

(σ2A +

(E[A]

E[B]

)2

σ2B

). (3.17)

Quando os valores das quantidades de entrada no modelo de medição são introduzidos em termos

de incertezas padrão por bandas, i.e, por um valor inferior e um valor superior, cada um destes valores

é utilizado para obter uma estimativa da incerteza final. O resultado obtido é também um limite inferior

e um limite superior, ou seja, um intervalo. No entanto, a estes intervalos não está associado nenhum

grau de confiança. Assim, de seguida, propõe-se a construção de intervalos de confiança para as

incertezas propagadas.

3.3.2 Intervalos de confiança

O objetivo agora será construir um intervalo de confiança (IC) para a incerteza absoluta (ou relativa)

associada a variáveis dadas pela forma Y = f(X1, X2, . . . , Xp), onde Xi, para todo o i ∈ {1, 2, . . . , p},são variáveis aleatórias independentes – sendo esta uma hipótese que, tal como referido anteriormente,

se aplica, em geral, ao caso em estudo – para as quais se conhece a banda de incerteza, tratando-se

esta da única informação que se tem sobre a sua incerteza. Assim, o mais natural será assumir que

estas seguem uma distribuição uniforme. Contudo, ao analisar-se a fórmula (3.12), que será utilizada

para calcular a propagação da incerteza, percebe-se que se terá de lidar com uma combinação linear

das incertezas absolutas de cada variável ao quadrado. Assim, propõe-se o procedimento que se

segue para a construção dos intervalos de confiança da incerteza associada à variável Y , ou seja, para

a construção dos intervalos de confiança para σ2Y ≈

∑pi=1

(∂f

∂Xi

)2

σ2i :

1. para cada variável Xi, i ∈ {1, . . . , p}, registar o seu valor observado xi e a sua banda de incerteza

relativa (ai − bi)% e, por conseguinte, calcular a banda de incerteza absoluta de Xi, dada por(aixi100 −

bixi100

);

2. assumir que a incerteza absoluta ao quadrado de Xi, σ2i , segue uma distribuição uniforme no

intervalo [(aixi100

)2,(bixi100

)2], ou seja, σ2

i ∼ U [(aixi100

)2,(bixi100

)2] e, consequentemente,

(∂f

∂Xi

)2

σ2i ∼ U

[(∂f

∂Xi

)2 (aixi100

)2,

(∂f

∂Xi

)2(bixi100

)2], (3.18)

uma vez que(∂f

∂Xi

)2

é uma constante.

13

Page 28: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Seguindo este procedimento, obtém-se uma soma finita de p variáveis uniformes independentes não

identicamente distribuídas, pelo que não é fácil a construção de IC para σ2Y . Para simplificar a dedução

do IC pretendido, vão-se considerar duas situações, a mais simples onde Y é apenas função de duas

(p = 2) variáveis Xi e uma mais geral para funções de Y com p ≥ 3 variáveis Xi.

Caso p = 2

Considere-se as variáveis aleatórias V e W independentes com distribuição uniforme em [aV , bV ] e

[aW , bW ], respetivamente, ou seja, V ∼ U [aV , bV ] e W ∼ U [aW , bW ] e Z = V +W . Então Z segue uma

distribuição trapezoidal com função densidade de probabilidade dada por:

fZ(z) =

uz − ab− a

se a ≤ z < b

u se b ≤ z < c

ud− zd− c

se c ≤ z ≤ d

0 caso contrário

(3.19)

onde:

• a = aV + aW ;

• b = 12 [aV + aW + bV + bW − |(bV − aV )− (bW − aW )|];

• c = 12 [aV + aW + bV + bW + |(bV − aV )− (bW − aW )|];

• d = bV + bW ;

• u = 2(c+ d− a− b)−1,

ou seja, Z ∼ Trapezoidal(a, b, c, d).

Assim, quando se tem Y = f(X1, X2), pode-se concluir que σ2Y ∼ Trapezoidal(a, b, c, d), sendo

σ2Y ≈

(∂f

∂X1

)2

σ21 +

(∂f

∂X2

)2

σ22 e a, b, c e d dados como anteriormente, onde aXi =

(∂f

∂Xi

)2 (aixi100

)2e bXi =

(∂f

∂Xi

)2(bixi100

)2

, para i ∈ {1, 2}. Deste modo, é possível calcular um intervalo de confiança

para a incerteza absoluta σY .

Caso p ≥ 3

Neste caso, comece-se por enunciar o teorema do limite central para variáveis independentes não

identicamente distribuídas:

Teorema do Limite Central (variáveis independentes não identicamente distribuídas): Sejam X1,

X2, . . ., Xp variáveis aleatórias independentes com E[Xi] = µi e V ar(Xi) = σ2i < ∞. Considere-se

Yi = Xi − µi, para i = 1, . . . , n, s2p = V ar(∑pi=1Xi) =

∑pi=1 σ

2i e Tp =

∑pi=1 Yi. Se:

• (condição de Lindeberg) para todo ε > 0,1

s2p

p∑i=1

E[Y 2i 1|Yi|>εsp ]

p→∞−→ 0 ou

• (condição de Lyapunov) existe δ > 0 tal que1

s2+δp

p∑i=1

E[|Yi|2+δ]p→∞−→ 0,

entãoTpsp

d−→ N(0, 1).

Contudo, é possível provar [Ash e Doléans-Dade (1999)] queTpsp

d−→ N(0, 1), se existir δ > 0 tal

que1

sp

(p∑i=1

E[|Yi − E[Yi]|2+δ]

) 12+δ

p→∞−→ 0, apesar de esta ser uma condição menos forte do que a

condição de Lyapunov.

14

Page 29: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Veja-se que a distribuição uniforme satisfaz esta condição mais fraca, começando por verificar que

se X é uma variável aleatória com uma distribuição uniforme em [a, b] e k é uma constante positiva,

então, definindo Y = kX, tem-se que E[|Y − E[Y ]|3] ≤ k3(b− a)2.

Supondo que b− a > 0 (caso contrário, é trivial), tem-se

E[|Y − E[Y ]|3] =

∫ kb

ka

|y − E[Y ]|3fY (y)dy (3.20)

=

∫ b

a

|kx− kE[X]|3fX(x)dx (3.21)

= k3∫ b

a

∣∣∣∣x− a+ b

2

∣∣∣∣3 1

b− adx, uma vez que k > 0 (3.22)

=k3

b− a

(∫ a+b2

a

(a+ b

2− x)3

dx+

∫ b

a+b2

(x− a+ b

2

)3

dx

)(3.23)

=k3

b− a

(∫ b−a2

0

z3dz +

∫ b−a2

0

z3dz

)(3.24)

=2k3

b− a

∫ b−a2

0

z3dz (3.25)

Considerando m = b−a2 , então:

E[|Y − E[Y ]|3] =k3

m

∫ m

0

z3dz =k3

m

m4

4(3.26)

=k3m3

4≤ k3(b− a)3 (3.27)

Sejam X1, . . . , Xp variáveis aleatórias tal que Xi tem distribuição uniforme no intervalo [ai, bi] e ki

constantes não negativas. Considere-se Yi = kiXi, mi = bi−ai2 e σ2

i =m2i

12 a variância de Xi. Então

V ar(Yi) = k2i σ2i . Além disso, considere-se L = limp→∞

(∑pi=1E[|Yi − E[Yi]|3]

) 13

(∑pi=1 k

2i σ

2i )

12

. Pode-se observar

que tanto o numerador como o denominador são positivos e, portanto, L é não negativo. Mostre-se

então que L ≤ 0 quando p tende para infinito.

L ≤ limp→∞

(∑pi=1 k

3im

3i

) 13(∑p

i=1 k2im2i

12

) 12

= limp→∞

√12 6

√√√√(∑pi=1 k

3im

3i

)2(∑pi=1 k

2im

2i )

3 (3.28)

= limp→∞

2√

3 6

√ ∑pi=1

∑pj=1(kikjmimj)

3∑pi=1

∑pj=1

∑pl=1(kikjklmimjml)2

(3.29)

Nesta última expressão, pode-se notar que os termos (kikjmimj)3 e (kikjklmimjml)

2 são da

mesma ordem. Contudo, no denominador, tem-se mais p termos do que no numerador e, portanto,

quando p tende para infinito, a fração tende para zero. Assim, provou-se que L = 0 quando p tende

para infinito. Conclui-se, por isso, que a distribuição uniforme verifica a condição de Lyapunov mais

fraca e, por conseguinte, tem-se que o teorema do limite central para variáveis independentes e não

identicamente distribuídas é válido para variáveis com esta distribuição.

Uma das propriedades da distribuição uniforme é a sua rápida convergência para a distribuição

normal. Pode-se mostrar que esta propriedade ainda é válida ao aplicar o teorema do limite central

15

Page 30: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

para variáveis independentes não identicamente distribuídas. Este facto será a base para a construção

de intervalos de confiança quando se tem p ≥ 3.

Considere-se X ∼ U [a, b], então E[X] = a+b2 e V ar(X) = (b−a)2

12 . Deste modo,

E

[(∂f

∂Xi

)2

σ2i

]=

(∂f

∂Xi

)2 ((aixi100

)2+(bixi100

)2)2

, (3.30)

V ar

((∂f

∂Xi

)2

σ2i

)=

(∂f

∂Xi

)4 ((bixi100

)2 − (aixi100

)2)212

(3.31)

e, portanto,

Tpsp

=

p∑i=1

(∂f

∂Xi

)2

σ2i −

p∑i=1

1

2

(∂f

∂Xi

)2((aixi

100

)2+

(bixi100

)2)

√√√√ p∑i=1

1

12

(∂f

∂Xi

)4((

bixi100

)2

−(aixi

100

)2)2(3.32)

converge para uma distribuição N (0, 1). Deste modo, é possível obter um intervalo de confiança para

σ2Y ≈

∑pi=1

(∂f

∂Xi

)2

σ2i .

Uma vez que, no caso prático em estudo, o cálculo do balanço hídrico, as variáveis são utilizadas

de forma sucessiva para o cálculo de novas componentes, é necessário garantir que os intervalos de

confiança finais possuam o grau de confiança desejado. Com esse objetivo, utilizar-se-á a correção de

Bonferroni, que permitirá obter intervalos de confiança que possuem, pelo menos, o grau de confiança

pretendido.

3.3.3 O método de Monte Carlo para cálculo de incertezas

Uma forma alternativa de avaliar a incerteza de uma determinada medição, sem recorrer ao método

Delta, é através do método de Monte Carlo (MMC), sendo este método também apresentado como uma

possibilidade em BIPM et al. (2008). Como anteriormente, admite-se que se tem Y = f(X1, . . . , Xp)

com Xi independentes para todo o i ∈ {1, . . . , p}. O MMC propaga as funções de densidade de

probabilidade associadas às variáveis Xi e permite calcular uma estimativa da função densidade de

probabilidade de Y , a partir da qual se obtém a estimativa da incerteza final. O procedimento pode

sumariar-se nos seguintes passos:

• Passo 1: associar uma função densidade de probabilidade, gXi , a cada variávelXi, i ∈ {1, . . . , p};• Passo 2: realizar M simulações de cada uma das variáveis Xi, denotadas por xi1, xi2, . . . , xiM ,

∀i ∈ {1, . . . , p}, utilizando, para tal, as funções densidade de probabilidade gXi ;

• Passo 3: calcular yj = f(x1j , . . . , xpj), ∀j ∈ {1, . . . ,M};

• Passo 4: calcular y =1

M

M∑j=1

yj e s2Y =1

M − 1

M∑j=1

(yj − y)2.

Deste modo, sY =√s2Y dá uma estimativa da incerteza absoluta da variável Y e, consequente-

mente, é possível obter a estimativa da incerteza relativa desta medida. Contudo, uma vez que o

desvio padrão amostral não é um estimador robusto, optou-se por também utilizar o MAD (Median ab-

solute deviation), ajustado por um fator (3.33), e o IQR (Interquartile range) (3.34) como estimadores da

incerteza absoluta das variáveis no procedimento anterior.

16

Page 31: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

1.4826×MAD = 1.4826×medianai(|yi −medianaj(yj)|), (3.33)

IQR = Q3 −Q1, (3.34)

onde medianaj(yj) representa a mediana de todas as observações yj , j = 1, . . . ,M e Q1 e Q3 re-

presentam, respetivamente, o 1º e o 3º quartis amostrais das observações yj , j = 1, . . . ,M . Assim,

aquando da avaliação dos resultados, poder-se-á comparar estes três estimadores e verificar qual o

que tem melhor desempenho.

Para a aplicação do método de Monte Carlo, apenas é necessário garantir que a função f é contínua

para cada Xi na proximidade da melhor estimativa xi de Xi, o que se verifica em todos os casos em

estudo.

No caso concreto do balanço hídrico, está-se perante um modelo multi-etapas, uma vez que os resul-

tados obtidos para algumas variáveis irão ser utilizados, de seguida, para o cálculo de novas variáveis.

Assim, neste caso, se se estiver perante uma variável Z = h(Y, Y1, . . . , Yk), onde Y = f(X1, . . . , Xp)

e, anteriormente, já tiverem sido realizadas simulações para as variáveis Xi, i ∈ {1, . . . , p}, devem ser

seguidas as seguintes etapas:

• fazer M simulações para as variáveis Yi, i ∈ {1, . . . , k}, usando o mesmo valor de M que foi

utilizado para as simulações de Xi, i ∈ {1, . . . , p};• calcular zj = h(yj , y1j , . . . , ykj), onde é utilizada a notação apresentada anteriormente.

Sendo assim, também neste caso, se obtém a estimativa da incerteza absoluta da variável Z, sem

serem realizadas simulações diretas para a variável Y .

O número de simulações M para se obter um grau de confiança nos resultados de 95%, segundo

Cox et al. (2001), será de, pelo menos, 50 000. Contudo, segundo BIPM et al. (2008), ter-se-á de

realizar, pelo menos, 11−p × 104 simulações, o que, para um grau de confiança p = 0.95, significa 200

000 simulações. Dada a discrepância destes valores, os dois valores para M serão utilizados de modo

a comparar os resultados.

Distribuição Normal

Inicialmente, para a aplicação do MMC ao balanço hídrico e dada a falta de informação sobre as dis-

tribuições de cada uma das variáveis, assumir-se-á uma distribuição normal, com valor médio estimado

pelo valor mais provável indicado pela entidade gestora (moda) e a estimativa da variância calculada da

seguinte forma: dada a gama de incerteza relativa (a−b)% indicada para uma variável, calcula-se o qua-

drado da incerteza absoluta para cada um dos limites((

a100 ×moda

)2e(b

100 ×moda)2)

, assumindo-

se cada um destes valores para a variância. Assim, como se obtêm duas distribuições diferentes para

cada variável (com o mesmo valor médio, mas variâncias diferentes), aplica-se o método de Monte

Carlo separadamente.

Ainda considerando a distribuição normal, estudar-se-á a possibilidade de aplicar esta distribuição

com valor médio dado pelo logaritmo do valor indicado pela entidade gestora, log(moda), e variância

calculada do mesmo modo que anteriormente. Esta opção foi considerada, uma vez que, em geral, as

séries de consumos apresentam uma distribuição aproximadamente log-normal [Loureiro (2010)].

Distribuição Normal Truncada

Tipicamente, todas as variáveis presentes no balanço hídrico são não negativas, pelo que assumir-

se-á também uma distribuição normal truncada para cada variável, com limite inferior igual a zero e com

valor médio e variância, antes da truncagem, definidos tal como no caso anterior.

17

Page 32: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Distribuição Log-Normal

Dada a grandeza dos valores introduzidos como mais prováveis na maioria das variáveis do balanço

hídrico, optar-se-á ainda por assumir que estas seguem uma distribuição log-normal.

Contudo, neste caso, o valor médio e o valor mais provável não coincidem. Se X ∼ N (µ, σ2),

então Y = exp(X) ∼ logN (µ, σ2) e E[Y ] = eµ+σ2

2 , Moda(Y ) = eµ−σ2

e V ar(Y ) = (eσ2 − 1)e2µ+σ

2

.

Considerando que se pretende que o valor introduzido pela entidade gestora seja igual à moda da

distribuição Y e a variância seja calculada do mesmo modo que na distribuição normal, para realizar as

simulações é necessário encontrar os valores de µ e σ2. Nesse sentido, considerando Moda(Y ) = m e

V ar(Y ) = w, é necessário resolver o sistema (3.35).m = eµ−σ2

w = (eσ2 − 1)e2µ+σ

2. (3.35)

Contudo, este sistema não tem uma solução única e, além disso, não é possível, no caso em estudo,

obter computacionalmente um resultado para as várias soluções, dada a sua complexidade e a gran-

deza dos valores das variáveis. Deste modo, a aplicação da distribuição log-normal ficará limitada a as-

sumir que o valor introduzido pela entidade gestora corresponde ao valor médio da distribuição Y . Neste

caso, assumir-se-á que V ar(Y ) =(a

100 × E[Y ])2

, para o limite inferior, e V ar(Y ) =(b

100 × E[Y ])2

, no

limite superior, onde a − b% representa a gama de incerteza relativa da medição associada à variável

Y . Assim, µ = log(E[Y ])− σ2

2 e σ2 = log(

1 + V ar(Y )E[Y ]

).

Distribuição Skew Normal

Além das distribuições anteriores, optar-se-á por considerar ainda uma generalização da distribuição

normal: a distribuição skew normal. Denotando por φ(x) e por Φ(x), a função densidade de probabi-

lidade e a função de distribuição de uma N (0, 1), respetivamente, tem-se que a função densidade de

probabilidade de uma distribuição skew normal é dada por:

f(x) =2

ωφ

(x− ξω

(x− ξω

)), (3.36)

onde ξ é o parâmetro de localização, ω é o parâmetro de escala e α é o parâmetro de forma.

Se X ∼ skewNormal(ξ, ω, α), então E[X] = ξ + ωδ√

2π e V ar(X) = ω2

(1− 2δ2

π

), onde δ = α√

1+α2.

No entanto, não existe uma forma fechada para a moda desta distribuição. Deste modo, não será

possível fazer simulações de Monte Carlo com esta distribuição assumindo que o valor indicado pela

entidade gestora para cada uma das variáveis corresponde ao valor mais provável. Além disso, esta

distribuição admite um parâmetro de localização que não coincide com o valor médio, acontecendo o

mesmo com o parâmetro de escala e o desvio padrão, o que levará a que se façam duas simulações

diferentes:

• Caso 1: assumindo que o valor indicado pela entidade gestora corresponde ao parâmetro de

localização e que o de escala é dado por(a

100 × ξ)2

no limite inferior e por(b

100 × ξ)2

no limite

superior;

• Caso 2: assumindo que o valor indicado pela entidade gestora corresponde ao valor médio E[Y ]

e que a variância toma o valor(a

100 × E[Y ])2

no limite inferior e(b

100 × E[Y ])2

no limite superior,

o que corresponde a ξ = E[Y ]−√V ar[Y ]

π − 1e ω =

√V ar[Y ]

1− 1π

;

onde (a− b) % corresponde à gama de incerteza relativa da variável Y .

18

Page 33: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

De modo a ser possível realizar estas simulações, é também necessário definir o parâmetro de

forma. Analisando os gráficos da função densidade de probabilidade de diferentes distribuições skew

normal, concluiu-se que, no caso em estudo, um valor adequado para este parâmetro será 1.

Também neste caso, tal como com a distribuição normal, estudar-se-á a possibilidade de aplicar

esta distribuição substituindo o valor indicado pela entidade gestora pelo seu logaritmo.

Distribuição Gama

Se X é uma variável que segue uma distribuição gama com parâmetro de forma α e parâmetro de

taxa β, X ∼ Gama(α, β), então a função densidade de probabilidade é dada por:

f(x) =βα

Γ(α)xα−1e−βx (3.37)

e E[X] = αβ , V ar(X) = α

β2 e, se α > 1, Moda(X) = α−1β .

Denotando por m o valor indicado pela entidade gestora para uma medição e por (a− b) % a gama

de incerteza relativa da mesma, pode-se assumir Moda(X) = m e V ar(X) = w, onde w =(a

100 ×m)2

,

para o limite inferior, e w =(b

100 ×m)2

, para o limite superior. Deste modo, resolvendo o sistema:m = α−1β

w = αβ2

, (3.38)

obtém-se α = βm+ 1 e β = m+√m2+4w2w , uma vez que β > 0. Assim, assumindo uma distribuição gama

com parâmetros dados pela solução do sistema anterior, é possível fazer simulações de Monte Carlo

para as variáveis do balanço hídrico.

Em todas as hipóteses consideradas para distribuição das variáveis associadas às diferentes com-

ponentes do balanço hídrico são consideradas duas distribuições diferentes, uma associada ao limite

inferior da banda de incerteza relativa da variável e outra ao limite superior. Deste modo, em qualquer

uma das situações, obter-se-á um intervalo de incertezas, uma vez que o MMC será aplicado de forma

separada às duas distribuições. Observe-se que, no caso de a gama de incerteza possuir limite infe-

rior nulo, assume-se como valor 0.01%, uma vez que, de outra forma, não se obteriam distribuições.

Todas estas possibilidades serão analisadas com alguns casos fictícios e reais e os resultados serão

apresentados no capítulo 4. Nesse capítulo, serão comparados os resultados obtidos com os métodos

apresentados anteriormente (método Delta e intervalos de confiança), de modo a que seja possível

perceber qual a distribuição que melhor modela estas variáveis, assim como o método mais adequado

para a estimativa da incerteza final.

3.4 Métodos de cálculo da propagação de incertezas baseados

nos valores mínimos e máximos das variáveis

Na secção 3.2, indicou-se que, para medir a incerteza de uma medição, utilizar-se-ia uma classificação

em bandas recomendada pelo IWA e pela ERSAR [Alegre et al. (2004); Baptista et al. (2005)] e que

se reproduziu na tabela 3.4. Contudo, em teoria, acredita-se que poderá ser mais intuitivo para as

entidades gestoras introduzir a medida de incerteza associada à medição/componente de uma forma

diferente. Ou seja, em vez da indicação da medição efetuada e da banda de incerteza, esta última

é substituída pela indicação de dois valores, que representam o valor mínimo e o máximo para essa

mesma medição, ou seja, os valores que a entidade gestora acredita que esta variável não ultrapassa.

19

Page 34: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Deste modo, uma vez que os valores mínimo e máximo poderão não ser simétricos em relação à

medição efetuada e, portanto, não se poderá assumir a diferença entre um extremo e a medição como

incerteza absoluta, será assumida uma distribuição triangular para modelar as variáveis de interesse,

assumindo para valor mais provável a medição efetuada e para valores mínimo e máximo os indicados

pela entidade gestora1.

Assim, se a medição efetuada pela entidade e os valores mínimo e máximo indicados para a variável

X forem, respetivamente, b, a e c, tem-se que X ∼ Triangular(a, b, c) e, portanto, E[X] = a+b+c3 ,

V ar(X) = a2+b2+c2+ab+ac+bc18 e Moda(X) = b. Segundo o GUM [BIPM et al. (2008)], poderá analisar-

se a propagação de incertezas utilizando o valor médio da distribuição e, para incerteza absoluta da

medição, a raiz quadrada positiva da variância. Deste modo, torna-se possível aplicar a fórmula (3.12).

Contudo, dada a assimetria que se verifica em muitas das variáveis do balanço hídrico, o valor médio

da distribuição afasta-se de forma significativa da moda, o que leva a resultados subsequentes não

reais, do ponto de vista prático. Por esta razão, optar-se-á por utilizar as próprias medições efetuadas

pela entidade, ou seja, a moda das distribuições, em detrimento dos valores médios, para a realização

dos cálculos seguintes. No seguimento do uso dos valores mais prováveis em detrimento dos valores

médios e uma vez que a variância é uma medida de dispersão em relação ao valor esperado, torna-se

necessário definir uma medida de dispersão em relação à moda. Assim, analogamente à definição da

variância, propõe-se, neste trabalho, a seguinte medida:

Disp(X) = E[(X −Moda(X))2]

= E[X2]− 2E[X]Moda(X) +Moda(X)2. (3.39)

No caso de uma variável que segue uma distribuição triangular X ∼ Triangular(a, b, c), tem-se que:

Disp(X) =a2 + b2 + c2 + ab+ ac+ bc

6− 2b× a+ b+ c

3+ b2

=a2 + 3b2 + c2 + ac− 3ab− 3bc

6(3.40)

uma vez que,

E[X2] = V ar(X) + E[X]2

=a2 + b2 + c2 − ab− ac− bc

18+

(a+ b+ c)2

9

=a2 + b2 + c2 + ab+ ac+ bc

6. (3.41)

Deste modo, seguindo o proposto no GUM [BIPM et al. (2008)], poder-se-á analisar a propagação de

incertezas substituindo o valor esperado pela moda e assumindo como incerteza absoluta da variável

X a raiz quadrada positiva desta nova medida de dispersão,√Disp(X). No caso da incerteza relativa,

esta será calculada em relação à moda, ou seja, será dada por

√Disp(X)

Moda(X)×100%. Consequentemente,

para a avaliação da incerteza de uma variável Y = f(X1, . . . , Xp), bastará utilizar a fórmula (3.12),

relativa ao método Delta, substituindo os valores relativos à variância pelos valores desta nova medida

de dispersão.

Contudo, uma vez que se está a assumir uma distribuição triangular para as componentes/variáveis

do balanço hídrico, poder-se-á também aplicar simulações de Monte Carlo para estudar as incertezas.

1Esta hipótese está também presente no Guide to the expression of uncertainty in measurement (GUM) [BIPM et al. (2008)],sendo designada por “avaliação do tipo B da incerteza padrão", em oposição à “avaliação do tipo A da incerteza padrão"que foiseguida até então. A principal diferença em relação ao método Delta, enunciado na secção 3.3.1, centra-se na utilização de umadistribuição para modelar as variáveis.

20

Page 35: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tal como anteriormente, não será apenas utilizado o desvio padrão como medida de dispersão das

simulações realizadas, optando-se também por analisar o MAD e o IQR. Deste modo, no capítulo 4,

proceder-se-á à análise comparativa destes dois métodos.

Para a análise do melhor método de cálculo da incerteza expandida obtida pela propagação das

incertezas iniciais, serão utilizados dados relativos a um exemplo fictício de Vila Faia, retirado de Alegre

et al. (2005), e dados de dois casos reais, provenientes de duas entidades gestoras participantes no

projeto iPerdas 2016 e designados por entidade #8 e entidade #132. Na tabela 3.6, é possível encontrar

uma sistematização dos casos de estudo que serão utilizados para estudar cada método, tanto no caso

das bandas de incerteza como no caso dos valores mínimo e máximo para as variáveis.

Tabela 3.6: Sistematização dos métodos de propagação de incertezas aplicados a cada caso de estudo.

Exemplo de Vila Faia(retirado de Alegre

et al. (2005))Entidade #8 Entidade #13

Métodos de propagação de incertezas baseados em bandas de incertezaMétodo Delta X X XIntervalos de confiança X X XMétodo de Monte Carlo

Escolha da melhor distribuição XAplicação da melhor distribuição X X X

Métodos de propagação de incertezas baseados nos valores mínimos e máximos das variáveisMétodo Delta X XMétodo de Monte Carlo X X

2Esta designação encontra-se de acordo com a numeração interna das entidades gestoras no próprio projeto.

21

Page 36: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

22

Page 37: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Capítulo 4

Resultados da propagação de

incertezas no balanço hídrico e nos

indicadores de perdas de água

O exemplo fictício do município de Vila Faia, apresentado em Alegre et al. (2005) e reproduzido nas

tabelas A.1 e A.2 dos Anexos, foi utilizado para testar todos os métodos e para comparar resultados.

Além deste exemplo, foi possível ainda obter dados reais, relativos a dois sistemas de cidades portu-

guesas (designados por entidade #8 e entidade #13, de acordo com a numeração interna estabelecida

no projeto iPerdas 2016), para a avaliação do método Delta, dos intervalos de confiança e do método

de Monte Carlo com bandas de incerteza. Contudo, para a aplicação dos métodos baseados nos valo-

res mínimos e máximos das variáveis, apenas a entidade #8 conseguiu fornecer os dados no formato

indicado, tendo a entidade #13 afirmado não possuir informação suficiente para indicar valores mínimos

e máximos. Apesar disso, serão utilizados os dados simulados a partir do exemplo de Vila Faia e os

dados reais da entidade #8 para estudar a propagação de incertezas com base nos valores mínimos e

máximos das componentes do balanço hídrico.

4.1 Métodos de propagação de incertezas baseados em bandas

de incerteza

Nesta secção, pretende-se apresentar os resultados relativos à aplicação do método Delta, dos inter-

valos de confiança (IC) e do método de Monte Carlo (MMC), nos casos em que as incertezas são

fornecidas no formato de bandas. Deste modo, começar-se-á por comparar os resultados do método

Delta e dos intervalos de confiança. No caso do método de Monte Carlo, começar-se-á por proceder à

seleção da distribuição de probabilidade que melhor modela as variáveis, utilizando os dados do exem-

plo fictício de Vila Faia. Após a identificação da melhor distribuição, esta será utilizada para a avaliação

do MMC nos restantes casos de estudo.

4.1.1 Método Delta e intervalos de confiança

Utilizando os dados apresentados em Alegre et al. (2005), no exemplo fictício do município de Vila Faia,

pretende-se observar quais as diferenças que se obtêm nas incertezas, em termos de componentes do

balanço hídrico e indicadores de desempenho de perdas de água, efetuando os cálculos com base na

23

Page 38: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

fórmula (3.12), relativa ao método Delta, e com base nos intervalos de confiança a 95%1 construídos

na secção 3.3.2. Estes dados são apresentados nas tabelas 4.1 e 4.3, nas colunas “Método Delta”

e “IC a 95%”, e correspondem às componentes principais do balanço hídrico e aos indicadores de

desempenho de perdas de água utilizados para análise. Na tabela 4.2 apresentam-se ainda os valores

de alguns dados complementares, necessários ao cálculo dos indicadores, e as respetivas incertezas

consideradas2.

A partir destes resultados, pode-se verificar que, em geral, a amplitude dos intervalos de confiança

apresenta uma ligeira tendência para ser inferior à amplitude das bandas de incerteza obtidas pelo

método Delta, em especial, quando se consideram componentes resultantes de subtrações, tais como

a água não faturada e as perdas de água. Quando se englobam diversas operações nos cálculos

(como é o caso dos indicadores de perdas de água), as conclusões não são claras, sendo estes factos

confirmados pela análise dos resultados obtidos com os dados reais das entidades gestoras #8 e #13,

sendo alguns deles possíveis de verificar nas tabelas 4.6 e 4.7, respetivamente.

4.1.2 Método de Monte Carlo

Na aplicação prática do método de Monte Carlo, para o cálculo das incertezas relativas, optou-se por

utilizar como denominador a própria medição indicada pela entidade gestora, em detrimento da média

das simulações, tal como sugerido em BIPM et al. (2008).

Tal como referido na secção 3.3.3, foram colocadas duas possibilidades para o número de simu-

lações de Monte Carlo a realizar: 50 000 e 200 000. Uma vez que o caso da distribuição normal foi

o único em que se verificaram diferenças relativamente significativas entre os valores obtidos com 50

000 e 200 000 simulações, neste caso, optou-se por apresentar os resultados obtidos com 200 000

simulações e, nas restantes distribuições, com 50 000. Para testar qual a distribuição, de entre as

possibilidades colocadas na secção 3.3.3, que melhor se adequa ao caso em estudo, utilizar-se-á os

dados do exemplo fictício de Vila Faia, sendo, posteriormente, utilizada a melhor destas distribuições

para analisar os dados das entidades #8 e #13.

Distribuição normal

Observando a coluna “MMC com distribuição Normal e desvio padrão” das tabelas 4.1 e 4.3, onde

se encontram os resultados obtidos com os dados do exemplo fictício do município de Vila Faia e a

distribuição normal, e comparando com as colunas à esquerda (relativas ao método Delta e aos in-

tervalos de confiança), pode-se concluir que existem resultados bastante díspares, nomeadamente no

índice infra-estrutural de fugas (tabela 4.3). Neste caso, obtém-se o intervalo de incertezas relativas

80 – 44 366.3%, o que se pode concluir que é irreal, dados os valores obtidos anteriormente, nomea-

damente o IC a 95% de 39.4 – 70.2%.

Embora as incertezas no índice infra-estrutural de fugas tenham diminuído com a utilização dos

estimadores MAD e IQR, cujos resultados se encontram nas últimas duas colunas das tabelas 4.1 e

4.3, persistem diferenças elevadas. Esta mesma tendência também foi possível de verificar no caso,

por exemplo, das perdas aparentes. As diferenças verificadas entre os três estimadores devem-se à

própria diferença na robustez dos mesmos.

1Os resultados obtidos com a aplicação dos intervalos de confiança a 90% foram muito semelhantes aos obtidos com um graude confiança de 95% e, por isso, apresentar-se-ão estes últimos.

2Uma vez que os dados complementares presentes na tabela 4.2 não foram sujeitos a cálculos, apenas se indica as bandasde incerteza introduzidas pela entidade gestora (neste caso, indicadas no exemplo), que estão na base de todos os métodosutilizados.

24

Page 39: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 4.1: Incertezas para as componentes do balanço hídrico, com base no método Delta, IC e MMC com adistribuição normal para o exemplo de Vila Faia.

Componente do ba-lanço hídrico

Mediçãom3/ano

MétodoDelta

IC a 95%

MMC comdistribui-

çãoNormal e

desviopadrão

MMC comdistribui-

çãoNormal e

MAD

MMC comdistribui-

çãoNormal e

IQR

Água entrada no sis-tema

5 659 488 0-4.3 % 0.8-4.2% 0-5% 0-5% 0-6.7%

Consumo faturadomedido

4 426 870 2-6.2 % 2.3-6.1% 2.01-9.30% 2-9.3% 2.7-12.5%

Consumo faturadonão medido

7 739.5 18.5-37.7 % 19.8-37% 25.8-56.6% 25.8-56.5% 34.7-76.2%

Consumo autorizadofaturado

4 434609.5

2-6.2 % 2.3-6.1% 2.1-9.4% 2.1-9.4% 2.8-12.6%

Água não faturada1 224878.5

7.2-30.2 % 12.1-28.5% 7.4-10.9% 7.4-10.9% 10-14.6%

Consumo não fatu-rado medido

11 885 6-20 % 6-20% 6-20% 6-20% 8.1-27%

Consumo não fatu-rado não medido

37 900 9.7-22 % 12.9-20.3% 23.1-63.8% 23.1-62% 31.1-84.2%

Consumo autorizadonão faturado

49 785 7.5-17.4 % 9.8-16.2% 19-53.3% 19-52% 25.6-70.5%

Consumo autorizado4 484394.5

2-6.3 % 2-6.2% 2.2-9.9% 2.2-9.9% 3-13.3%

Perdas de água1 175093.5

7.7-31.9 % 12-20% 8.5-13.6% 8.5-13.5% 11.5-18.3%

Uso não autorizado 51 200 92-273.3 %102.3-

269.7%101-300%

100.9-299.6%

136.1-404.2%

Erros de medição 310 713 21-50 % 21-50% 19.2-45.7% 19.2-45.6% 25.8-61.5%Perdas aparentes 361 913 22.2-57.8 % 28.8-54.8% 34.9-92.2% 34.9-92.1% 47-124.3%Perdas reais (1) 813 180.5 14.9-52.7 % 23.4-49.1% 26.7-57.6% 26.7-57.5% 36-77.6%Fugas nas condutasde adução e/ou distri-buição

657 000 21-50 % 21-50% 21-50% 21-49.9% 28.3-67.4%

Fugas e extravasa-mentos nos reserva-tórios de adução e/oudistribuição

12 775 51-100 % 51-100% 51-100% 50.9-99.9%68.7-

134.7%

Fugas nos ramais (amontante do pontode medição)

7 300 51-100 % 51-100% 51-100% 50.9-99.9%68.7-

134.7%

Perdas reais nascondutas de águabruta e nas estaçõesde tratamento deágua

(-)

Perdas reais (2) 677 075 20.4-48.6 % 17-49.8% 21.9-98.1% 21.9-98%29.5-

132.2%

25

Page 40: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 4.2: Incertezas, no formato de bandas, dos dados complementares do balanço hídrico do exemplo de VilaFaia.

Variável ValorBanda deincerteza

Comprimento total da rede (km) 850 0-5 %Número total de ramais 23 000 6-20%Altura piezométrica média de serviço (kPa) 400 21-50%Comprimento médio dos ramais prediais(m) 5 21-50%Tempo de pressurização do sistema (horas/dia) 24 0-5%Custos correntes (€/ano) 5 718 335 0-5%Tarifa média para consumidores diretos (€/m3) 1.43 0-5%Custo unitário assumido das perdas reais (€/m3) 0.49 0-5%

Tabela 4.3: Incertezas dos indicadores de desempenho de perdas de água, com base no método Delta, IC e MMCcom a distribuição normal para o exemplo de Vila Faia.

Indicador ValorMétodoDelta

IC a 95%

MMC comdistribui-

çãoNormal e

desviopadrão

MMC comdistribui-

çãoNormal e

MAD

MMC comdistribui-

çãoNormal e

IQR

Indicadores de recursos hídricos

Ineficiência na utiliza-ção dos recursos hídri-cos (%)

14.428.4-46.4

%22.1-50.3% 27.4-64.8% 27.4-64.1% 36.9-86.6%

Indicadores operacionais

Perdas de água por ra-mal (l/ramal/dia)

140 16.2-34.9%17.3-34.4

%14.8-51.5% 14.5-37.9% 19.6-53.1%

Perdas de água porcomprimento de con-duta (m3/km/dia)

3.8 15.1-29%13.3-29.9

%8.5-18.6% 8.5-18.5% 11.5-24.9%

Perdas aparentes porvolume de água en-trada no sistema (%)

6.4 29-54.9%28.3-55.3

%34.4-86.5% 34.4-85.5%

46.4-115.5%

Perdas aparentes (%) 6.4 29-54.9%27.1-55.9

%34.4-86.5% 34.4-85.5%

46.4-115.5%

Perdas reais por com-primento de conduta(m3/km/dia)

2.628.4-46.8

%21.2-50.6% 26.7-69.5% 26.7-67.2% 36-91.3%

Perdas reais por ramal(l/ramal/dia)

96.9 29-50.6 % 25.2-52.8%33.1-

113.1%32.6-80.7%

44.1-113.6%

Índice infra-estruturalde fugas (-)

1.537.1-71.4

%39.4-70.2

%80-

44366.3%52.5-

108.8%74-190.2%

Água não medida (%) 21.610.4-26.5

%9.8-26.8% 7.2-15.6% 7.2-15.4% 9.7-20.8%

Indicadores financeiros

Água não faturada emtermos de volume (%)

21.614.5-27.4

%3.4-29.7% 7.3-15.8% 7.3-15.6% 9.8-21.1%

Água não faturada emtermos de custo (%)

17.319.1-34.8

%18.9-35.1% 7.7-25.7% 7.7-25.7%

10.3-34.6%

26

Page 41: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Quando se tentou realizar simulações de MC, substituindo os valores introduzidos pelos seus respe-

tivos logaritmos, tal como descrito na secção 3.3.3, não foi possível executar todos os cálculos neces-

sários, nomeadamente no que diz respeito à aplicação do logaritmo, uma vez que se obtiveram valores

negativos em simulações de componentes às quais se teria de aplicar o logaritmo, concluindo-se, deste

modo, que esta não será uma possibilidade a aplicar.

Deste modo, com base no exemplo fictício do município de Vila Faia, pode-se concluir que a distri-

buição normal não modela corretamente as variáveis presentes no balanço hídrico. Por conseguinte,

a aplicação de simulações de Monte Carlo para o estudo da propagação de incertezas não deverá ser

executada com esta distribuição, tendo-se estudado, por isso, outras distribuições, tal como apresen-

tado de seguida.

Distribuição normal truncada

No caso da utilização da distribuição normal truncada, verificou-se que os resultados são bastante

semelhantes aos obtidos anteriormente com a distribuição normal. Por exemplo, no caso do índice infra-

estrutural de fugas, obteve-se os intervalos de incertezas relativas 63.7 – 26 735.2%, 52.4 – 99.4% e

73.9 – 154.5% utilizando como estimadores para a incerteza absoluta o desvio padrão, o MAD e o IQR,

respetivamente. Uma vez que estes valores são irreais, pode-se concluir que, dada a credibilidade do

exemplo utilizado, as variáveis do balanço hídrico não seguem uma distribuição normal truncada.

Distribuição log-normal

Os resultados da aplicação da distribuição log-normal não se encontram apresentados, já que, mais

uma vez, existiram valores discrepantes no que diz respeito, por exemplo, ao índice infra-estrutural de

perdas. Neste caso, apesar de o IC a 95% associado a este indicador ser de 39.4 – 70.2%, com o MMC

e esta distribuição obtiveram-se os intervalos 54.8 – 177.2%, 52 – 123.7% e 70.8 – 181.8%, utilizando

como estimadores para a incerteza absoluta o desvio padrão, o MAD ajustado e o IQR, respetivamente.

Deste modo, também esta distribuição não será uma boa opção para a modelação das variáveis de

interesse associadas ao balanço hídrico.

Distribuição skew normal

Da aplicação da distribuição skew normal, como descrita no caso 1 da secção 3.3.3, ao sistema de

Vila Faia, resultaram intervalos 62.8 – 24 178%, 45.2 – 84.1% e 63.8 – 137.1% para a incerteza relativa

associada ao índice infra-estrutural de fugas, considerando como estimadores para a incerteza absoluta

o desvio padrão, o MAD e o IQR, respetivamente. Uma vez que os resultados não parecem ser realistas,

principalmente utilizando o desvio padrão e o IQR, pode-se concluir que estes dois estimadores, com

esta hipótese, não modelam bem o problema em causa.

Também na aplicação do caso 2 se obtêm valores irreais, por exemplo, 1 720.4 – 46 313.1%, 70.6 –

173.2% e 102.6 – 317.5% foram os intervalos de incerteza relativa obtidos para o índice infra-estrutural

de fugas, utilizando o desvio padrão, o MAD e o IQR, respetivamente, como estimadores da incerteza

absoluta. Este exemplo permite inferir que nenhuma das hipóteses colocadas com a distribuição skew

normal se adequa aos dados em estudo.

Mais uma vez, ao substituir-se o valor indicado pela entidade gestora pelo logaritmo do mesmo

em todo o procedimento anterior, tal como referido na secção 3.3.3, ocorreram problemas em alguns

cálculos, repetindo-se o que sucedera anteriormente com a distribuição normal.

Distribuição gama

Aquando da aplicação da distribuição gama ao exemplo do sistema do município de Vila Faia,

27

Page 42: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

obtiveram-se os resultados presentes nas tabelas 4.4 e 4.5. Comparando com os resultados obti-

dos com o método Delta e com os intervalos de confiança, pode-se verificar que a distribuição gama

modela bem as componentes do balanço hídrico.

Em relação à escolha entre os três estimadores da incerteza absoluta, verifica-se que os resultados

entre o desvio padrão e o MAD são bastante semelhantes, enquanto que o IQR, em geral, leva a um

aumento dos valores, em ambos os limites dos intervalos. Uma vez que estas incertezas resultam de

simulações e, por isso, estão sujeitas à ocorrência de observações um pouco mais discrepantes, e o

MAD é um estimador mais robusto do que o desvio padrão, considera-se que este será um melhor

estimador para a incerteza absoluta.

Deste modo, pode-se concluir que a aplicação de simulações de Monte Carlo com a distribui-

ção gama e o estimador MAD é uma opção viável para o cálculo da propagação de incertezas. Ao

considerar-se os resultados obtidos com os dados fornecidos pelas entidades gestoras, foi possível

validar esta mesma hipótese, tal como se pode verificar pelos exemplos presentes nas tabelas 4.6 e

4.7, e, portanto, considera-se que a distribuição gama modela corretamente as diferentes variáveis do

balanço hídrico.

4.1.3 Comparação dos resultados de um exemplo com dois casos reais

Comparando os resultados obtidos com os diferentes métodos e os dados do exemplo de Vila Faia

e das entidades gestoras, foi possível retirar algumas conclusões sobre o modo de propagação das

incertezas com as diferentes operações e sobre as diferenças que se verificam entre os métodos.

Considerando as componentes do balanço hídrico que resultam de operações que envolvem apenas

somas, verifica-se que as incertezas obtidas pelos diferentes métodos são semelhantes, além de não

aumentarem relativamente às incertezas das diferentes parcelas. Naturalmente, as incertezas das

parcelas de maior grandeza refletem-se de forma mais significativa na incerteza do resultado final. Estas

conclusões são possíveis de retirar, não apenas com o exemplo fictício de Vila Faia, mas também com

os dados das duas entidades gestoras. Nas tabelas 4.6 e 4.7, onde se encontram reproduzidos alguns

dos resultados obtidos com os dados destas duas entidades, relativamente a componentes resultantes

de somas, pode-se analisar, por exemplo, a água entrada no sistema ou o consumo autorizado.

Contudo, quando se consideram as componentes do balanço hídrico que resultam de subtrações,

as conclusões entre métodos diferem. Para além do exemplo de Vila Faia, este facto também é visível

nos dados das duas entidades gestoras estudadas, reproduzidos em parte nas tabelas 4.6 e 4.7, sendo

as perdas de água aí presentes um exemplo de uma componente nestas condições. Neste caso, em

geral, a incerteza do resultado final aumenta relativamente às incertezas das parcelas, o que seria de

esperar, no caso do método Delta e dos intervalos de confiança, considerando a fórmula (3.15), para A

e B positivos. Em relação às divisões existentes nos indicadores de perdas de água, é possível retirar

as mesmas conclusões que nas subtrações: os resultados obtidos com os três métodos diferem e existe

uma tendência para o aumento da incerteza no resultado final, o que é explicado pela fórmula (3.17).

Em relação às conclusões entre os métodos, verifica-se que, em geral, os intervalos de confiança

são os que apresentam uma menor amplitude no caso de subtrações, ou seja, os maiores limites in-

feriores e os menores limites superiores. No caso de componentes resultantes apenas de somas,

verifica-se que não existem diferenças significativas entre os métodos. Contudo, no caso de combina-

ções de várias operações não é possível retirar conclusões claras. Uma vez que o MMC é o método

mais dispendioso computacionalmente, considera-se que não deverá ser considerado para a análise da

propagação de incertezas no balanço hídrico. A preferência dos IC, quando comparados com o método

Delta, deve-se ao facto de, em geral, produzirem intervalos de menor amplitude e adicionalmente terem

associado um nível de confiança.

28

Page 43: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 4.4: Incertezas para as componentes do balanço hídrico, com base no MMC com a distribuição gama,para o exemplo de Vila Faia.

Componente do balanço hí-drico

Mediçãom3/ano

MMC comdistribuição

Gama e desviopadrão

MMC comdistribuiçãoGama e MAD

MMC comdistribuiçãoGama e IQR

Água entrada no sistema 5 659 488 0-4.3% 0-4.3%0-5.8%

Consumo faturado medido 4 426 870 2-6.3% 2-6.1%2.7-8.3%

Consumo faturado não medido 7 739.5 18.4-37.7% 17.7-35%24.1-47.9%

Consumo autorizado faturado 4 434 609.5 2-6.3% 2-6.1%2.7-8.3%

Água não faturada 1 224 878.5 7.2-30.4% 7.1-29.9%9.7-40.3%

Consumo não faturado medido 11 885 6-20% 6-19.7%8.1-26.6%

Consumo não faturado não me-dido

37 900 9.7-22.1% 9.5-21.2%12.8-28.9%

Consumo autorizado não fatu-rado

49 785 7.5-17.5% 7.4-17%10-22.9%

Consumo autorizado 4 484 394.5 2-6.2% 1.9-6%2.6-8.2%

Perdas de água 1 175 093.5 7.5-31.7% 7.4-31.2%10.1-42%

Uso não autorizado 51 200 92.5-275.6% 82-220.2%115.1-321.9%

Erros de medição 310 713 21-49.9% 20.7-47.6%28-65.4%

Perdas aparentes 361 913 22.4-58% 22-55.3%29.8-75.2%

Perdas reais (1) 813 180.5 14.7-52.6% 14.7-52%19.7-69.7%

Fugas nas condutas de aduçãoe/ou distribuição

657 000 21-50% 21-50%28-65.3%

Fugas e extravasamentos nosreservatórios de adução e/oudistribuição

12 775 51-100% 51-100%66.5-125.2%

Fugas nos ramais (a montantedo ponto de medição)

7 300 51-100% 51-100%66.5-125.2%

Perdas reais nas condutas deágua bruta e nas estações detratamento de água

(-)

Perdas reais (2) 677 075 20.3-48.6% 20.1-46.5%27.2-63.8%

29

Page 44: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 4.5: Incertezas dos indicadores de desempenho de perdas de água, com base no MMC com a distribuiçãogama, para o exemplo de Vila Faia.

Componente do balanço hí-drico

Valor

MMC comdistribuição

Gama e desviopadrão

MMC comdistribuiçãoGama e MAD

MMC comdistribuiçãoGama e IQR

Indicadores de recursos hídricos

Ineficiência na utilização dos re-cursos hídricos (%)

14.4 14.7-51% 22.3-30.3%19.7-67.6%

Indicadores operacionais

Perdas de água por ramal(l/ramal/dia)

140 9.6-37.1% 9.5-35%12.8-47.7%

Perdas de água por comprimentode conduta (m3/km/dia)

3.8 7.5-32% 7.4-31.5%10.1-42.5%

Perdas aparentes por volume deágua entrada no sistema (%)

6.4 22.4-58.5% 22-55.3%29.8-75.6%

Perdas aparentes (%) 6.4 22.4-58.5% 22-55.3%29.8-75.6%

Perdas reais por comprimento deconduta (m3/km/dia)

2.62 14.7-53% 14.7-52%19.7-69.7%

Perdas reais por ramal(l/ramal/dia)

96.9 15.7-55.3% 15.6-52.2%20.9-69.9%

Índice infra-estrutural de fugas (-) 1.5 24.6-67.9% 23.3-49.9%31.4-68.1%

Água não medida (%) 21.6 7.2-28% 7.1-27.4%9.7-37%

Indicadores financeiros

Água não faturada em termos devolume (%)

21.6 7.2-27.9% 7.1-27.3%9.7-36.9%

Água não faturada em termos decusto (%)

17.3 8.9-28.3% 8.7-27.4%11.9-37%

Tabela 4.6: Incertezas de algumas componentes do balanço hídrico para o caso da entidade #8.

Componente do balançohídrico

Valor Método Delta IC a 95%MMC com

distribuiçãoGama e MAD

Água entrada no sistema 11 918 792 0.8 – 5.2 % 1.5 – 5 % 0.8 – 5.1 %Consumo autorizado 9 125 696 0.7 – 5.5 % 1.3 – 4.5 % 0.5 – 4.2 %

Perdas de água 2 793 096 4 – 18.3 % 10.7 – 25.1 % 3.6 – 25.8 %Consumo não autorizado 1 485 076 42.1 – 82.5 % 45.1 – 80.8 % 40.2 – 74.3 %

Erros de medição 481 316 0.3 – 5.1 % 1 – 5.1 % 0.3 – 5.2 %Perdas aparentes 1 966 392 31.8 – 62.3 % 34.4 – 60.9 % 30.4 – 56.2 %

Perdas reais (1) 826 704 76.8 – 148.8 % 97.7 – 163.5 % 73.1 – 160.7 %Perdas reais (2) 1 042 159 43.6 – 85.5 % 39.8 – 87.4 % 41.6 – 76.4 %

Tabela 4.7: Incertezas de algumas componentes do balanço hídrico para o caso da entidade #13.

Componente do balançohídrico

Valor Método Delta IC a 95%MMC com

distribuçãoGama e MAD

Água entrada no sistema 9 867 897 0 - 3.6 % 0.9 - 3.5 % 0 - 3.6 %Consumo autorizado 6 381 730 0.8 - 4.3 % 1.4 - 4.1 % 0.7 - 4 %

Perdas de água 3 486 167 1.4 - 7.9 % 4.7 - 12.1 % 1.3 - 12.5 %Consumo não autorizado 64 360 39 - 76.4 % 43.2 - 74.1 % 37.3 - 70.3 %

Erros de medição 897 772 0 - 5 % 0 - 5 % 0 - 5 %Perdas aparentes 962 132 2.6 - 6.9 % 3.5 - 6.5 % 2.5 - 6.6 %

Perdas reais (1) 2 524 035 2.2 - 3.3 % 6.4 - 17.4 % 2 - 17.5 %Perdas reais (2) 237 250 51 - 100 % 51 - 100 % 49 - 89 %

30

Page 45: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Escolhido o melhor método para o estudo da propagação das incertezas com base nas bandas de

incerteza, torna-se necessário verificar qual o impacto destes valores de incerteza, principalmente nas

componentes de perdas de água, para as entidades gestoras #8 e #13.

Comparando os resultados destas duas entidades, pode-se verificar que as perdas aparentes apre-

sentam um incerteza significativamente superior no caso #8, 34.3 – 60.9%, em oposição ao caso #13,

3.5 – 6.5%. A principal razão para esta diferença reside no consumo não autorizado (subcomponente

das perdas aparentes sobre a qual há, em geral, um grande desconhecimento), que tem um peso bas-

tante mais significativo no primeiro caso do que no segundo. Assim, resultando as perdas aparentes

da soma entre o consumo não autorizado e os erros de medição, torna-se evidente que os erros de

medição têm uma influência maior no caso #13, diminuindo a incerteza associada às perdas aparentes.

Relativamente às perdas reais, verifica-se que as incertezas associadas ao valor de perdas reais

(1), obtido por dedução das perdas aparentes às perdas de água, e ao valor de perdas reais (2), obtido

pela soma de subcomponentes de perdas reais estimadas através de métodos complementares, são

também muito diferentes. Na entidade #8, a menor incerteza sobre o valor de perdas reais (2) estimado

deve levar a entidade gestora a analisar e a rever a estimativa de perdas reais (1), que tem associada

uma incerteza significativamente superior. Com a entidade #13 verifica-se a situação oposta, sendo

que, neste caso, apenas uma das subcomponentes das perdas reais que são utilizadas para o cálculo

das perdas reais (2) foi estimada.

4.2 Métodos de propagação de incertezas baseados nos valores

mínimos e máximos das variáveis

Dada a existência de dados neste formato apenas para o caso da entidade #8, optou-se por, com base

nas gamas de incerteza relativa, simular valores mínimos e máximos para as variáveis iniciais do exem-

plo fictício de Vila Faia. Com base nos valores deste exemplo, procedeu-se como descrito na secção

3.4, obtendo-se os resultados presentes nas tabelas 4.8 e 4.10. Na tabela 4.9, encontram-se os valores

de incerteza dos dados complementares, obtidos com base na distribuição triangular, necessários para

o cálculo dos indicadores de desempenho de perdas de água presentes na tabela 4.10.

Pela análise das tabelas 4.8 e 4.10, pode-se verificar que o método Delta revela uma ligeira tendên-

cia para valores de incerteza superiores aos apresentados pelo MMC com o desvio padrão e o MAD

como estimadores de dispersão. Contudo, estes valores são superados pelos obtidos com o MMC com

o IQR. Apesar disso, não existem diferenças significativas entre os dois métodos.

Mais uma vez, dada a robustez do estimador MAD e o facto de se estarem a realizar simulações,

considera-se que, de entre os estimadores estudados, este será o mais indicado a utilizar.

Comparando os resultados obtidos com os métodos anteriores baseados nas gamas de incerteza,

pode-se concluir que, em geral, os métodos baseados na distribuição triangular apresentam valores,

apesar de ligeiramente inferiores, relativamente semelhantes aos obtidos com os intervalos. Contudo,

no caso do uso não autorizado, verifica-se que a incerteza é substancialmente mais baixa do que o

esperado, não tendo sido possível encontrar uma explicação para este facto.

No caso dos resultados apresentados pela entidade #8, tabela 4.11, verificou-se que existe uma

diminuição muito significativa, comparativamente aos intervalos de confiança, nos valores de incerteza

aquando da utilização dos valores mínimo e máximo como modo de calcular as incertezas das compo-

nentes do balanço hídrico. Contudo, foi também possível averiguar que os valores de incerteza obtidos

não correspondiam ao que a entidade gestora considerava adequado face ao modo como os valores

das componentes tinham sido obtidos. Deste modo, na prática, acredita-se que este formato de cálculo

de incertezas não será o adequado.

31

Page 46: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 4.8: Incertezas para as componentes do balanço hídrico, com base no MMC com a distribuição triangular,para o exemplo de Vila Faia.

Componente do balançohídrico

Valor maisprovávelm3/ano

Delta comdistribuiçãoTriangular

MMC comdistribuiçãoTriangular e

desviopadrão

MMC comdistribuiçãoTriangular e

MAD

MMC comdistribuiçãoTriangular e

IQR

Água entrada no sistema 5 659 488 1.5% 1.1% 1.1% 1.6%Consumo faturado medido 4 426 870 3.6% 2.7% 2.9% 3.9%Consumo faturado não me-dido

7 739.5 13% 12.1% 12.7% 17.3%

Consumo autorizado fatu-rado

4 434 609.5 3.6% 2.7% 2.9% 3.9%

Água não faturada 1 224 878.5 14.8% 10.8% 11.2% 15.2%Consumo não faturado me-dido

11 885 6.8% 5.8% 6.2% 8.5%

Consumo não faturado nãomedido

37 900 6.2% 5.9% 6.1% 8.2%

Consumo autorizado não fa-turado

49 785 5% 4.7% 4.8% 6.5%

Consumo autorizado 4 484 394.5 3.6% 2.6% 2.8% 3.9%Perdas de água 1 175 093.5 15.5% 11.3% 11.7% 15.8%Uso não autorizado 51 200 32.6% 26.3% 28.2% 39.2%Erros de medição 310 713 17.2% 15.4% 16.5% 22.6%Perdas aparentes 361 913 15.5% 13.7% 14.6% 20%Perdas reais (1) 813 180.5 23.4% 17.4% 18% 24.3%Fugas nas condutas de adu-ção e/ou distribuição

657 000 17.1% 17.1% 17.1% 17.1%

Fugas e extravasamentosnos reservatórios de aduçãoe/ou distribuição

12 775 34.7% 34.7% 34.7% 34.7%

Fugas nos ramais (a mon-tante do ponto de medição)

7 300 34% 34% 34% 34%

Perdas reais (2) 677 075 16.6% 14.9% 16% 21.6%

Tabela 4.9: Incertezas dos dados complementares, com base na distribuição triangular, para o exemplo de VilaFaia.

Variável Valor IncertezaComprimento total da rede (km) 850 1.8 %Número total de ramais 23 000 6.8%Altura piezométrica média de serviço (kPa) 400 16.9%Comprimento médio dos ramais prediais(m) 5 14.1%Tempo de pressurização do sistema (horas/dia) 24 0%Custos correntes (€/ano) 5 718 335 1.8%Tarifa média para consumidores diretos (€/m3) 1.43 1.9%Custo unitário assumido das perdas reais (€/m3) 0.49 1.7%

32

Page 47: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 4.10: Incertezas dos indicadores de desempenho de perdas de água, com base no método Delta e MMCcom a distribuição triangular, para o exemplo de Vila Faia.

Componente do balançohídrico

ValorDelta com

distribuiçãoTriangular

MMC comdistribuiçãoTriangular e

desviopadrão

MMC comdistribuiçãoTriangular e

MAD

MMC comdistribuiçãoTriangular e

IQR

Indicadores de recursos hídricosIneficiência na utilização dosrecursos hídricos (%)

14.4 23.4% 17.2% 17.8% 24.1%

Indicadores operacionaisPerdas de água por ramal(l/ramal/ano)

140 16.9% 13.6% 13.8% 18.7%

Perdas de água por com-primento de conduta(m3/km/dia)

3.8 15.5% 11.5% 11.9% 16.2%

Perdas aparentes por vo-lume de água entrada no sis-tema (%)

6.4 15.5% 13.9% 14.9% 20.2%

Perdas aparentes (%) 6.4 15.5% 13.9% 14.9% 20.2%Perdas reais por com-primento de conduta(m3/km/dia)

2.62 23.5% 17.7% 18.2% 24.7%

Perdas reais por ramal(l/ramal/dia)

96.9 24.3% 19.5% 19.8% 26.8%

Índice infra-estrutural de fu-gas (-)

1.5 29.8% 32% 29.2% 40.4%

Água não medida (%) 21.6 14.2% 10.6% 11.1% 15%Indicadores financeirosÁgua não faturada em ter-mos de volume (%)

21.6 14.9% 10.5% 11% 15%

Água não faturada em ter-mos de custo (%)

17.3 12.6% 8.3% 8.3%11.2%

Tabela 4.11: Incertezas de algumas componentes do balanço hídrico para o caso da entidade #8, utilizando adistribuição triangular.

Componente do balançohídrico

Valor Método DeltaMMC com

distribuiçãotriangular e MAD

Água entrada no sistema 11 918 792 1.5% 0.9%Consumo autorizado 9 125 696 1.8% 1.1%

Perdas de água 2 793 096 8.5% 4.9%Consumo não autorizado 1 485 076 8.9% 7.5%

Erros de medição 481 316 0.7% 0.7%Perdas aparentes 1 966 392 6.7% 5.7%

Perdas reais (1) 826 704 32.9% 21.1%Perdas reais (2) 1 042 159 7% 7.4%

33

Page 48: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

4.3 Conclusões

Uma vez que foi possível perceber, tanto através dos resultados obtidos e apresentados anteriormente

como pelo contacto direto com algumas entidades gestoras, que estas não possuem informação su-

ficiente para a indicação de valores mínimos e máximos para as diferentes componentes do balanço

hídrico, pode-se concluir que a indicação das incertezas associadas a estas componentes não deverá

ser realizada neste formato.

Assim, dado que os resultados relativos às bandas de incerteza se revelaram bastante satisfatórios

e reais, concluiu-se que o estudo da propagação das incertezas no cálculo do balanço hídrico e dos

indicadores de perdas de água deverá ser efetuado recorrendo a estas como modo de introduzir as

incertezas associadas às diversas componentes. Relativamente ao método de Monte Carlo, a distri-

buição normal revelou-se uma má escolha para modelar as componentes do balanço hídrico, tendo-se

verificado que a distribuição gama é uma melhor opção. No que diz respeito ao método a utilizar,

verificou-se que os resultados obtidos apenas diferiam entre os três métodos quando se consideravam

componentes e indicadores que resultavam de subtrações, divisões ou combinações de diversas ope-

rações. Nestes casos, concluiu-se que os intervalos de confiança, além de terem um grau de confiança

associado, deram origem aos intervalos com a menor amplitude. Deste modo, considerou-se que es-

tes são o melhor método para avaliar a propagação de incertezas no cálculo do balanço hídrico e dos

indicadores de perdas de água.

34

Page 49: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Capítulo 5

Métodos para a detecção de outliers

em séries temporais de caudal

Neste capítulo, pretende-se apresentar várias abordagens para a deteção de outliers em séries tempo-

rais, a segunda questão sobre a qual se debruça a presente dissertação. Começar-se-á pela utilização

do modelo TBATS, uma vez que este já foi estudado com séries temporais provenientes de sistemas

de abastecimento de água em Barrela (2015). Assim, com o objetivo de estudar a possibilidade de

se utilizarem intervalos de previsão e/ou intervalos de confiança para a deteção de outliers em séries

temporais ajustadas com o modelo TBATS, começar-se-á por formalizar este modelo na secção 5.1,

explicitando-se a forma como os parâmetros são estimados na secção 5.1.1. De seguida, na secção

5.1.2, apresentar-se-á os resultados necessários para a construção de intervalos de previsão. Poste-

riormente, na secção 5.1.3, proceder-se-á à apresentação de um método de construção de intervalos

de confiança para séries temporais ajustadas com o modelo TBATS. Na secção 5.1.4, apresentar-se-ão

novos intervalos com o mesmo objetivo, baseados simultaneamente nos intervalos de previsão e de

confiança.

Devido ao elevado peso computacional do ajuste de um modelo TBATS a séries temporais de cau-

dal, pretende-se estudar novos métodos para a deteção de outliers que não se baseiem neste modelo.

Contudo, como existem séries temporais de consumos com comportamentos bastante diferenciados,

na secção 5.2.1, começar-se-á por apresentar a metodologia utilizada para a realização uma análise

de clusters a um conjunto de séries temporais de caudal, com o objetivo de as agrupar em conjuntos

e, deste modo, estudar qual o melhor método para cada um destes. De seguida, apresentar-se-ão

os diferentes métodos em estudo: método baseado no teste do desvio studentizado extremo gene-

ralizado e algumas variantes, na secção 5.2.2, método de Tukey modificado, na secção 5.2.3, e um

método baseado no SAX (algoritmo de representação simbólica de séries temporais), na secção 5.2.4.

A comparação entre os métodos será realizada de acordo com o descrito na secção 5.3.

5.1 Deteção de outliers com base no modelo TBATS

O modelo TBATS refere-se a um modelo apresentado em De Livera et al. (2011), utilizando-se o acró-

nimo TBATS para identificar as características chave do mesmo: o primeiro T está relacionado com

a representação Trigonométrica das componentes sazonais e BATS refere-se às restantes caracterís-

ticas principais deste modelo – transformação de Box-Cox, erros ARMA, Tendência e componentes

Sazonais.

Considere-se um processo estocástico com N observações positivas {yt}Nt=1, onde yt é o valor

35

Page 50: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

observado no instante t. Aplicando a transformação de Box-Cox com parâmetro λ, representada por

y(λ)t , obtém-se:

y(λ)t =

yλt −1λ , λ 6= 0

log(yt), λ = 0. (5.1)

Deste modo, define-se:

y(λ)t = lt−1 + φbt−1 +

T∑i=1

s(i)t−mi + dt, (5.2)

onde lt é o nível local no instante t, que é dado pela equação de nível definida como

lt = lt−1 + φbt−1 + αdt, (5.3)

e bt é a tendência a curto prazo no instante t, dada pela equação de tendência

bt = (1− φ)b+ φbt−1 + βdt, (5.4)

onde b é a tendência a longo prazo, α e β são os parâmetros de suavização, φ é o parâmetro de

amortecimento e m1, . . . ,mT são os T períodos de sazonalidade .

Além disso, dt representa um processo ARMA(p, q), sendo dado por

dt =

p∑i=1

ϕidt−i +

q∑i=1

θiεt−i + εt, (5.5)

onde εt é um ruído branco normal de valor médio nulo e variância constante σ2.

Define-se ainda a i-ésima sazonalidade no instante t como:

s(i)t =

ki∑j=1

s(i)j,t , (5.6)

onde a representação trigonométrica das componentes sazonais baseada em séries de Fourier é dada

por:

s(i)j,t =s

(i)j,t−1cos(λ

(i)j ) + s

∗(i)j,t−1sin(λ

(i)j ) + γ

(i)1 dt (5.7)

s∗(i)j,t =− s(i)j,t−1sin(λ

(i)j ) + s

∗(i)j,t−1cos(λ

(i)j ) + γ

(i)2 dt (5.8)

com γ(i)1 e γ(i)2 parâmetros de amortecimento, λ(i)j = 2πj

mie ki o número de harmónicas necessário para

a i-ésima componente sazonal. Deste modo, s(i)j,t descreve o nível estocástico da i-ésima componente

sazonal e s∗(i)j,t descreve o crescimento estocástico do nível da i-ésima componente sazonal, que é

necessário para descrever mudanças nesta mesma componente ao longo do tempo. Este modelo é

representado de forma abreviada como TBATS(λ, φ, p, q, {m1, k1}, . . . , {mT , kT }) e é um caso especial

dos modelos de estados de espaço de inovações lineares, adaptado para incorporar a transformação

de Box-Cox. Deste modo, é possível escrever o modelo (5.2) como:

y(λ)t = wTxt−1 + εt (5.9)

xt = Fxt−1 + gεt (5.10)

onde wT é um vetor linha, g é um vetor coluna, F é uma matriz e xt é o vetor de estados não observados

36

Page 51: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

no instante t.

No caso do modelo TBATS com termo de crescimento não estacionário, tem-se que o vetor de

estados é definido por xt = (lt, bt, s(1)t , . . . , s

(T )t , dt, dt−1, . . . , dt−p+1, εt, εt−1, . . . , εt−q+1)T , onde s

(i)t é

um vetor linha dado por (s(i)1,t, s

(i)2,t, . . . , s

(i)ki,t

, s∗(i)1,t , s

∗(i)2,t , . . . , s

∗(i)ki,t

). Considerem-se 1r = (1, 1, . . . , 1) e

0r = (1, 1, . . . , 1) vetores linha de comprimento r, γ(i)1 = γ(i)1 1ki , γ

(i)2 = γ

(i)2 1ki , γ

(i) = (γ(i)1 , γ

(i)2 ),

γ = (γ(1), . . . , γ(T )), ϕ = (ϕ1, ϕ2, . . . , ϕp) e θ = (θ1, θ2, . . . , θq). Considerem-se ainda Ou,v a matriz

nula de dimensão u × v, Iu,v a matriz diagonal retangular de dimensão u × v com 1’s na diagonal,

a(i) = (1ki ,0ki) e a = (a(1), . . . ,a(T )). Definam-se agora as matrizes B = γTφ, C = γT θ,

Ai =

[C(i) S(i)

−S(i) C(i)

], (5.11)

e A =⊕T

i=1 Ai = diag(A1, . . . ,AT ), onde C(i) e S(i) são matrizes diagonais cujos elementos das

diagonais são dados por cos(λ(i)j ) e sin(λ(i)j ), para j = 1, 2, . . . , ki, respetivamente. Seja ainda τ =

2∑Ti=1 ki.

Então, w = (1, φ,a, ϕ, θ)T , g = (α, β, γ, 1,0p−1, 1,0q−1) e

F =

1 φ 0τ αϕ αθ

0 φ 0τ βϕ βθ

0Tτ 0Tτ A B C

0 0 0τ ϕ θ

0Tp−1 0Tp−1 Op−1,τ Ip−1,p Op−1,q

0 0 0τ 0p 0q

0Tq−1 0Tq−1 Oq−1,τ Oq−1,p Iq−1,q

. (5.12)

Estando as matrizes anteriores apresentadas para o caso de o modelo ter todas as componen-

tes presentes, quando alguma destas é omitida, os correspondentes termos devem ser omitidos das

matrizes.

5.1.1 Estimação dos parâmetros e seleção do modelo

No modelo TBATS, além dos parâmetros de suavização e de amortecimento, que geralmente são es-

timados utilizando a soma dos quadrados dos erros ou a função de verosimilhança normal, é ainda

necessário estimar os coeficientes ARMA e o parâmetro da transformação de Box-Cox.

Pelas fórmulas (5.9) e (5.10), é possível escrever xt = Dxt−1+gyt, onde D = F−gwT . Além disso,

εt = y(λ)t −wTxt−1

= y(λ)t −wT (Dxt−2 + gy

(λ)t−1)

= y(λ)t −wT (D2xt−3 + Dgy

(λ)t−2 + gy

(λ)t−1)

=...

= y(λ)t −wT

t−1∑j=1

Dj−1gy(λ)t−j −wTDt−1x0

= y(λ)t −wT xt−1 − wT

t−1x0

= yt − wTt−1x0 (5.13)

onde yt = y(λ)t −wT xt−1, xt = Dxt−1 + gy

(λ)t , wT

t = wTt−1D, x0 = 0 e wT

0 = wT .

37

Page 52: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Reescrevendo a equação (5.13), obtém-se yt = wTt−1x0 + εt e, portanto, o vetor de valores iniciais

x0 corresponde a um vetor de coeficientes de regressão. Deste modo, é possível estimá-lo pelo método

usual de mínimos quadrados.

Além disso, utilizando a hipótese εt ∼ N (0, σ2), tem-se que y(λ)t ∼ N (wTxt−1, σ2). Deste modo, tal

como descrito em De Livera et al. (2011), a função densidade de probabilidade da amostra aleatória

que descreve os dados transformados é dada pela expressão (5.14).

p(y(λ)|x0, ϑ, σ2) =

N∏t=1

p(y(λ)t |xt−1, ϑ, σ2) =

N∏t=1

p(εt) =1

(2πσ2)N2

exp

(− 1

2σ2

N∑t=1

ε2t

)(5.14)

Assim, utilizando o Jacobiano da transformação de Box-Cox, obtém-se a função densidade de pro-

babilidade da amostra aleatória que descreve os dados originais (5.15):

p(yt|x0, ϑ, σ2) = p(y

(λ)t |x0, ϑ, σ

2)

∣∣∣∣∣det(∂y

(λ)t

∂y

)∣∣∣∣∣ =1

(2πσ2)N2

exp

(− 1

2σ2

N∑t=1

ε2t

)N∏t=1

yλ−1t , (5.15)

onde ϑ é o vetor que contém o parâmetro da transformação de Box-Cox, os parâmetros de suavização

e os coeficientes ARMA.

Deste modo, a função log-verosimilhança é dada por:

L(x0, ϑ, σ2) = −N

2log(2πσ2)− 1

2σ2

N∑t=1

ε2t + (λ− 1)

N∑t=1

log(yt). (5.16)

Considerando o seguinte estimador de σ2,

σ2 =1

N

N∑t=1

ε2t , (5.17)

e multiplicando por −2 e omitindo termos constantes em (5.16), obtém-se

L∗(x0, ϑ) = N log

(N∑t=1

ε2t

)− 2(λ− 1)

N∑t=1

log(yt). (5.18)

Uma vez que o vetor de valores iniciais foi estimado através dos mínimos quadrados de uma regres-

são em (5.13), o objetivo passa a ser minimizar

L∗(ϑ) = N log(SSE∗)− 2(λ− 1)

N∑t=1

log(yt), (5.19)

onde SSE∗ é o valor optimizado da soma dos quadrados dos erros de predição (ou resíduos) dados os

parâmetros.

A seleção do melhor modelo, no que diz respeito ao número de harmónicas ki e das ordens p e q

do modelo ARMA, é realizada através da utilização de um critério de informação de Akaike (1998).

5.1.2 Intervalos de previsão

Seja Y (λ)n+h|n a variável aleatória associada à previsão dos dados transformados no instante futuro n+h,

dados o vetor de estados finais xn e os parâmetros ϑ e σ2. Sabe-se que esta variável segue uma

distribuição normal com valor médio e variância apresentados de seguida.

Sejam µh = E[Y(λ)n+h|xn] e vh = V ar(Y

(λ)n+h|xn). Sejam ainda mh = E[xn+h|xn] e Vh = V ar(xn+h|xn).

Note-se que m0 = xn e V0 = O. Tal como descrito em Hyndman et al. (2005) e uma vez que E[εt] = 0,

38

Page 53: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

tem-se então que:

mh = E[Fxn+h−1 + gεt|xn]

= Fmh−1

=...

= Fhm0 = Fhxn (5.20)

e, portanto,

µh = E[wTxn+h−1 + εt|xn]

= wTmh−1

= wTFh−1xn. (5.21)

Além disso,

Vh = V ar(Fxn+h−1 + gεt|xn)

= V ar(Fxn+h−1|xn) + V ar(gεt|xn)

= FVh−1FT + gσ2gT

= F2Vh−2(FT )2 + FggTFTσ2 + ggTσ2

=...

= Fh−1V1(FT )h−1 + . . .+ FggTFTσ2 + ggTσ2

= σ2h−1∑j=0

FjggT (Fj)T , (5.22)

uma vez que V1 = FV0FT + ggTσ2 = ggTσ2.

Deste modo,

vh = V ar(wTxn+h−1 + εt|xn)

= wTV ar(xn+h−1|xn)w + σ2

= wTVh−1w + σ2 (5.23)

e, portanto, se h = 1, v1 = wTV0w + σ2 = σ2 e, se h ≥ 2, utilizando (5.22),

vh = σ2

1 +

h−2∑j=0

wTFjggT (Fj)Tw

= σ2

1 +

h−1∑j=1

wTFj−1ggT (Fj−1)Tw

, (5.24)

ou seja, considerando cj = wTFj−1g,

V ar(Y(λ)n+h|n) =

σ2 se h = 1

σ2(

1 +∑h−1j=1 c

2j

)se h ≥ 2

. (5.25)

A distribuição da previsão Yn+h|n não é normal, no entanto, tanto as previsões pontuais como as

intervalares podem ser obtidas utilizando a transformação inversa de Box-Cox com os quantis da distri-

39

Page 54: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

buição de Y (λ)n+h|n apropriados, já que a transformação de Box-Cox é monótona crescente.

5.1.3 Intervalos de confiança

Na secção anterior, apresentaram-se todos os dados necessários para a construção de intervalos para

previsões futuras, dados o vetor de estados finais xn e os parâmetros ϑ e σ2. Contudo, como também se

pretende construir intervalos de confiança para os valores ajustados pelo modelo para as observações

passadas, nesta secção, apresentar-se-á um método para a construção destes mesmos intervalos

baseado em simulações.

Sejam {y1, . . . , yN} as observações para as quais se pretende construir os intervalos de confiança.

Em primeiro lugar, ajusta-se um modelo TBATS a estas observações, obtendo-se os valores dos parâ-

metros de suavização, de amortecimento e da transformação de Box-Cox, dos coeficientes do modelo

ARMA e do número de harmónicas dos modelos trigonométricos, ficando deste modo a matriz F e os

vetores w e g definidos. Além disso, também o vetor de estados iniciais x0 é estimado, utilizando a

regressão em (5.13).

Uma vez que se pretende estimar valores para a variância em cada instante de tempo t, t = 1, . . . , N ,

proceder-se-á como descrito de seguida:

• realizar N simulações para os valores εt, utilizando uma distribuição normal com valor médio nulo

e variância σ2, estimada pelo modelo;

• utilizando o modelo descrito em (5.9) e (5.10), obter uma simulação da série ajustada pelo modelo,

após a transformação de Box-Cox, {y(λ)1 , . . . , y(λ)N };

• repetindo os dois pontos anteriores M vezes, onde M é um número suficientemente grande, obter

M reproduções da série ajustada pelo modelo, {y(λ)1,i , . . . , y(λ)N,i}, i = 1, . . . ,M ;

• uma vez que a série deverá ser sempre positiva, no caso de λ 6= 0, se se verificar que, para uma

determinada simulação i, i = 1, . . . ,M , existe t, t = 1, . . . , N , tal que y(λ)t,i λ + 1 < 0, então essa

simulação deverá ser eliminada e substituída por uma nova;

• para cada instante de tempo t, t = 1, . . . , N , calcular a variância amostral de {y(λ)t,1 , y(λ)t,2 , . . . , y

(λ)t,M}.

Uma vez calculadas as estimativas para a variância de {y(λ)1 , . . . , y(λ)N } e como se tem que Y

(λ)t ∼

N (wTxt−1, σ2), está-se em condições de calcular intervalos de confiança para estas mesmas obser-

vações. Após o cálculo destes intervalos, fazendo uso da transformação inversa de Box-Cox, que é

monótona crescente, torna-se possível obter os respetivos intervalos de confiança para {y1, . . . , yN}.

Tanto os intervalos de previsão como os intervalos de confiança podem ser utilizados como méto-

dos de deteção de outliers. Para tal, depois de construídos os intervalos pretendidos, proceder-se-á

à identificação das observações originais que não se encontram dentro dos limites dos intervalos con-

siderados, sendo, por isso, consideradas como outliers, ou seja, observações atípicas em relação às

restantes.

Os métodos de deteção de outliers podem ser divididos em duas categorias: a deteção de outliers

online e a deteção de outliers offline. No primeiro caso, está-se perante a deteção de outliers em tempo

real, ou seja, estes métodos pretendem verificar se as observações que se estão a recolher no presente

são atípicas em relação às que se obtiveram no passado. No caso em estudo, a utilização dos limites

dos intervalos de previsão como modo de deteção de outliers é um exemplo de um método que se

inclui nesta categoria. Já no segundo caso, estes métodos têm como objetivo a deteção de outliers em

observações recolhidas no passado, sendo, por isso, a utilização dos limites dos intervalos de confiança

um exemplo de um método que se inclui nesta segunda categoria.

40

Page 55: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

5.1.4 Intervalos de previsão e de confiança combinados

Considere-se um conjunto de observações {y1, . . . , ym, ym+1, . . . , ym+N}, onde se pretende verificar se

existem possíveis outliers nas últimas N observações, com base nas m observações passadas, onde

N < m. Para tal, propõe-se que se ajuste um modelo TBATS às observações {y1, . . . , ym}, com base

no qual se calculam N previsões e os respetivos intervalos. De seguida, ajusta-se um modelo TBATS

às observações {yN , . . . , ym, ym+1, . . . , ym+N}, construindo-se os respetivos intervalos de confiança,

com base no descrito em 5.1.3. Deste modo, para os instantes de tempo m+ 1, . . . ,m+N , obter-se-ão

intervalos de previsão e intervalos de confiança. Utilizando os limites superiores de ambos e calculando

a média dos dois para cada instante de tempo, obtém-se um único limite superior. Procedendo-se de

forma análoga para os limites inferiores, este procedimento resulta na construção de um único novo

intervalo. Assim, as observações {ym+1, . . . , ym+N} que não se encontrem entre os limites do intervalo

construído para o respetivo instante de tempo serão consideradas potenciais outliers.

5.2 Métodos para a deteção de outliers baseados nas

características das séries temporais de caudal

Uma vez que a deteção de outliers em séries temporais depende, em geral, das características es-

pecíficas das séries, é importante adaptar o método de deteção a cada tipo de série temporal. Neste

sentido, ir-se-á fazer uma análise de clusters que permitirá identificar grupos de séries similares. De

seguida, em cada grupo, aplicar-se-ão diferentes métodos de deteção de outliers e escolher-se-á, em

cada grupo, o procedimento que tiver o melhor desempenho. Esta análise prévia facilitará a deteção de

outliers em novas séries, pois uma nova série pode ser classificada num dos grupos, permitindo, assim,

utilizar o melhor método para a deteção de observações atípicas que foi encontrado para esse grupo.

Todas as séries de caudal que serão utilizadas nesta análise correspondem a um ano de observa-

ções efetuadas a cada 15 minutos. Uma vez que estas apresentam valores omissos, foi necessário

começar por reconstruí-las. Para tal, foi utilizada uma modificação da abordagem de Quevedo et al.

(2010), apresentada em Barrela (2015) e que será designada por abordagem de JQ.

5.2.1 Agrupamento e classificação de séries temporais de consumos de água

Na análise de clusters das séries temporais de consumos de água, utilizar-se-á o método de Ward

(Ward (1963)) com a distância DTW (Dynamic Time Warping), definida em Berndt e Clifford (1994) e

Montero e Vilar (2014) como

dDTW (X,Y ) = minr∈M

(m∑i=1

|xai − ybi |

), (5.26)

onde X = {xt}Ni=1 e Y = {yt}Ni=1 são conjuntos de observações de dois processos estocásticos. Além

disso, M é o conjunto de todas as sequências de pares possíveis de tamanho m que preservam a

ordem das observações e que são da forma

r = ((xa1 , yb1), . . . , (xam , ybm)), (5.27)

onde ai, bj ∈ {1, . . . , N}, ∀i, j ∈ {1, . . . ,m}, são tais que a1 = b1 = 1, am = bm = N e ai+1 =

ai ou ai+1 = ai + 1 e bi+1 = bi ou bi+1 = bi + 1, para i = 1, . . . ,m− 1.

Deste modo, a distância DTW tem por objetivo encontrar um caminho r entre as séries de tal modo

que a distância entre os pares de observações (xai , ybi) é minimizada.

41

Page 56: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Após a aplicação do método de clustering Ward com a distância DTW, identificam-se os grupos de

séries de caudal que possuem, em cada grupo, características similares. Deste modo, poderão ser

utilizados para classificar uma nova série de caudal.

A classificação de uma nova série será efetuada com base no método kNN (k – Nearest Neighbours)

[Tan et al. (2006); Wu et al. (2008)], cuja descrição do algoritmo se encontra de seguida :

1. Considerar uma base de dados de treino D = {(xi, yi)}, onde xi ∈ Rp e yi representa a classe do

objeto i, ∀i ∈ {1, . . . , n};2. Definir a medida de dissemelhança a utilizar entre dois objetos;

3. Encontrar o valor k, sendo que, neste caso, utilizar-se-á o erro estimado de má classificação para

tal;

4. Para um novo objeto x0 ∈ Rp, calcular a distância entre o novo objeto e todos os objetos do

conjunto de treino: d(xi,x0), i ∈ {1, . . . , n};5. Ordenar as distâncias calculadas por ordem crescente e considerar os primeiros k elementos,

definindo-se Dk(x0) ⊆ D como o conjunto desses vizinhos;

6. Considerando as classificações de todos os vizinhos, atribuir ao novo objeto a classe na qual se

encontra a maioria dos seus vizinhos, i.e,

y0 = arg maxcI

∑(xi,yi)⊂Dk(x0)

I(yi = cI), (5.28)

onde cI são as classes. Em caso de empate, uma opção é atribuir aleatoriamente uma das

classes empatadas.

Já que a cada uma das séries está associada uma localização física, pretende-se verificar se os

clusters construídos revelam alguma tendência geográfica, para tal utilizar-se-á o multidimensional sca-

ling (MDS) [Cox e Cox (2000)]. Este método permite obter uma representação espacial dos objetos,

em particular em duas dimensões, de tal modo que as suas distâncias correspondem às similaridades

dos objetos. Uma vez que a dissimilaridade DTW possui propriedades métricas, aplicar-se-á o MDS

métrico.

5.2.2 Método Twitter

O teste do desvio studentizado extremo (DSE) generalizado, descrito em Rosner (1983), tem como

objetivo a deteção de outliers, sendo apenas necessário introduzir um limite superior, r, para o número

de outliers a detetar.

Seja (X1, X2, . . . , Xn) uma amostra aleatória proveniente da população FX , as hipóteses deste

teste são:

H0 : Todas as observações são provenientes de FX ,

vs.

H1 : Existem até r observações que não são provenientes de FX ,

sendo a estatística de teste dada por:

Ri =maxi|Xi −X|

S, i = 1, 2, . . . , r, (5.29)

onde X e S representam os estimadores média e desvio padrão amostrais, respetivamente.

Removendo a observação que maximiza |xi − x|, calcula-se o valor da estatística de teste com as

restantes n − 1 observações, onde n é a dimensão da amostra. Repetindo este procedimento até se

removerem r observações, obtêm-se os valores das r estatísticas de teste r1, r2, ..., rr.

42

Page 57: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

De seguida, calculam-se os r valores críticos

λi =(n− i)tp,n−i−1√

(n− i− 1 + t2p,n−i−1)(n− i+ 1), i = 1, . . . , r, (5.30)

onde tp,ν é o quantil de ordem p de uma distribuição t de Student com ν graus de liberdade e p =

1− α2(n−i+1) , onde α é o nível de significância considerado.

O número de outliers é dado pelo maior índice i tal que ri > λi.

Uma vez que se sabe que os estimadores média e desvio padrão amostrais não são robustos

na presença de outliers, optar-se-á por não se utilizar estes estimadores no procedimento anterior,

substituindo-os pela mediana e pelo MAD (ajustado pelo fator 1.4826), respetivamente, tal como em

Vallis et al. (2014).

Adicionalmente, utilizar-se-á o estimador-M de localização de Huber (Huber e Ronchetti (1981)) e

o estimador de dispersão Qn (Rousseeuw e Croux (1993)) para substituir a média e o desvio padrão

amostrais, respetivamente, uma vez que estes para além de serem robustos apresentam melhor efici-

ência que a mediana e o MAD.

Para a aplicação deste método a séries temporais com sazonalidade, tal como se observa no caso

de séries temporais provenientes de sistemas de abastecimento de água, define-se um valor r para

o número máximo de outliers a considerar e denote-se por X = {Xt}t=1,...,n o processo estocástico

associado à série temporal em estudo. De seguida, procede-se como se descreve em Vallis et al.

(2014):

1. Definir ν = {};2. Determinar a periodicidade/sazonalidade;

3. Dividir X em janelas WX(t) sem interseção e que contenham pelo menos 2 semanas;

4. Para todas as janelas WX(t):

(a) Definir nW = número de observações em WX(t);

(b) Verificar que r ≤ (nW × 0.49);

(c) Utilizando a decomposição STL [Cleveland et al. (1990)], extrair a componente sazonal SXde WX(t);

(d) Calcular um estimador de localização (mediana ou Huber) X∗;

(e) Calcular a componente residual RX = X − SX −X∗;(f) Aplicar o teste do DSE generalizado a RX , utilizando o mesmo estimador de localização que

anteriormente (no caso da mediana, utiliza-se o MAD como estimador de dispersão e, no

caso do Huber, utiliza-se o Qn). Obter o vetor de outliers XO, ou seja, XO = DSE(RX , r);

(g) ν = ν ∪XO

5. ν é o vetor com os outliers detetados.

Uma vez que, supondo que se tem sazonalidade semanal, é importante detetar efeitos semanais,

então o tamanho das janelas escolhidas deverá englobar pelo menos dois períodos, ou seja, duas

semanas de modo a que tais efeitos possam ser detetados. Na prática, optar-se-á por utilizar quatro

semanas.

Este método foi desenvolvido por uma equipa da rede social Twitter e, por esse motivo, daqui em

diante, será designado como método Twitter. Além disso, a variante que utiliza a mediana e o MAD

será designada por Twitter MM e a variante que utiliza o estimador de Huber e o Qn será designada

por Twitter HQ.

Aquando da aplicação prática deste método ao caso em estudo e devido à falta de conhecimento

relativo à estacionariedade das séries temporais, optar-se-á por aplicar este método não apenas aos

43

Page 58: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

dados originais, mas também ao logaritmo dos mesmos e à sua transformação de Box-Cox.

Uma vez que algumas séries apresentam valores nulos e, portanto, não é possível aplicar o mé-

todo com o logaritmo dos dados originais nem com a transformação de Box-Cox, estes valores serão

substituídos por um valor inferior aos mínimos não nulos das séries temporais.

5.2.3 Método de Tukey

O método tradicional de Tukey para deteção de outliers, descrito em Tukey (1977), consiste em ava-

liar quão distante uma observação se encontra em relação aos 1º e 3º quartis utilizando a amplitude

inter-quartis, ou seja, uma observação é considerada como outlier no caso de se encontrar na região

{x : Q3 + c IQR(X) < x ∨ x < Q1 − c IQR(X)}, onde Q1 e Q3 são o 1º e o 3º quartis amostrais do pro-

cesso X, respetivamente, c é uma constante e IQR(X) = Q3−Q1 representa a amplitude inter-quartis.

Em geral, c = 1.5 ou c = 3, sendo que, neste último caso, os outliers são designados como severos.

Uma vez que as séries temporais em estudo apresentam sazonalidade, para uma melhor deteção

de outliers, optar-se-á por não considerar os quartis das n observações anteriores, mas dividir a série

por meses semelhantes e por dias úteis, sábados e domingos. Deste modo, para verificar se uma

observação é um outlier são consideradas as n observações anteriores de meses semelhantes e do

mesmo tipo de dia da semana. De modo a perceber quais os meses semelhantes irá ser realizada

uma análise de clusters, considerando as séries das medianas das observações de cada mês em cada

instante de tempo.

Na análise de clusters, utilizar-se-á o método de Ward com a distância DTW, tal como no caso do

agrupamento de séries temporais.

Neste caso, optar-se-á por realizar a deteção de outliers para apenas uma semana, ao invés das

quatro semanas utilizadas no método Twitter, uma vez que este método utiliza as observações passa-

das apenas para detetar os efeitos da sazonalidade diária. Além disso, aquando da aplicação prática

deste método ao caso em estudo e tal como no método Twitter, este será aplicado aos dados originais,

mas também ao logaritmo dos mesmos e à sua transformação de Box-Cox. No caso da existência de

valores nulos, estes serão substituídos, tal como referido na secção 5.2.2.

Por questões de simplicidade de referência, este método será denominado por método de Tukey,

apesar de não corresponder ao método de Tukey original.

5.2.4 Método baseado na representação simbólica de séries temporais (SAX)

Devido ao elevado número de observações de algumas séries temporais, por vezes, torna-se ne-

cessário utilizar algoritmos que permitam diminuir as suas dimensões. Além disso, poderá também

ser útil utilizar uma representação simbólica das séries temporais em detrimento dos dados originais.

Deste modo, uma possível abordagem será a utilização do procedimento designado por SAX (Symbolic

Aggregate approXimation), apresentado em Lin et al. (2007).

Utilizando o SAX é possível reduzir uma série temporal de dimensão n a uma representação simbó-

lica de dimensão w, com w < n, sendo que, tipicamente, o que se pretende é que w � n. Para tal é

utilizado um alfabeto de tamanho af , onde af > 2 é um inteiro arbitrário. A primeira etapa aquando da

utilização do SAX baseia-se em transformar a série temporal numa aproximação agregada por partes

(PAA - Piecewise Aggregate Approximation), seguindo-se a representação simbólica da PAA. Assim, é

criada uma sequência discreta que representa a série temporal. A notação que será utilizada encontra-

se sumariada na tabela 5.1.

44

Page 59: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 5.1: Notação utilizada no SAX

Símbolo DescriçãoC Série temporal original C = c1, c2, . . . , cn.C Aproximação agregada por partes (PAA) da série temporal C = c1, c2, . . . , cw.C Representação simbólica da série temporal C = c1, c2, . . . , cw.w Número de segmentos utilizados para representar a série temporal na PAA.af Tamanho do alfabeto.

Redução da dimensão através da PAA

Uma série temporal C de tamanho n poderá ser representada num espaço de dimensão w por

C = c1, c2, . . . , cw, onde ci é dado por:

ci =w

n

nw i∑

j= nw (i−1)+1

cj , (5.31)

ou seja, a série temporal é dividida em w partes de igual tamanho, sendo que, na representação redu-

zida da série, é utilizada a média de cada uma destas frações. Por simplicidade, assume-se que w é

um divisor de n. Na figura 5.1, apresenta-se um exemplo da aplicação da PAA a uma série temporal.

0 20 40 60 80 100

2040

6080

100

120

Série temporal C

PAA da série temporal C

Figura 5.1: Exemplo da aplicação da PAA a uma série temporal.

Discretização

Para se efetuar a discretização da série, serão utilizados breakpoints, isto é, uma sequência de

pontos β1, β2, . . . , βaf−1 tal que a probabilidade empírica da própria série estar entre βi e βi+1 é igual

a 1af

e β0 e βaf são definidos como −∞ e +∞, respetivamente1.

Obtida a representação PAA da série temporal, é atribuída uma letra a cada segmento, conforme

a sua posição em relação aos breakpoints, tal como se pode visualizar na figura 5.2, onde as linhas a

tracejado representam os diferentes breakpoints.

Deste modo, uma sequência C de tamanho n pode ser representada por uma palavra de tamanho

w, C = c1, c2, . . . , cw, onde, definindo-se αj como o j-ésimo elemento do alfabeto, ou seja, α1 = a,

α2 = b, . . . , tem-se que:

ci = αj , se e só se βj−1 ≤ ci < βj . (5.32)

1Em Lin et al. (2007), os breakpoints eram definidos com base na distribuição normal, contudo, em Lin e Li (2009), é indicadaa possibilidade de estes serem obtidos com base na distribuição empírica da série temporal em estudo, sendo esta a opção quese tomou para os casos em estudo.

45

Page 60: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 20 40 60 80 100

2040

6080

100

120

ba a

b

e e ed

cc

d

b

Série temporal C

PAA da série temporal C

a

b

c

d

e

Figura 5.2: Exemplo da aplicação do SAX a uma série temporal.

Assim, o resultado final da aplicação do SAX a uma série temporal é a representação obtida pela

aplicação das fórmulas (5.31) e (5.32). A série apresentada na figura 5.2, cuja dimensão inicial é

de n = 96 observações, após aplicação do SAX, seria representada por baabeeedccdb, ou seja, teria

dimensão w = 12.

O objetivo da utilização do SAX, no caso em estudo, relaciona-se com a deteção de outliers em sé-

ries de consumos de água, onde se sabe que existe sazonalidade diária e semanal, tal como estudado

em Barrela (2015). Deste modo, pretende-se utilizar este método através da construção, com obser-

vações passadas, de um padrão com o SAX para cada dia da semana de cada mês e subsequente

comparação das novas observações com o padrão correspondente.

Assim, considerando que o padrão é representado por C = c1, c2, . . . , cw, se a nova observação,

após aplicação da PAA, no instante i, i = 1, 2, . . . , w, não se encontrar entre os breakpoints βj−1 e βj ,

ou seja, não for representada pela mesma letra, então é considerada como atípica, onde j é dado por

ci = αj , tal como definido em (5.32).

De notar que, para a deteção de outliers, β0 e βaf não são definidos como −∞ e +∞, mas como

o mínimo e o máximo da série utilizada para a construção dos quantis. Além disso, se ci = βaf , então

assume-se ci = αaf .

Para a aplicação prática deste método, é necessário definir valores para af (tamanho do alfabeto

a utilizar) e w. Uma vez que os dados de que se dispõe resultam de medições diárias que começam

às 00h00 e são efetuadas a cada 15 minutos, ou seja, 96 medições por dia, e se pretende que cada

segmento da PAA possua sentido na prática, estudar-se-á a possibilidade de se utilizar w = 24 (um

segmento para cada hora), w = 48 (um segmento para cada 30 minutos) ou, no pior dos casos, w = 96

(um segmento para cada 15 minutos, ou seja, para cada observação).

Relativamente ao valor de af , foi possível perceber através de Wei et al. (2006), Lin et al. (2007),

Lin e Li (2009) e Lin et al. (2012), que este, em geral, toma valores entre 3 e 6, sendo, no máximo, 10.

Deste modo, começar-se-á por estudar as possibilidades af = 4 e af = 5, uma vez que são as mais

frequentes.

Para a construção do padrão, utilizar-se-á os clusters dos meses referidos na secção 5.2.3 de modo

a que estes dados sejam separados por dia da semana e, consequentemente, seja construído o padrão

do dia da semana e mês que se pretende estudar. Contudo, duas hipóteses foram colocadas quanto

ao modo de definir o padrão de comportamento normal: a média ou a mediana para cada instante de

tempo. Para ser possível comparar as duas abordagens, optar-se-á por utilizar os quantis dos dados

46

Page 61: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

não agregados, já que os quantis das séries das médias e das medianas são diferentes.

Ao contrário do que anteriormente tem sido realizado, utilizar-se-á apenas um dia da semana para

analisar o desempenho deste método, ao invés de uma semana inteira, já que os padrões foram cons-

truídos para cada dia da semana.

Em geral, a aplicação deste método é efetuada às séries normalizadas ou padronizadas [Lin et al.

(2007)]. De modo a perceber se a normalização das séries tem influência na deteção de outliers tam-

bém se analisará esta possibilidade.

Existem vários procedimentos para normalizar séries temporais. Neste trabalho, começar-se-á por

utilizar a normalização min-max no intervalo [0,1], ou seja,

x′t =xt −min(x1, . . . , xN )

max(x1, . . . , xN )−min(x1, . . . , xN ), (5.33)

onde xt é a observação no instante t de um processo estocástico cujo conjunto das observações é

representado por {xt}Nt=1 e min(x1, . . . , xN ) e max(x1, . . . , xN ) representam o mínimo e máximo, res-

petivamente, dessa realização do processo.

Uma das desvantagens desta normalização é o facto de, na realidade, não se conhecer o valor

mínimo e máximo das observações de uma série futura, podendo estes ser inferiores ou superiores aos

valores mínimos e máximos, respetivamente, das séries já observadas [Ogasawara et al. (2010)]. Nesse

sentido, para a aplicação prática desta normalização, e considerando que o padrão do comportamento

normal para o dia que se pretende testar é designado por série padrão e a série do dia que se irá testar

é designada por série de teste, várias alternativas serão colocadas:

1. normalizar a série padrão e a série de teste com os mesmos mínimos e máximos, ou seja, utili-

zando o mínimo e o máximo de ambas as séries;

2. normalizar a série padrão e a série de teste separadamente, utilizando os seus respetivos mínimos

e máximos;

3. normalizar a série padrão e a série de teste com os mesmos mínimos e máximos, utilizando o

mínimo e o máximo dos dados utilizados para a construção da série padrão (ao invés do mínimo

e do máximo da série padrão) e dos dados da série de teste;

4. normalizar a série padrão e a série de teste separadamente, utilizando o respetivo mínimo e

máximo no caso da série de teste e o mínimo e o máximo dos dados utilizados para a construção

da série padrão como o mínimo e o máximo desta série.

Além da normalização min-max, considerar-se-á ainda a normalização clássica, aqui designada por

padronização, ou seja,

x′t =xt − xsX

, (5.34)

onde xt é a observação no instante t de um processo estocástico cujo conjunto de observações é

representado por {xt}Nt=1 e x e sX são a média e o desvio padrão amostrais da realização desse

processo, respetivamente. Em detrimento da média e do desvio padrão, estes serão ainda substituídos

pela mediana e pelo MAD, como uma outra alternativa.

A desvantagem desta padronização reside na questão relativa à estacionariedade da série, uma vez

que, no caso de uma série temporal não ser estacionária, a média e o desvio padrão variam ao longo

do tempo. No caso de estudo e uma vez que apenas se está a utilizar um dia, essa questão não se

colocou.

Para padronizar a série de teste serão utilizadas duas formas diferentes: em primeiro lugar, começar-

se-á por padronizar esta série com as próprias estimativas da média e do desvio padrão, sendo esta

padronização designada por padronização 1. Contudo, uma vez que a série em teste poderá possuir

47

Page 62: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

outliers que irão influenciar as estimativas da média e do desvio padrão, optar-se-á por também fa-

zer a padronização da série em teste com as estimativas da série padrão, sendo esta designada por

padronização 2.

Após a aplicação da normalização, pretende-se encontrar um valor δ, tal que, se uma observação

for considerada outlier, num determinado instante t, mas a sua distância à série padrão for inferior a

este valor δ, então esta observação não é considerada outlier. No caso da normalização min-max no

intervalo [0,1], pretende-se encontrar um valor que seja possível de aplicar a todas as séries, enquanto

que, no caso da padronização, este valor terá de depender da própria série padrão, por exemplo,

através da sua amplitude. Para a construção deste valor, dentro de cada cluster, calcular-se-á um δ

para cada uma das séries em função dos outliers introduzidos, sendo que o valor considerado será

independente da amplitude da série de modo a que se possa calcular a sua média e a sua mediana e,

consequentemente, escolher qual a melhor opção.

Considerando {t1, . . . , tv} o conjunto dos instantes de tempo onde existem outliers numa determi-

nada série, para a construção do valor δ, começar-se-á por calcular as seguintes distâncias:

d(pti , sti) = |pti − sti |, ∀i ∈ {1, . . . , v}, (5.35)

onde pti e sti representam os valores obtidos após aplicação da PAA à série padrão e à série em teste,

respetivamente, no instante de tempo ti. Assim, no caso de se optar por utilizar a padronização usual,

definir-se-á:

δ =maxi

(d(pti , sti))

max(P )−min(P ), (5.36)

onde P é a série padrão. Definindo deste modo o valor de δ, para a sua aplicação a uma nova série,

considerar-se-á que, quando a distância entre uma observação e a série padrão nesse instante de

tempo for inferior a δ× (max(Pn)−min(Pn)), onde Pn é a nova série padrão, então a observação não

é considerada outlier, independentemente de ter ou não a mesma representação simbólica que a série

padrão naquele instante de tempo. No caso de se optar pela normalização min-max, na fórmula (5.36),

não será necessário dividir pela amplitude da série padrão P , tal como não será necessário multiplicar

por max(Pn)−min(Pn) aquando da aplicação a uma nova série.

Na aplicação deste método ao caso em estudo, analisar-se-á as três situações: os dados originais,

o seu logaritmo e a transformação de Box-Cox dos mesmos.

5.3 Medidas de avaliação de desempenho entre diferentes

métodos

No sentido de se comparar os resultados obtidos com os diferentes métodos, utilizar-se-ão algumas

medidas de desempenho. Neste caso, uma vez que se está perante um problema de classificação

binária, ou seja, uma observação apenas pode ser classificada como outlier ou não outlier, constrói-se

a matriz de confusão presente na tabela 5.2.

A matriz de confusão sumaria as seguintes quantidades:

• VP - verdadeiros positivos;

• FN - falsos negativos;

• FP - falsos positivos;

• VN - verdadeiros negativos.

48

Page 63: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 5.2: Matriz de confusão associada ao problema de classificação binária.

Classificação

Outlier (c+) Não Outlier (c−)

RealOutlier (c+) VP FN N+

Não Outlier (c−) FP VN N−

Total N+ N− N

Considerando φ um determinado classificador, φ(x) o resultado da classificação atribuída a x, e C

a verdadeira classificação, podem ser definidas outras medidas de avaliação de desempenho desse

classificador, nomeadamente:

• Sensibilidade (Taxa de verdadeiros positivos):

TVP = P (φ(x) = c+|C = c+) =VP

VP+FN; (5.37)

• Precisão (Taxa de preditos positivos):

TPP = P (C = c+|φ(x) = c+) =VP

VP+FP; (5.38)

• Score F1:

F1 =2 · TVP · TPPTVP + TPP

. (5.39)

Serão estas as três medidas de desempenho utilizadas para a comparação dos diferentes métodos.

Todas elas têm uma variação entre 0 e 1, onde o valor 1 significa que todos os elementos a classificar

foram corretamente classificados.

49

Page 64: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

50

Page 65: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Capítulo 6

Resultados da deteção de outliers em

séries temporais de caudal

Neste capítulo, pretende-se aplicar todos os métodos de deteção de outliers apresentados anterior-

mente a casos práticos de séries de caudal reais. Nesse sentido, para a construção de intervalos de

previsão e de confiança e os intervalos combinados baseados no modelo TBATS, cujos resultados se-

rão apresentados nas secções 6.1.1, 6.1.2 e 6.1.3, serão utilizadas três séries temporais, provenientes

de sistemas de distribuição de água, relativas a três setores de rede diferentes, também designados

por zonas de medição controlada (ZMC), daqui em diante designadas por ZMC1, ZMC2 e ZMC3. Cada

uma destas séries tem por base medições do consumo de água num determinado setor, recolhidas ao

longo de um ano, em intervalos de tempo de 15 minutos, ou seja, 96 registos por dia. Alguns destes

valores poderão não constar da base de dados, devido à ocorrência de falhas no registo da respetiva

medição. Dada a elevada dimensão destas séries temporais e a complexidade computacional da es-

timação dos modelos e das simulações, apenas será utilizada uma fração das mesmas, entre três a

quatro semanas, em que não se verificam falhas nos valores.

Na secção 6.2, serão utilizadas 28 séries temporais de consumos de água recolhidas na primeira

edição do projeto iPerdas – Iniciativa Nacional para a Gestão Eficiente de Perdas, promovido pelo

Laboratório Nacional de Engenharia Civil (LNEC). Uma vez que estas se encontravam numeradas de

forma aleatória e anónima, optou-se por manter essas denominações, em detrimento da atribuição de

números às diferentes ZMC. Também estas séries correspondem a um ano de observações, a cada 15

minutos, iniciadas a 1 de janeiro. Optou-se pela utilização de séries temporais de um ano civil, iniciadas

a 1 de janeiro, uma vez que a deteção de outliers, ou seja, fugas e roturas nas redes, permite uma

melhor estimação das perdas reais de água no balanço hídrico anual que, em geral, corresponde a um

ano civil iniciado a 1 de janeiro. Assim, a estimativa das perdas reais através da deteção de outliers

poderá ser utilizada no preenchimento do balanço hídrico correspondente. Estas também serão as

séries que se utilizarão para testar o método Twitter (secção 6.3.1), o método de Tukey (secção 6.3.2),

o método baseado no SAX (secção 6.3.3) e todas as suas variantes.

Todas as análises foram efetuadas utilizando o software estatístico R (R Core Team (2015)).

51

Page 66: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

6.1 Deteção de outliers com base no modelo TBATS

6.1.1 Intervalos de previsão

Para a construção destes intervalos, começou-se por ajustar um modelo TBATS a cada uma das sé-

ries em estudo, utilizando frações de três semanas em todos os casos, tal como sugerido em Barrela

(2015). Após a obtenção dos modelos, fizeram-se as previsões de uma semana e construiram-se os

respetivos intervalos a 95%. As observações originais que não se encontravam dentro destes limites

foram consideradas como possíveis outliers.

Os resultados obtidos relativos às três séries temporais utilizadas neste estudo encontram-se re-

presentados nos gráficos 6.1, 6.2 e 6.3. Através da sua análise, pode-se concluir que este método

produz muitos falsos alarmes, ou seja, muitas observações são identificadas como outliers, apesar de,

na realidade, poderem não o ser.

Contudo, de modo a perceber se, no caso de existirem outliers, estes são detetados, as séries

temporais utilizadas foram alteradas, introduzindo-se outliers fictícios na semana para a qual se está a

efetuar a previsão (as figuras 6.1, 6.2 e 6.3 já incluem estas modificações). Estas observações atípicas

foram introduzidas de forma consecutiva de modo a simular uma potencial fuga de água, ou seja,

foram introduzidas 20 observações atípicas nas ZMC1 e ZMC3 e 21 na ZMC2, o que corresponde a 4

horas e 4 horas e 15 minutos, respetivamente. A opção pela utilização deste número de horas tem por

base o tempo necessário, em geral, para que as roturas sejam reparadas. Em relação à ZMC1, estas

observações foram introduzidas nos instantes de 584 a 603 (madrugada), tendo-se utilizado os valores

originais multiplicados por 1.6. No caso da ZMC2, o mesmo fator multiplicativo foi utilizado, mas, neste

caso, os instantes de tempo cujas observações foram alteradas são de 103 a 123 (madrugada). Na série

temporal ZMC3, alteraram-se as observações dos instantes de tempo de 27 a 46 (manhã), utilizando-se

um fator multiplicativo de 2. Os valores dos fatores multiplicativos foram definidos em função das séries,

de modo a que se verifica-se uma diferença de comportamento nesse período de tempo. Esta análise

permitiu concluir que, nos três casos, todos os outliers introduzidos foram detetados, tal como se pode

verificar pelos valores obtidos em termos de sensibilidade na tabela 6.1. Contudo, verifica-se que os

valores de precisão são muito baixos, o que se reflete nos scores F1 inferiores a 0.5 para as 3 ZMC.

Tabela 6.1: Medidas de desempenho nas 3 ZMC, utilizandoos intervalos de previsão como método de deteção de outliers.

Medidas de desempenho ZMC1 ZMC2 ZMC3Sensibilidade 1 1 1Precisão 0.32 0.22 0.19Score F1 0.49 0.37 0.32

6.1.2 Intervalos de confiança

Mais uma vez, começou-se por ajustar um modelo TBATS a cada uma das frações das séries temporais,

constituídas por três semanas cada. Após a obtenção dos modelos, foram realizadas simulações tal

como descrito na secção 5.1.3 e construídos intervalos de confiança para as séries temporais utilizando

um grau de confiança de 95%. De seguida, foram identificadas as observações consideradas como

outliers.

Quanto ao número de simulações a realizar de modo a obter-se uma boa estimativa para a variância

dos valores ajustados pelo modelo, analisaram-se os resultados obtidos com 500, 750 e 1000 simula-

ções para a primeira semana das três frações das séries temporais em estudo, ou seja, t = 1, . . . , 96×7.

52

Page 67: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 500 1000 1500 2000 2500

2040

6080

100

120

140

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Valores ajustados pelo modelo

Previsões do modelo

Observações originais

Intervalos de previsão

Outliers

Figura 6.1: Intervalos de previsão para uma semana da série temporal ZMC1.

0 500 1000 1500 2000 2500

510

1520

2530

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Valores ajustados pelo modelo

Previsões do modelo

Observações originais

Intervalos de previsão

Outliers

Figura 6.2: Intervalos de previsão para uma semana da série temporal ZMC2.

0 500 1000 1500 2000 2500

020

4060

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Valores ajustados pelo modelo

Previsões do modelo

Observações originais

Intervalos de previsão

Outliers

Figura 6.3: Intervalos de previsão para uma semana da série temporal ZMC3.

53

Page 68: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 100 200 300 400 500 600

0.5

0.6

0.7

0.8

0.9

1.0

Tempo (em intervalos de 15−min)

Des

vio

padr

ão d

as s

imul

açõe

s Y

500 simulações

750 simulações

1000 simulações

Figura 6.4: Desvio padrão simulado para uma semana da série temporal ZMC1.

0 100 200 300 400 500 600

0.07

0.08

0.09

0.10

0.11

0.12

0.13

Tempo (em intervalos de 15−min)

Des

vio

padr

ão d

as s

imul

açõe

s Y

500 simulações

750 simulações

1000 simulações

Figura 6.5: Desvio padrão simulado para uma semana da série temporal ZMC2.

0 100 200 300 400 500 600

23

45

67

8

Tempo (em intervalos de 15−min)

Des

vio

padr

ão d

as s

imul

açõe

s Y

500 simulações

750 simulações

1000 simulações

Figura 6.6: Desvio padrão simulado para uma semana da série temporal ZMC3.

54

Page 69: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Em cada um dos gráficos 6.4, 6.5 e 6.61, relativos a cada uma das ZMC, encontram-se os resultados

obtidos para os valores do desvio padrão em cada instante de tempo t, t = 1, . . . , 96× 7, utilizando 500,

750 e 1000 simulações. Analisando estes gráficos, pode verificar-se que as linhas a preto, correspon-

dentes aos resultados com 500 simulações, apresentam alguns picos em sentido oposto aos resultados

com 750 e 1000 simulações, sendo estes um pouco mais evidentes nos gráficos relativos à ZMC1 e à

ZMC3. Apesar da existência de algumas diferenças entre os resultados com 750 e 1000 simulações,

por questões computacionais, e, dada a relativa semelhança, optou-se por utilizar os resultados obtidos

com 750 simulações.

Nos gráficos 6.7, 6.8 e 6.9, apresentam-se os resultados obtidos para as ZMC1, ZMC2 e ZMC3,

respetivamente, sendo que ainda se encontram representadas as observações consideradas outliers.

Analisando estes gráficos, pode-se concluir que não parecem existir falsos alarmes, em oposição

ao que ocorria ao utilizar-se intervalos de previsão. Contudo, o número de outliers detetados revela-se

muito baixo, tal como se pode observar pelos valores de sensibilidade, presentes na tabela 6.2. No

caso da ZMC3, não foi possível calcular o score F1, uma vez que a sensibilidade e a precisão são

nulas2. Contudo, mesmo nas ZMC 1 e 2, verificam-se valores desta medida de desempenho muito

baixos, sendo, inclusive, mais baixos dos que os resultantes da aplicação dos intervalos de previsão.

Tabela 6.2: Medidas de desempenho nas 3 ZMC, utilizandoos intervalos de confiança como método de deteção de outliers.

Medidas de desempenho ZMC1 ZMC2 ZMC3Sensibilidade 0.15 0.05 0.00Precisão 0.50 0.14 0.00Score F1 0.23 0.07 NA

6.1.3 Intervalos de previsão e de confiança combinados

Uma vez que os intervalos de confiança não estão a detetar os outliers ao contrário dos intervalos de

previsão e estes últimos detetam muitos falsos alarmes, construiu-se um novo método que engloba os

dois intervalos e que permite fazer deteção de outliers em tempo real.

Os intervalos de confiança e de previsão para as séries temporais ZMC1, ZMC2 e ZMC3 foram

construídos utilizando m = 96 × 7 × 3 e N = 96 × 7 e seguindo o descrito na secção 5.1.4, ou seja,

os intervalos de previsão para uma semana foram construídos com base num modelo ajustado para

as observações das três semanas anteriores e os intervalos de confiança foram construídos com base

num modelo ajustado para as últimas três semanas (incluindo a semana utilizada para testar o método).

Nos gráficos 6.10, 6.11 e 6.12, encontram-se representados os intervalos combinados obtidos atra-

vés dos intervalos de previsão e de confiança e as observações consideradas outliers com base nos

mesmos. Neste caso, tal como nos intervalos de previsão e nos intervalos de confiança, foram também

considerados os outliers fictícios introduzidos na semana para a qual se está a efetuar a previsão, ou

seja, na semana representada nos gráficos 6.10, 6.11 e 6.12.

Pela análise do gráfico 6.10, pode-se observar que, pelo menos, alguns dos outliers introduzidos

foram detetados, tal como acontece nos gráficos 6.11 e 6.12. Contudo, comparando os valores de

sensibilidade e de precisão, o que poderá ser analisado utilizando o score F1 (tabela 6.3), verifica-

se que este, embora apresente valores mais elevados nas ZMC 1 e 3 do que nos casos em que os

intervalos são aplicados separadamente, não toma valores superiores a 0.8, o que indica que este

também não será ainda um bom método de deteção de outliers.1O gráfico dos valores simulados para o desvio padrão da ZMC3 apresenta um comportamento diferente relativamente aos

das ZMC1 e ZMC2, decorrente das diferenças verificadas na amplitude do eixo vertical.2Apesar de existir um falso alarme na série temporal relativa à ZMC3, dado o elevado número de observações desta série

(3× 7× 96 = 2016 observações), a precisão é considerada nula com o arredondamento a duas casas decimais.

55

Page 70: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 500 1000 1500 2000

2040

6080

100

120

140

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Observações originais

Valores ajustados pelo modelo

Intervalos de confiança

Outliers

Figura 6.7: Intervalos de confiança na série temporal ZMC1.

0 500 1000 1500 2000

510

1520

2530

35

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Observações originais

Valores ajustados pelo modelo

Intervalos de confiança

Outliers

Figura 6.8: Intervalos de confiança na série temporal ZMC2.

0 500 1000 1500 2000

−20

020

4060

80

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Observações originais

Valores ajustados pelo modelo

Intervalos de confiança

Outliers

Figura 6.9: Intervalos de confiança na série temporal ZMC3.

56

Page 71: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 100 200 300 400 500 600

2040

6080

100

120

140

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Observações originais

Intervalos Combinados

Outliers

Figura 6.10: Intervalos de previsão e de confiança combinados na série temporal ZMC1.

0 100 200 300 400 500 600

510

1520

2530

35

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Observações originais

Intervalos Combinados

Outliers

Figura 6.11: Intervalos de previsão e de confiança combinados na série temporal ZMC2.

0 100 200 300 400 500 600

020

4060

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Observações originais

Intervalos Combinados

Outliers

Figura 6.12: Intervalos de previsão e de confiança combinados na série temporal ZMC3.

57

Page 72: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 6.3: Medidas de desempenho nas 3 ZMC, utilizando osintervalos de previsão e de confiança combinados como método de deteção de outliers.

Medidas de desempenho ZMC 1 ZMC 2 ZMC 3Sensibilidade 0.80 0.29 0.40Precisão 0.64 0.32 0.80Score F1 0.71 0.30 0.53

6.2 Agrupamento e classificação de séries temporais de

consumos de água

Como referido no capítulo anterior, uma vez que as séries temporais de caudal apresentam compor-

tamentos e tendências diferentes entre si, considerou-se que se deveria fazer uma análise de clusters

para as mesmas de modo a estudar-se o melhor método de deteção de outliers para cada tipo de série.

Para a realização desta análise, foram utilizadas 28 séries, numeradas aleatoriamente desde série 1759

a série 6278. Estas bases de dados correspondem a medições iniciadas a 1 de janeiro e realizadas a

cada 15 minutos, ao longo de um ano civil. Uma vez que, na maioria das séries temporais utilizadas,

existiam valores omissos em alguns instantes de tempo e a aplicação da distância DTW não é possível

nestas circunstâncias, foi necessário reconstruí-las. Para tal, recorreu-se à modificação da abordagem

de Quevedo et al. (2010), tal como apresentada em Barrela (2015).

Dadas as diferentes magnitudes de valores das séries temporais em estudo, para a análise de

clusters, procedeu-se à sua padronização utilizando a média e o desvio padrão. Contudo, pela análise

detalhada das séries, concluiu-se que os possíveis padrões das mesmas, tais como sazonalidades

anuais, poderiam estar a ser dissimulados pela quantidade de valores existentes (35 040 instantes de

tempo). Deste modo, optou-se por realizar a análise de clusters com as séries resultantes das medianas

diárias dos consumos após padronização com a média e o desvio padrão.

Na figura 6.13, encontra-se representado o dendrograma obtido pela aplicação do método Ward à

matriz de dissemelhanças DTW das séries temporais das medianas diárias padronizadas. Pela análise

detalhada dos gráficos das séries em estudo, concluiu-se que a partição em 3 clusters é a mais ade-

quada. Além disso, com esta partição é possível ter-se uma série temporal da qual se conhecem os

outliers em cada um dos clusters considerados, isto porque os outliers das séries 6023, 6150 e 6278

são conhecidos. Deste modo, a partição em 3 clusters será a considerada para as análises subsequen-

tes, sendo que se considera que o cluster do lado esquerdo do dendrograma representa o cluster 3,

enquanto do lado direito se tem o cluster 2.

Observando os gráficos presentes nas figuras 6.14, 6.15 e 6.16, que representam a mediana diária

de algumas das séries padronizadas de cada um dos clusters, verifica-se que estas apresentam com-

portamentos e sazonalidades diferentes. No caso do cluster 1 (figura 6.14), verifica-se que as séries

nele incluídas apresentam, além da sazonalidade diária e semanal, uma sazonalidade relativa às es-

tações do ano, enquanto que, nas séries do cluster 2 (figura 6.15), tal já não se verifica. No cluster 3

(figura 6.16), estão incluídas séries que, aparentemente, não apresentam um padrão definido, podendo

resultar de ruídos nas leituras, ou seja, poderão ser outliers relativamente às restantes séries temporais

de caudal. Apesar disso, serão também analisadas no que diz respeito à deteção de outliers.

Tal como descrito na secção 5.2.1, após a realização da partição em clusters, procedeu-se à repre-

sentação das séries temporais em duas dimensões, o que foi possível recorrendo ao MDS métrico e

utilizando as dissemelhanças DTW já calculadas. A representação obtida encontra-se na figura 6.17,

onde se pode verificar que existe uma separação espacial entre os três clusters considerados. No

caso do cluster 1, verifica-se que este está associado a séries com ambas as coordenadas negati-

vas, enquanto que as séries do cluster 2, apresentam, em geral, valores na coordenada 2 positivos.

58

Page 73: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

série

510

9

série

486

7

série

615

0

série

176

5

série

215

0

série

282

3

série

388

2

série

276

4

série

175

9

série

209

1

série

388

1

série

627

8

série

216

6

série

456

2

série

386

3

série

274

3

série

280

2

série

228

9

série

272

2

série

274

1 série

272

5

série

201

4

série

280

4

série

512

4

série

602

3

série

208

2

série

176

6

série

216

3

05

1015

20

DT

W

Figura 6.13: Dendrograma das séries temporais padronizadas das medianas diárias dos consumos de águaobtido pelo método Ward com a dissemelhança DTW.

Tempo (em dias)

série

175

9

0 100 200 300

−0.

50.

00.

51.

0

Tempo (em dias)

série

627

8

0 100 200 300

−0.

50.

51.

0

Figura 6.14: Medianas diárias de duas das séries temporais de consumos de água padronizados do cluster 1.

Relativamente ao cluster 3, pode-se verificar que estas três séries se encontram relativamente afasta-

das, o que é explicado pelo facto de estas não possuírem um padrão definido e, portanto, não serem

muito semelhantes. Contudo, estas conclusões são bastante coincidentes com o dendrograma obtido.

Quanto à classificação de uma nova série, tal como descrito na secção 5.2.1, procedeu-se à apli-

cação do classificador kNN, utilizando a matriz de dissemelhanças DTW das séries temporais das

medianas diárias dos consumos padronizados. Para a completa aplicação deste método, é necessário

definir o valor de k, ou seja, do número de vizinhos mais próximos a considerar. Para tal, começou-

se por dividir o conjunto das séries temporais em dois conjuntos: de treino (75%) e de teste (25%).

59

Page 74: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tempo (em dias)

série

216

3

0 100 200 300−

0.5

0.0

0.5

1.0

Tempo (em dias)

série

228

9

0 100 200 300

01

23

Figura 6.15: Medianas diárias de duas das séries temporais de consumos de água padronizados do cluster 2.

Tempo (em dias)

série

510

9

0 100 200 300

−0.

50.

51.

5

Tempo (em dias)

série

615

0

0 100 200 300

−1.

00.

01.

0

Figura 6.16: Medianas diárias de duas das séries temporais de consumos de água padronizados do cluster 3.

Deste modo, utilizando o conjunto de treino procedeu-se à classificação do conjunto de teste, de modo

a escolher para k o valor cujo erro de má classificação (estimado) associado fosse o mais baixo. A

representação gráfica do erro de má classificação estimado em função do número de vizinhos mais

próximos, k, encontra-se na figura 6.18. Tal como se pode verificar, para k = 1, obtém-se o menor erro

de má classificação estimado possível, 0.14, o que significa que 14% das séries foram mal classifica-

das. De modo a confirmar estes valores, procedeu-se à realização da validação por leave-one-out. Esta

validação consiste na retirada de uma série do conjunto total de séries em estudo e a realização da sua

classificação com base nas restantes séries temporais, repetindo-se este procedimento para todas as

séries temporais. Esta validação permitiu obter um valor de accuracy de 0.75, ou seja, 75% das séries

foram bem classificadas. De realçar que, dadas as diferenças entre as séries do cluster 3 e a inexistên-

cia de um padrão nas mesmas, não foi possível classificar corretamente nenhuma destas séries tendo

60

Page 75: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

por base as restantes. Deste modo, como se considera que estas séries poderão ser outliers entre as

séries temporais de caudal, procedeu-se à aplicação do kNN sem estas séries. Neste caso, obteve-se

igualmente k = 1, tendo sido nulo o erro de má classificação (estimado) associado a este valor de k,

por validação cruzada. No caso da validação por leave-one-out, obteve-se um valor de accuracy de

0.84.

−10 −5 0 5 10

−6

−4

−2

02

46

Coordenada 1

Coo

rden

ada

2

série 1759

série 1765

série 1766

série 2014

série 2091série 2166

série 2289

série 2764

série 3863

série 3881

série 3882

série 4562

série 4867

série 2082

série 2163

série 2150

série 2722

série 2725

série 2741série 2743

série 2802

série 2804

série 2823

série 5109

série 5124 série 6150série 6023

série 6278

Cluster 1

Cluster 2

Cluster 3

Figura 6.17: Representação das séries temporais em duas dimensões com base no MDS métrico.

2 4 6 8 10

0.2

0.3

0.4

0.5

k

Err

o de

clas

sific

ação

est

imad

o

Figura 6.18: Gráfico do erro de má classificação estimado do kNN em função de k,utilizando a validação cruzada.

61

Page 76: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Para a aplicação dos métodos que se irão testar de seguida, começou-se por selecionar quatro

semanas de cada uma das séries e, naquelas que não são conhecidos a priori os outliers, foram

introduzidos alguns fictícios num dos dias da última semana. A opção pela introdução de 20 outliers em

cada uma das séries, o que corresponde a 4 horas, tem por base o tempo necessário, em geral, para

se proceder à respetiva reparação, como se tinha já referido. Nas tabelas B.1, B.2 e B.3 da secção B

dos Anexos, encontram-se indicadas as semanas que foram consideradas para a análise, tal como os

instantes de tempo da última semana em que se introduziram os outliers. Além disso, é ainda indicada

a forma como estes foram criados, ou seja, se se utilizou a multiplicação por um fator ou a soma de

uma constante às medições registadas nesses instantes de tempo. Tanto o fator como a constante são

dependentes das séries, sendo que foram definidos de modo a que se verificasse uma alteração no

comportamento da série naquele período de tempo. Recordar que as séries para as quais se conhece

as observações atípicas são as séries 6023, 6150 e 6278.

6.3 Métodos para a deteção de outliers baseados nas

características das séries temporais de caudal

6.3.1 Método Twitter

Considerando os três clusters que se obtiveram na secção 6.2, pretende-se aplicar as variantes do

método Twitter apresentadas na secção 5.2.2 às séries de cada um dos grupos. Para tal, começou

por se definir o valor de r como o mais elevado possível, ou seja, 49% das observações da série, uma

vez que se supõe não existir nenhum conhecimento quanto ao número de outliers existentes. Como

nos clusters 1 e 2 existem séries temporais com valores nulos e, portanto, não seria possível aplicar

o logaritmo e a transformação de Box-Cox nestes casos, optou-se por atribuir a estes instantes um

valor de consumo mínimo não nulo, inferior ao mínimo não nulo das próprias séries3. Na prática, esta

transformação das séries traduziu-se na substituição dos valores nulos por 0.01, uma vez que o mínimo

não nulo de todas as séries em que se verificou a ocorrência de zeros era de 0.57, no cluster 1, e de

0.042, no cluster 2.

Os resultados em termos de sensibilidade, precisão e score F14, encontram-se nas tabelas 6.7, 6.8

e 6.9, respetivamente, para o grupo 1, e nas tabelas 6.10, 6.11 e 6.12, respetivamente, para o grupo

3, nas colunas “Twitter MM”, “Twitter HQ”, “Twitter MM Logaritmo”, “Twitter HQ Logaritmo”, “Twitter MM

Box-Cox” e “Twitter HQ Box-Cox”, onde “logaritmo” e “box-cox” indicam qual a transformação aplicada

aos dados, sendo que a ausência de indicação indica que nenhuma transformação foi aplicada, e “MM”

e “HQ” indicam qual a variante do método Twitter utilizada. De referir que o método MM diz respeito à

utilização da mediana e do MAD como estimadores de localização e de dispersão, respetivamente, e o

método HQ utiliza o estimador de localização de Huber e o estimador de dispersão Qn, em detrimento

da média e do desvio padrão. Nas últimas linhas indicam-se os valores das medianas e médias globais

e os números de séries cujo valor na respetiva medida de desempenho foi superior ou igual a 0.85 e

inferior a 0.6. As tabelas com os resultados para o grupo 2 (B.4, B.5 e B.6) encontram-se nos Anexos,

uma vez que estes foram relativamente semelhantes aos do cluster 1, sendo que as tabelas relativas

aos resultados do cluster 3 são apresentadas devido às diferenças já mencionadas entre as séries

deste cluster.

Analisando os resultados obtidos, verificou-se que, em geral, a precisão aumentou ou manteve-se

3A substituição dos valores nulos por valores mínimos não é irreal, uma vez que, em geral, estes estão associados a problemasnas medições e, portanto, não correspondem efetivamente à inexistência de consumo.

4Para alguns métodos, não foi possível calcular os valores do score F1, uma vez que a sensibilidade e a precisão eramsimultaneamente nulas. Deste modo, estas séries não foram consideradas aquando da comparação desses métodos.

62

Page 77: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

quando se utilizou o método HQ, em comparação com o MM, o que indica que o primeiro, em geral,

deteta menos falsos alarmes. Contudo, no caso da sensibilidade, verificou-se a tendência contrária,

ou seja, o método MM apresentou, em geral, valores iguais ou mais elevados nesta medida de de-

sempenho do que o método HQ. Balanceando estas duas medidas de desempenho através do score

F1, concluiu-se que, em geral, este melhora com a utilização do método HQ. Estas conclusões foram

transversais aos três clusters.

No caso do método MM, verificou-se que, no cluster 1, em termos de sensibilidade, os melhores

resultados foram obtidos quando se utilizou os dados originais. Contudo, em termos de precisão, não

foi possível retirar conclusões muito claras, tal como no caso do score F1. Apesar de as conclusões

serem idênticas em termos de sensibilidade, no caso do cluster 2, verificou-se que, em termos de

precisão e do score F1, a transformação do logaritmo deu origem a melhores resultados.

No caso do cluster 3, com a análise das tabelas 6.10, 6.11 e 6.12, não foi possível retirar conclusões

claras relativamente às transformações, dado o baixo número de séries.

No caso do método HQ, no cluster 1, verificou-se que, em termos de sensibilidade, os melhores

resultados foram obtidos quando se utilizou os dados originais, tal como acontecia com o método MM.

Além disso, também neste caso, não existiu uma distinção entre o logaritmo e a transformação de Box-

Cox. Contudo, foi com esta última transformação que se obteve os melhores resultados em termos de

precisão. Na figura 6.19, é possível observar um exemplo de uma série do cluster 1, com a identificação

dos outliers introduzidos e detetados com o método Twitter HQ, sem transformações nos dados. Tal

como se pode observar, apesar de os outliers introduzidos serem detetados, também se verifica que

existe um elevado número de falsos alarmes.

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

0 500 1000 1500 2000 2500

1020

3040

5060

Outliers introduzidos

Outliers detetados

Figura 6.19: Deteção de outliers na série 1759, do cluster 1,com recurso ao método Twitter HQ sem transformações.

No cluster 2, a comparação do método HQ com os dados introduzidos em diferentes formatos,

permitiu retirar as mesmas conclusões, em termos de precisão e do score F1, que com o método MM,

apesar de, em termos de sensibilidade, se concluir que os dados originais, em geral, deram origem a

melhores resultados.

Quanto ao cluster 3, tal como no caso do método MM, também com o método HQ não foi possível

retirar conclusões claras sobre qual a melhor transformação.

Deste modo, concluiu-se que, em geral, tanto no método MM como no HQ, os melhores resultados

de sensibilidade e precisão não são coincidentes no que diz respeito à transformação dos dados. Este

facto refletiu-se nos baixos valores obtidos nos scores F1, o que levou a que se concluísse que este

não é um bom método de deteção de outliers nas séries em estudo.

63

Page 78: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

6.3.2 Método de Tukey

De modo a aplicar-se o método de Tukey, tal como descrito na secção 5.2.3, é necessário começar

por estudar quais os meses do ano que são semelhantes. Uma vez que existem 3 clusters de séries

temporais de caudal, será necessário realizar uma análise para cada um dos clusters.

Para a realização destas análises, é essencial definir quais as séries temporais que se irão utilizar

para a construção da matriz de dissemelhanças, ou seja, é necessário que cada série temporal de

consumos anuais dê origem a 12 séries, cada uma relativa a um mês do ano. Para tal, optou-se

por dividir a série temporal anual por meses e, para cada mês, calcular a mediana das observações

em cada instante de tempo, obtendo-se uma série de comprimento 96 para cada mês do ano. Por

exemplo, no caso da série do mês de janeiro, a primeira observação corresponde à mediana de todas

as medições efetuadas às 00h00 dos 31 dias de janeiro daquele ano.

Após a construção das séries necessárias para a análise, procedeu-se ao cálculo da matriz de

dissemelhanças, utilizando a distância DTW. Para a análise de clusters, optou-se, mais uma vez, por

utilizar o método de Ward5.

Uma vez que estas análises são realizadas para cada série temporal de forma individual, após a

sua realização, comparou-se os resultados obtidos com todas as séries temporais de cada cluster, de

modo a estudar a possível existência de padrões comuns entre as séries de cada um destes grupos.

Uma vez que nem sempre todas as séries apresentaram exatamente o mesmo padrão, a escolha dos

clusters teve por base os padrões existentes na maioria das séries. No caso da existência de meses em

que as diferenças entre séries eram relativamente elevadas, separou-se esses objetos e verificou-se,

para cada série, em que variáveis eram coincidentes, construindo deste modo novos clusters.

Nas figuras 6.20, 6.21 e 6.22, encontram-se os dendrogramas obtidos na análise dos meses para

uma série de cada um dos clusters. Tal como se pode observar, em todos os casos, a partição em

dois clusters parece ser a indicada. No caso do cluster 1, esta partição era coincidente para a maioria

das séries e, portanto, foi considerada como a partição final (tabela 6.4). Nos casos dos clusters 2 e

3, tal não se verificou e, portanto, foi necessário proceder a algumas divisões, obtendo-se os clusters

presentes nas tabelas 6.5 e 6.6.

Tabela 6.4: Clusters relativos aos meses, no cluster 1.

Cluster Meses do anoCluster 1 Janeiro; Fevereiro; Março; Abril; Outubro; Novembro; DezembroCluster 2 Maio; Junho; Julho, Agosto; Setembro

Tabela 6.5: Clusters relativos aos meses,no cluster 2.

Cluster Meses do anoCluster 1 Janeiro; AbrilCluster 2 Fevereiro; MarçoCluster 3 Maio; JunhoCluster 4 Julho; Agosto; SetembroCluster 5 OutubroCluster 6 Novembro; Dezembro

Tabela 6.6: Clusters relativos aos meses,no cluster 3.

Cluster Meses do anoCluster 1 Janeiro; Fevereiro; Março; AbrilCluster 2 Maio; NovembroCluster 3 Junho; Julho; AgostoCluster 4 Setembro; OutubroCluster 5 Dezembro

De modo a verificar a necessidade de dividir os dias da semana em dias úteis, sábados e domin-

gos, nas figuras B.1, B.2, B.3 e B.4 dos Anexos, encontram-se representados os boxplots relativos às

medianas dos consumos diários por dia da semana, nos três clusters. Tal como se pode observar,

nos clusters 1 e 2, as medianas de consumos diários são semelhantes para todos os dias úteis, ao

5Além do método Ward, foi ainda utilizado o método complete, com o qual se obtiveram os mesmos resultados.

64

Page 79: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Mar

ço

Abr

il

Jane

iro

Fev

erei

ro

Out

ubro

Nov

embr

o

Dez

embr

o Mai

o

Junh

o

Julh

o

Ago

sto

Set

embr

o020

040

060

080

012

00

DT

W

Figura 6.20: Dendrograma relativo à análise de clusters dos meses do ano da série 1759, do cluster 1.

Set

embr

o

Julh

o

Ago

sto

Fev

erei

ro

Mar

ço

Jane

iro

Abr

il

Out

ubro

Nov

embr

o

Dez

embr

o

Mai

o

Junh

o

050

100

150

200

250

300

DT

W

Figura 6.21: Dendrograma relativo à análise de clusters dos meses do ano da série 2289, do cluster 2.

Jane

iro

Fev

erei

ro Abr

il

Mar

ço Julh

o

Ago

sto

Nov

embr

o

Dez

embr

o

Set

embr

o

Out

ubro

Mai

o

Junh

o

010

020

030

0

DT

W

Figura 6.22: Dendrograma relativo à análise de clusters dos meses do ano da série 4867, do cluster 3.

65

Page 80: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

contrário do que acontece em relação ao sábado e ao domingo, em que os padrões de consumo se

diferenciam. Contudo, no caso do cluster 3, não se verifica uma semelhança tão elevada entre os dias

úteis e, portanto, neste caso, não será feito qualquer agrupamento. Além disso, verificou-se que os

feriados nacionais apresentavam um comportamento semelhante ao de domingo, tendo, por isso, estes

dias sido considerados como domingo.

Assim, após a definição dos meses semelhantes e a divisão dos dias da semana, aplicou-se o

método de Tukey com c = 3 à última semana das porções das séries escolhidas, considerando como

dados de referência algumas das semanas anteriores.

Os resultados obtidos, em termos de sensibilidade, precisão e score F1, encontram-se nas tabelas

6.7, 6.8 e 6.9, respetivamente, para o grupo 1, e nas tabelas 6.10, 6.11 e 6.12, respetivamente, para o

grupo 3, nas colunas denotadas por “Tukey”, “Tukey Logaritmo” e “Tukey Box-Cox”, onde “logaritmo” e

“box-cox” indicam as transformações efetuadas aos dados. Os resultados para o grupo 2 encontram-se

nas tabelas B.4, B.5 e B.6 dos Anexos, uma vez que, mais uma vez, os resultados obtidos para este

grupo e para o grupo 1 foram semelhantes.

Em termos de sensibilidade, verificou-se que a utilização do logaritmo levou aos piores resultados,

em qualquer um dos clusters, tendo sido os melhores resultados obtidos quando nenhuma transfor-

mação foi utilizada. Em termos de precisão, no cluster 1, os resultados permitiram retirar as mesmas

conclusões que no caso da sensibilidade, enquanto que, no cluster 2, não foi possível obter conclu-

sões tão claras, apesar de se verificar que a transformação de Box-Cox foi a que levou aos melhores

resultados gerais. Também no caso do cluster 3, os resultados obtidos e o baixo número de séries

não permitiram retirar conclusões quanto às transformações utilizadas. Contudo, balanceando os re-

sultados de sensibilidade e de precisão através do score F1, concluiu-se que, apesar de os resultados

de algumas transformações serem melhores, não se obtiveram resultados satisfatórios com nenhuma

delas, em qualquer um dos clusters6. Na figura 6.23, encontra-se representada uma semana de um

exemplo de uma série do cluster 1, à qual se aplicou o método de Tukey sem transformações nos da-

dos. Neste caso, pode-se verificar que apenas alguns dos outliers introduzidos foram detetados, além

de se verificar a existência de muitos falsos alarmes.

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

0 100 200 300 400 500 600

020

4060

8010

012

0

Outliers introduzidos

Outliers detetados

Figura 6.23: Deteção de outliers na série 2166, do cluster 1,com recurso ao método de Tukey sem transformações.

6Em algumas séries, não foi possível calcular o score F1, uma vez que a sensibilidade e a precisão se revelaram simultanea-mente nulas.

66

Page 81: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 6.7: Sensibilidade do método Twitter e do método de Tukey no grupo 1.

Twitt

erM

M

Twitt

erH

Q

Twitt

erM

MLo

garit

mo

Twitt

erH

QLo

garit

mo

Twitt

erM

MB

ox-C

ox

Twitt

erH

QB

ox-C

ox

Tuke

y

Tuke

yLo

garit

mo

Tuke

yB

ox-C

ox

série 1759 1 1 0.85 0.7 0.85 0.8 0.95 0.8 0.8série 1765 1 0.7 1 0.95 1 1 0.7 0.15 0.35série 2091 1 1 1 1 1 1 0.95 0.85 0.95série 2150 0.05 0.05 0 0 0 0 0.4 0.25 0.4série 2166 0.95 0.95 0.6 0.6 0.65 0.5 0.75 0.75 0.75série 2764 0.4 0.25 0 0 0 0 0.15 0 0.05série 2823 0.2 0.2 0.2 0.2 0.2 0.2 0.65 0.25 0.45série 3881 0 0 0.2 0.1 0.1 0.05 0 0.05 0.05série 3882 0 0 0 0 0 0 0 0 0série 4562 1 1 0.95 0.85 0.95 0.85 0.95 0.9 0.9série 6278 0.38 0.38 0.52 0.42 0.52 0.48 0.53 0.33 0.5

Mediana 0.40 0.38 0.52 0.42 0.52 0.48 0.65 0.25 0.45Média 0.54 0.50 0.48 0.44 0.48 0.44 0.55 0.39 0.47≥0.85 5 4 4 3 4 3 3 2 2<0.6 6 6 6 6 6 7 5 7 7

Tabela 6.8: Precisão do método Twitter e do método de Tukey no grupo 1.

Twitt

erM

M

Twitt

erH

Q

Twitt

erM

MLo

garit

mo

Twitt

erH

QLo

garit

mo

Twitt

erM

MB

ox-C

ox

Twitt

erH

QB

ox-C

ox

Tuke

y

Tuke

yLo

garit

mo

Tuke

yB

ox-C

ox

série 1759 0.16 0.2 0.25 0.26 0.29 0.31 0.76 0.73 0.73série 1765 0.14 0.12 0.16 0.17 0.18 0.19 0.7 0.38 0.58série 2091 0.12 0.18 0.27 0.29 0.27 0.29 0.9 0.89 0.9série 2150 0 0 0 0 0 0 0.19 0.31 0.27série 2166 0.13 0.13 0.04 0.04 0.1 0.11 0.13 0.13 0.13série 2764 0.05 0.05 0 0 0 0 0.17 0 0.17série 2823 0.01 0.01 0.01 0.02 0.01 0.01 0.19 0.1 0.16série 3881 0 0 0.1 0.08 0.05 0.05 0 0.14 0.11série 3882 0 0 0 0 0 0 0 0 0série 4562 0.16 0.2 0.13 0.17 0.08 0.15 0.18 0.15 0.15série 6278 0.2 0.24 0.31 0.29 0.41 0.41 0.84 0.76 0.81

Mediana 0.12 0.12 0.10 0.08 0.08 0.11 0.19 0.15 0.17Média 0.09 0.10 0.12 0.12 0.13 0.14 0.37 0.33 0.36≥0.85 0 0 0 0 0 0 1 1 1<0.6 11 11 11 11 11 11 7 8 8

67

Page 82: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 6.9: Score F1 do método Twitter e do método de Tukey no grupo 1.

Twitt

erM

M

Twitt

erH

Q

Twitt

erM

MLo

garit

mo

Twitt

erH

QLo

garit

mo

Twitt

erM

MB

ox-C

ox

Twitt

erH

QB

ox-C

ox

Tuke

y

Tuke

yLo

garit

mo

Tuke

yB

ox-C

ox

série 1759 0.27 0.34 0.39 0.38 0.43 0.45 0.84 0.76 0.76série 1765 0.25 0.2 0.28 0.29 0.31 0.31 0.7 0.21 0.44série 2091 0.22 0.3 0.42 0.45 0.42 0.45 0.93 0.87 0.93série 2150 0.01 0.01 NA NA NA NA 0.26 0.28 0.32série 2166 0.23 0.23 0.08 0.08 0.17 0.19 0.23 0.23 0.22série 2764 0.09 0.08 NA NA NA NA 0.16 NA 0.08série 2823 0.03 0.03 0.03 0.04 0.03 0.03 0.3 0.15 0.23série 3881 NA NA 0.14 0.09 0.07 0.05 NA 0.07 0.07série 3882 NA NA NA NA NA NA NA NA NAsérie 4562 0.28 0.33 0.22 0.28 0.15 0.25 0.3 0.26 0.26série 6278 0.26 0.3 0.39 0.35 0.46 0.44 0.65 0.46 0.62

Mediana 0.23 0.23 0.25 0.29 0.24 0.28 0.30 0.26 0.29Média 0.18 0.20 0.24 0.25 0.26 0.27 0.49 0.37 0.39≥0.85 0 0 0 0 0 0 1 1 1<0.6 9 9 8 8 8 8 5 7 7

Tabela 6.10: Sensibilidade do método Twitter e do método de Tukey no grupo 3.

Twitt

erM

M

Twitt

erH

Q

Twitt

erM

MLo

garit

mo

Twitt

erH

QLo

garit

mo

Twitt

erM

MB

ox-C

ox

Twitt

erH

QB

ox-C

ox

Tuke

y

Tuke

yLo

garit

mo

Tuke

yB

ox-C

ox

série 4867 1 1 0.9 0.8 0 0 0.55 0.55 0.55série 5109 0 0 0 0 0 0 0 0 0série 6150 0.13 0.13 0.08 0.08 0.14 0.13 0.24 0.17 0.23

Mediana 0.13 0.13 0.08 0.08 0.00 0.00 0.24 0.17 0.23Média 0.38 0.38 0.33 0.29 0.05 0.04 0.26 0.24 0.26≥0.85 1 1 1 0 0 0 0 0 0<0.6 2 2 2 2 3 3 3 3 3

Tabela 6.11: Precisão do método Twitter e do método de Tukey no grupo 3.

Twitt

erM

M

Twitt

erH

Q

Twitt

erM

MLo

garit

mo

Twitt

erH

QLo

garit

mo

Twitt

erM

MB

ox-C

ox

Twitt

erH

QB

ox-C

ox

Tuke

y

Tuke

yLo

garit

mo

Tuke

yB

ox-C

ox

série 4867 0.07 0.08 0.2 0.21 0 0 0.11 0.12 0.12série 5109 0 0 0 0 0 0 0 0 0série 6150 0.05 0.06 0.03 0.03 0.06 0.05 0.27 0.22 0.26

Mediana 0.05 0.06 0.03 0.03 0 0 0.11 0.12 0.12Média 0.04 0.05 0.08 0.08 0.02 0.02 0.13 0.11 0.13≥0.85 0 0 0 0 0 0 0 0 0<0.6 3 3 3 3 3 3 3 3 3

68

Page 83: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 6.12: Score F1 do método Twitter e do método de Tukey no grupo 3.

Twitt

erM

M

Twitt

erH

Q

Twitt

erM

MLo

garit

mo

Twitt

erH

QLo

garit

mo

Twitt

erM

MB

ox-C

ox

Twitt

erH

QB

ox-C

ox

Tuke

y

Tuke

yLo

garit

mo

Tuke

yB

ox-C

ox

série 4867 0.14 0.16 0.33 0.34 NA NA 0.18 0.2 0.19série 5109 NA NA NA NA NA NA NA NA NAsérie 6150 0.08 0.08 0.04 0.04 0.08 0.08 0.26 0.19 0.24

Mediana 0.11 0.12 0.19 0.19 0.08 0.08 0.22 0.20 0.22Média 0.11 0.12 0.19 0.19 0.08 0.08 0.22 0.20 0.22≥0.85 0 0 0 0 0 0 0 0 0<0.6 2 2 2 2 1 1 2 2 2

6.3.3 Método baseado na representação simbólica de séries temporais (SAX)

Nos gráficos apresentados de seguida, relativos à aplicação do SAX a séries temporais de caudal,

as linhas tracejadas horizontais representam os quantis utilizados para a análise, sendo que a linha

tracejada inferior e a superior representam o mínimo e o máximo dos dados utilizados para a definição

dos quantis. Além disso, daqui em diante, o padrão traduzirá o comportamento diário típico dos dados

históricos com comportamento semelhante ao do dia em teste e a série em teste denota a série que se

está a utilizar para testar o método e, portanto, na qual se pretende detetar outliers.

Tal como descrito na secção 5.2.4, para a aplicação deste método, é necessário definir os parâme-

tros af e w, ou seja, o tamanho do alfabeto e o número de segmentos a utilizar para representar a série

temporal na PAA, respetivamente, e ainda qual o estimador a utilizar para a construção da série padrão,

a média ou a mediana. De referir que, após a definição do dia da semana e do mês das observações

da série em teste, para a construção da série padrão, são considerados os dados do mesmo dia da

semana dos meses semelhantes, conforme a análise de clusters realizada na secção 6.3.2. De modo

a definir todos estes parâmetros, foram realizados os vários testes/comparações descritos de seguida.

Escolha do valor de w

Os gráficos 6.24 e 6.25 ilustram um exemplo de um dia de uma série, ao qual se aplicou o SAX com

w = 24, w = 48 e w = 96, considerando duas possibilidades para af (af = 4 e af = 5). Em ambos os

casos, é possível observar que, no período de tempo entre 80 e 96, tal como em outros momentos, se

observam algumas diferenças entre os valores atribuídos com w = 24 e w = 48, o que já não acontece

entre w = 48 e w = 96. Deste modo, a escolha de w recaiu sobre 48 segmentos, ou seja, na prática,

cada segmento representa 30 minutos do consumo diário de água.

Construção da série padrão

Nas figuras 6.26 e 6.27, apresentam-se os gráficos com a representação de padrões de uma série

temporal de consumos construídos utilizando a média e a mediana dos dados em cada instante e

considerando, mais uma vez, as duas opções para o tamanho do alfabeto (af = 4 e af = 5). Uma vez

que as diferenças verificadas entre os dois padrões se devem às próprias diferenças entre a média e a

mediana das séries, optou-se por utilizar a última, dada a sua maior robustez.

Depois de escolhidos o valor de w e o modo de construção do padrão do comportamento normal, é

agora necessário verificar qual o valor de af que melhor se adequa aos casos em estudo.

69

Page 84: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 20 40 60 80 100

510

1520

b

aa a a a

a

c

dd

c

d c c c

b bb

b c

dd

c

bb

a

aa a a a a a a a a

a a

b

dd

dd

dc c

d dc c c c c c

c

bc

b b bb b b

cc

d d dc

b b

b

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Série

PAA w=24

PAA w=48

Figura 6.24: Comparação do SAX com w = 24, w = 48 e w = 96 considerando af = 4.

0 20 40 60 80 100

510

1520

b

aa a a a

a

c

ee

d

dd d d

c cb

c c

de

c

bb

b

aa a a a a a a a a

a a

b

ee

ee

d

d dd e

d d d d d dc

cc

c b cc c c

cd

e e e

d

c c

b

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Série

PAA w=24

PAA w=48

Figura 6.25: Comparação do SAX com w = 24, w = 48 e w = 96 considerando af = 5.

0 20 40 60 80 100

510

1520

2530

ba

a a a a a a a a a aa a

b

d d d dd

c cc

dd d c c c c

cb

b b b b b c cc

c

d dd

c

b b

bba

a a a a a a a a a a a a

b

d dd d

dc c

d d c c c c c cc

bc

b b b b b bc

cd d d

c

b bb

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Média

Mediana

PAA w=48 Média

PAA w=48 Mediana

Figura 6.26: Comparação do SAX com o padrão construído com a média e a mediana, considerando w = 48 eaf = 4.

70

Page 85: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 20 40 60 80 100

510

1520

2530

bb

a a a a a a a a a aa a

b

e e e ed

d dd

ed d d d d d

cb

c c c c c c cd

d

e ee

d

c c

bbb

a a a a a a a a a a a a

b

e ee e

dd d

d ed d d d d d

cc

c c b c c c cc

d

e e ed

c c

b

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Média

Mediana

PAA w=48 Média

PAA w=48 Mediana

Figura 6.27: Comparação do SAX com o padrão construído com a média e a mediana, considerando w = 48 eaf = 5.

Escolha do valor de af

Nas figuras 6.28 e 6.29, encontram-se ilustrados padrões construídos para um exemplo de uma

série temporal de consumos, considerando a mediana como modo de construção e w = 48. Em

relação ao primeiro gráfico, este representa o resultado obtido com af = 4, enquanto que o segundo

ilustra o caso af = 5. Uma vez que, deste modo, não foi possível concluir qual a melhor opção,

nos gráficos 6.30 e 6.31, apresenta-se uma aplicação prática de deteção de outliers. Neste caso, foi

utilizado um exemplo de outra série temporal de caudal, sendo que as linhas pretas representam os

padrões construídos para o dia da semana dos meses semelhantes da série em teste, representada a

vermelho. As linhas vermelhas carregadas representam os segmentos que são considerados outliers,

ou seja, que não se encontram entre os breakpoints correspondentes ao padrão. Analisando os dois

gráficos, pode-se observar que aumenta o número de observações atípicas quando se considera af =

5. Além disso, analisando mais detalhadamente, observa-se que muitas das observações consideradas

outliers aquando da utilização de af = 5 são falsos alarmes, uma vez que a distância ao padrão não

é elevada. Algumas destas observações também já eram consideradas outliers com a utilização de

af = 4, contudo apareciam em menor número. Assim, uma vez que se pretende detetar o maior

número possível de outliers e o menor de falsos alarmes, concluiu-se que a escolha de af = 4 seria a

mais adequada nos casos em estudo, sendo, por isso, a opção que será utilizada.

Uma vez que foi possível retirar as mesmas conclusões em vários exemplos de diferentes séries

temporais de caudal, tomou-se estas escolhas como as finais, a utilizar nos casos em estudo.

Normalização min-max

Quanto à normalização min-max enunciada na secção 5.2.4, onde se apresentaram quatro alter-

nativas para esta aplicação, começou-se por analisar dois exemplos. Nos casos das normalizações

descritas nas alternativas 1 e 3 dessa mesma secção, foi utilizada uma série à qual foram introduzidos

outliers fictícios no período entre 25 e 40. Já no caso das normalizações das alternativas 2 e 4, foi

utilizada uma outra série, sendo que, na primeira alternativa, foram introduzidos outliers no período

de tempo entre 61 e 74 e, na segunda, utilizou-se a série original. A opção por diferentes séries e a

introdução de outliers em apenas algumas delas, deveu-se ao facto de, na prática, existirem séries com

comportamentos diferentes e nem sempre ocorrerem outliers. Nas figuras de 6.32 a 6.35, encontram-se

representados os resultados obtidos para estes exemplos.

71

Page 86: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 20 40 60 80 100

510

1520

b

a

aa a a a a a a a a

a a

b

dd

dd

dc c

d dc c c c c c

c

bc

b b bb b b

cc

d d dc

b b

b

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Série

SAX

Figura 6.28: Aplicação do SAX com af = 4, considerando o padrão construído com a mediana e w = 48.

0 20 40 60 80 100

510

1520

b

b

aa a a a a a a a a

a a

b

ee

ee

d

d dd e

d d d d d dc

cc

c b cc c c

cd

e e e

d

c c

b

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Série

SAX

Figura 6.29: Aplicação do SAX com af = 5, considerando o padrão construído com a mediana e w = 48.

0 20 40 60 80 100

05

1015

2025

ba b

a

a

aa

aa

aa a

a

b

b b b

c

d d dc

d

cd

dd

d d d

c

c

bb

c cc

cd

c d c

c

b bb

bb

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Série em teste

Padrão

Outliers

Figura 6.30: Identificação dos outliers obtidos aquando da aplicação do SAX com af = 4 a um exemplo,considerando o padrão construído com a mediana e w = 48.

72

Page 87: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 20 40 60 80 100

05

1015

2025

bb b

a

a

aa

aa

aa a

b

b

c c c

c

e e ed

e

dd

ee

e e e

c

c

bc

c dc

de

d d dc

c cb

bb

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

Série em teste

Padrão

Outliers

Figura 6.31: Identificação dos outliers obtidos aquando da aplicação do SAX com af = 5 a um exemplo,considerando o padrão construído com a mediana e w = 48.

Tal como se pode verificar, esta normalização, independentemente da alternativa utilizada, altera o

formato das séries temporais de forma bastante significativa, o que levou a que não fosse considerada

para a deteção de outliers.

Padronização: média e desvio padrão vs. mediana e MAD

Em relação à padronização usual, encontram-se nas figuras 6.36 e 6.37 os gráficos relativos à

aplicação do SAX a uma série padronizada com a média e o desvio padrão e com a mediana e o MAD,

respetivamente. A série utilizada nos dois casos é a mesma, sendo que não lhe foram introduzidos

outliers. Tal como se pode observar, a utilização da mediana e do MAD levou à ocorrência de um maior

número de falsos alarmes, em especial, nos instantes de tempo com um menor consumo. Este mesmo

facto foi verificado aquando da realização desta mesma comparação com outros exemplos de séries

temporais de caudal, tendo-se, por isso, optado por utilizar a média e o desvio padrão.

Através da análise de alguns dos gráficos mencionados anteriormente, relativos à aplicação do

SAX para deteção de outliers, nomeadamente o gráfico presente na figura 6.36, pode-se verificar que

existem observações que, apesar de se encontrarem muito próximas dos valores padrão e, portanto,

não serem observações atípicas, como não se encontram entre os mesmos quantis eram consideradas

como outliers. Este facto justifica a necessidade de cálculo de um valor δ, tal como descrito na secção

5.2.4.

73

Page 88: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 20 40 60 80 100

−0.

20.

00.

20.

40.

60.

81.

0

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a no

rmal

izad

o

ba a

aa

a a a a a a a a

b

b

c

d d d dc c

d dd d d c c

c cc c

bb

b bc c

cc

dc

c

b b

b b

Padrão

Série em teste

Figura 6.32: Representação de uma série após a normalização min-max segundo a alternativa 1.

0 20 40 60 80 100

−0.

20.

00.

20.

40.

60.

81.

0

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a no

rmal

izad

o

b

ba

aa a a a a a a

a aa

b

dd

cc

bb

c c cc

dd d d d

c

b bc b b c b

c

dd

dd

d d

c

b

b

Padrão

Série em teste

Figura 6.33: Representação de uma série após a normalização min-max segundo a alternativa 2.

0 20 40 60 80 100

−0.

20.

00.

20.

40.

60.

81.

0

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a no

rmal

izad

o

ba a

aa

a a a a a a a a

b

b

c

d d d dc c

d dd d d c c

c cc c

bb b b

c cc

cd

c

c

b b

b b

Padrão

Série em teste

Figura 6.34: Representação de uma série após a normalização min-max segundo a alternativa 3.

74

Page 89: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

0 20 40 60 80 100

−0.

20.

00.

20.

40.

60.

81.

0

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a no

rmal

izad

o

b

ba

a a a a a a a a a aa

b

d dc

cb b

c c c cd d d d d

c

b b c b b c bc

d dd

d d d

c

b

b

Padrão

Série em teste

Figura 6.35: Representação de uma série após a normalização min-max segundo a alternativa 4.

0 20 40 60 80 100

−2

−1

01

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a pa

dron

izad

o

b

ba

aa a a a a a a

a aa

b

dd

cc

bb

c c cc

dd d d d

c

b bc b b c b

c

dd

dd

d d

c

b

b

Série em teste

Padrão

Outliers

Figura 6.36: Representação de uma série após a padronização com a média e o desvio padrão.

0 20 40 60 80 100

−3

−2

−1

01

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a pa

dron

izad

o

b

ba

aa a a a a a a

a aa

b

dd

cc

b b

c c cc

dd d d d

c

b bc b b c b

c

d dd

dd d

c

b

b

Série em teste

Padrão

Outliers

Figura 6.37: Representação de uma série após a padronização com a mediana e o MAD.

75

Page 90: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Aplicação do método baseado no SAX às séries dos clusters

De seguida, apresentam-se os resultados obtidos na aplicação do método baseado no SAX às sé-

ries dos três clusters, sendo este método denominado, por simplicidade, de SAX. Em primeiro lugar,

começou-se por aplicar o SAX sem qualquer padronização a todas as séries de cada cluster, sendo,

posteriormente, utilizada a padronização com a média e o desvio padrão. Neste caso, para a série

padrão e para a série em teste, utilizou-se a média e o desvio padrão amostrais, sendo esta padroni-

zação designada, daqui em diante, por padronização 1. Na prática, como as séries de teste poderão

possuir outliers, as suas estimativas da média e do desvio padrão poderão ser enviesadas, pelo que

se considerou a possibilidade de utilizar as estimativas da média e do desvio padrão da série padrão

para padronizar as séries em teste, ao invés das suas próprias estimativas. Esta padronização será

designada, daqui em diante, por padronização 2.

Os resultados obtidos, em termos de medidas de desempenho (sensibilidade, precisão e score F17),

na aplicação destes três métodos na deteção de outliers, encontram-se nas tabelas 6.13, 6.14 e 6.15,

respetivamente, para o grupo 1, e nas tabelas 6.16, 6.17 e 6.18, respetivamente, para o grupo 3. Cada

um destes métodos foi avaliado utilizando os dados originais, o seu logaritmo e a transformação de

Box-Cox dos mesmos, sendo essa referência feita através da indicação de “logaritmo” e “box-cox” nas

várias colunas destas tabelas. Os resultados para o cluster 2 encontram-se nas tabelas B.7, B.8 e B.9

dos Anexos.

Em relação ao cluster 1, pela análise da sensibilidade, concluiu-se que esta é igual com o SAX e

com o SAX com a padronização 2, enquanto que, quando se comparou com a padronização 1, verificou-

se que esta última apresentou, em geral, valores inferiores nesta medida de desempenho. Inclusive,

analisando os valores gerais, verificou-se que, com a padronização 1, nenhuma ou apenas uma série,

conforme o formato dos dados utilizado, apresentou sensibilidade igual ou superior a 0.85, enquanto

que, nos outros casos, foi possível obter 7 ou 8 séries com estes valores nesta medida de desempenho.

Em termos de precisão, verificou-se que os valores obtidos aquando da aplicação do método com o SAX

e com o SAX com a padronização 2 foram muito semelhantes, tal como aconteceu com a sensibilidade.

Além disso, mais uma vez, a padronização 1 teve tendência a dar resultados mais baixos. Contudo,

apenas com os dados sem qualquer transformação foi possível obter uma série com valor de precisão

acima de 0.85. Também os valores dos scores F1 foram, em geral, inferiores a 0.85, sendo que, com

a padronização 1, não se obteve nenhum valor igual ou acima de 0.85. Para a construção do valor δ,

torna-se necessário definir qual a melhor padronização e formato dos dados. Pela análise apresentada,

concluiu-se que a padronização 2 permite a obtenção de melhores resultados do que a padronização 1,

sendo, por isso, essa que será tida em consideração para o cálculo do valor δ. Quanto à transformação

dos dados a utilizar, avaliando as medidas gerais presentes nas tabelas 6.13, 6.14 e 6.15, concluiu-se

que, em termos de sensibilidade, os resultados foram muito semelhantes, apesar de a transformação

de Box-Cox se revelar ligeiramente superior. Quanto à precisão e ao score F1 verificou-se que foram os

dados sem qualquer transformação que deram origem aos melhores resultados, apesar de, mais uma

vez, estes não se terem revelado muito diferentes. Deste modo, a avaliação do SAX com a padronização

2 e com o δ será realizada com os dados sem transformações e com a transformação de Box-Cox. De

notar que os outliers da série 6278 são conhecidos e, portanto, foi dada especial atenção aos resultados

desta série.

Na figura 6.38, encontra-se representado um dia de uma série do cluster 1, com os outliers detetados

identificados. Uma vez que, neste caso, foi utilizado o método baseado no SAX com a transformação

de Box-Cox, são apresentados os dados após a aplicação desta transformação. Os outliers introduzi-

dos encontram-se no período de tempo entre 38 e 57 e pode verificar-se que estes são corretamente

7Em algumas séries, os valores do score F1 são indicados como NA, uma vez que estes não foram possíveis de calculardados os valores nulos de sensibilidade e precisão obtidos nestes métodos.

76

Page 91: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

detetados, apesar de também ser detetado um elevado número de falsos alarmes.

0 20 40 60 80 100

12

34

5

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

bb

b

a aa a a a a a

a

a

aa

b

b

b

cd

dd d d d d d d d d

d cc

c c b c c c c c c c c

bb b

b

Série em teste

Padrão

Outliers

Figura 6.38: Deteção de outliers na série 1759, do cluster 1, com recurso aométodo baseado no SAX e a transformação de Box-Cox.

No caso do cluster 2, retiraram-se conclusões análogas às do cluster 1. Em termos de transforma-

ção dos dados, verificou-se que os resultados são semelhantes entre as três hipóteses e, por isso, para

a construção do valor δ e a sua consequente aplicação, utilizar-se-á os dados nos três formatos: sem

transformação, com o logaritmo e com a transformação de Box-Cox.

Quanto ao cluster 3, em termos de sensibilidade, retiraram-se as mesmas conclusões que no caso

dos clusters anteriores. No que diz respeito à precisão, verificou-se que os valores resultantes da padro-

nização 1 têm tendência a ser ligeiramente superiores aos restantes, contudo, continuam a ser valores

muito baixos, não existindo nenhum caso com valores iguais ou superiores a 0.85. Estas mesmas

conclusões podem ser retiradas analisando os scores F1. Uma vez que a sensibilidade obtida com o

método baseado no SAX com um valor δ mantém-se ou diminui, então, para a aplicação deste método,

optar-se-á pela utilização da padronização 2, dados os seus valores superiores nesta medida de de-

sempenho. Quanto à melhor transformação, pela análise geral dos dados, concluiu-se que o logaritmo

dá origem a melhores resultados. Deste modo, no cluster 3, para a aplicação do método baseado no

SAX com a padronização 2 e com o δ, será utilizado o logaritmo dos dados.

Assim, conclui-se que, em qualquer um dos clusters, este método deteta relativamente bem os

outliers. Contudo, também se verificou que o número de falsos alarmes em todos os casos é bastante

elevado, tal como indicado pelos baixos valores de precisão. Justifica-se então que se invista numa

proposta de construção de um valor δ, que permita classificar uma observação como outlier sem ser

baseado apenas na sua posição relativamente ao intervalo de breakpoints da série padrão.

Aplicação do método baseado no SAX com o valor δ às séries dos clusters

Uma vez que se optou pela padronização usual, com a média e o desvio padrão, para a construção

do valor δ em qualquer um dos clusters, então δ não poderá ser independente da própria série e, por

isso, será utilizada a fórmula (5.36). Deste modo, os valores δ construídos irão depender da amplitude

da série padrão e dos outliers introduzidos ou conhecidos de cada uma das séries em teste. Deste

modo, utilizando os resultados da aplicação com o SAX e a padronização 2, que se revelaram bastante

semelhantes aos obtidos com os dados não padronizados e que permitem que todas as séries estejam

numa escala mais próxima, foram construídos valores δ para cada uma das séries de cada cluster. Os

valores δ obtidos encontram-se presentes nas tabelas B.10, B.11 e B.12 dos Anexos, sendo que, nas

77

Page 92: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

últimas duas linhas, são ainda indicadas a média e a mediana de todos os valores obtidos. Analisando

estes valores globais, verifica-se que estes são semelhantes no caso dos clusters 1 e 2. Já no cluster 3,

verifica-se que existe uma diferença um pouco mais elevada resultante da existência de poucas séries.

Deste modo, para definir o δ para cada um dos clusters, procedeu-se à avaliação dos métodos com as

duas possibilidades (média e mediana) nos casos em que a diferença era mais significativa. Uma vez

que os resultados se revelaram melhores com a utilização da média, será este o valor que será utilizado

para a avaliação deste método de deteção de outliers.

Os resultados obtidos com este método em termos de medidas de desempenho (sensibilidade, pre-

cisão e score F18) encontram-se nas tabelas 6.13, 6.14 e 6.15, respetivamente, para o grupo 1, e

nas tabelas 6.16, 6.17 e 6.18, respetivamente, para o grupo 3. Conforme o grupo, estes resultados

encontram-se nas colunas designadas por “SAX Padronização 2 com δ”, “SAX Padronização 2 Loga-

ritmo com δ” e “SAX Padronização 2 Box-Cox com δ”. No caso do cluster 2, os resultados encontram-se

nas tabelas B.7, B.8 e B.9 dos Anexos.

Pela análise das tabelas relativas à sensibilidade, verificou-se que existem diminuições nesta medida

de desempenho, ou seja, o número de outliers detetados diminui, tal como serie expectável dado o

modo de construção deste método. Contudo, em termos de precisão, verificou-se que, nos clusters 1

e 2, este foi o método com o qual se obtiveram mais séries com valores superiores a 0.85, ou seja, o

número de falsos alarmes detetados por este método foi muito inferior a todos os restantes métodos

estudados. Também no caso dos scores F1, que traduzem uma média harmónica entre a precisão e

a sensibilidade, se concluiu que este foi o único método com o qual se obtiveram valores superiores a

0.85, nos clusters 1 e 2. Relativamente ao melhor formato para os dados, verificou-se que, no cluster

1, os resultados são ligeiramente superiores com a utilização da transformação de Box-Cox. A figura

6.39 representa o mesmo dia da mesma série da figura 6.38, contudo, neste caso, procedeu-se à

padronização da série, após a aplicação da transformação de Box-Cox. Pela sua análise, verifica-se

que os falsos alarmes que existiam antes da utilização do valor δ não são identificados, continuando a

maioria dos outliers introduzidos a ser detetados.

0 20 40 60 80 100

−2

−1

01

Tempo (em intervalos de 15−min)

Con

sum

o de

águ

a (e

m m

3 /15m

in)

bb

b

a aa a a a a a

a

a

aa

b

b

b

cd

dd d d d d d d d d

d cc

c c b c c c c c c c c

bb b

b

Série em teste

Padrão

Outliers

Figura 6.39: Deteção de outliers na série 1759, do cluster 1, com recurso ao método baseado no SAX, com atransformação de Box-Cox e com a utilização do valor δ.

No cluster 2, em termos de sensibilidade e de precisão, as conclusões foram contraditórias. En-

quanto que os dados sem transformações foram os que resultaram em melhores valores de sensibili-

dade, no caso da precisão, o logaritmo levou a melhores resultados. Deste modo, analisando os scores

8Mais uma vez, não foi possível calcular alguns dos valores desta medida de desempenho, dados os valores nulos de sensi-bilidade e precisão.

78

Page 93: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

F1, que representam uma média harmónica entre a sensibilidade e a precisão, percebeu-se que não

existe uma evidência clara sobre qual a melhor transformação, podendo, deste modo, optar-se pela não

utilização de transformações para a aplicação deste método a séries deste cluster.

Quanto ao cluster 3, verificou-se que os resultados não foram satisfatórios, uma vez que não existiu

nenhuma série que admita valores de precisão ou de scores F1 superiores ou iguais a 0.85. Contudo,

o mesmo tinha acontecido com todos os métodos testados anteriormente neste cluster, o que levou a

concluir que, para séries que não apresentem um padrão relativamente definido, estes métodos não

são os mais adequados. Apesar disso, é de realçar que os métodos baseados no SAX permitiram

resultados melhores no caso da série 5109, uma vez que, tanto no método Twitter como no método de

Tukey, os valores de sensibilidade e precisão foram sempre nulos.

6.4 Conclusões

Relativamente à deteção de eventos anómalos em séries temporais de caudal, começou-se por con-

siderar o modelo TBATS e tentar detetar estes outliers recorrendo aos intervalos de previsão e de

confiança. Contudo, além dos resultados não terem sido satisfatórios, concluiu-se ainda que este mo-

delo é muito dispendioso computacionalmente, o que dificulta a sua utilização em séries temporais de

caudal, com observações a cada 15 minutos.

Deste modo, dadas as diferenças que se verificaram entre as séries temporais utilizadas no que diz

respeito a tendências e sazonalidades anuais, considerou-se que era necessário agrupá-las conforme

as suas características. Esta análise resultou na criação de três grupos de séries: o primeiro grupo

caracteriza-se pela sazonalidade anual das séries, onde os consumos relativos aos meses mais quen-

tes são mais elevados, enquanto que, no segundo, foram agrupadas as séries que não apresentam

nenhuma tendência ao longo do ano, ou seja, as medianas diárias dos consumos são relativamente

constantes ao longo do ano. Contudo, houve 3 séries de entre as 28 utilizadas que não foram agrupa-

das em nenhum destes grupos, pertencendo a um terceiro cluster. Estas séries caracterizam-se pela

inexistência de um padrão definido para as medianas diárias do consumo.

Relativamente ao primeiro grupo, onde foram classificadas as séries de caudal em que se verifica um

aumento do consumo nos meses quentes, concluiu-se que o melhor método para deteção de outliers

tem por base o SAX. Contudo, neste caso, em primeiro lugar é aplicada a transformação de Box-Cox

às séries padrão e em teste e, de seguida, são ambas padronizadas com a média e o desvio padrão

amostrais da série padrão, ou seja, da série que é construída com base nas observações passadas e

que serve de referência.

Já no caso do segundo grupo, verificou-se que também o método baseado no SAX era o melhor,

contudo não há necessidade de se aplicar a transformação de Box-Cox nem nenhuma outra transfor-

mação às séries, pelo que, neste caso, procede-se de igual forma como no caso do primeiro cluster,

excluindo a aplicação da transformação.

No caso do cluster 3, onde se encontram as séries temporais de caudal que não apresentam um

padrão definido, nenhum dos métodos testados permitiu detetar corretamente os outliers. Devido aos

resultados obtidos e à inexistência de um padrão definido nestas séries, as características das zonas

a que estão associadas foram verificadas. No caso da série 4867, relativa a uma rede muito pequena,

com um comprimento de 5.6km, presume-se que possam existir problemas operacionais, tais como,

por exemplo, manobras de válvulas ou problemas nas leituras e aquisição dos dados, o que poderá ter

influenciado o comportamento da série. Já nos casos das séries 5109 e 6150, verificou-se que estas

estão associadas a redes cujo consumo é condicionado sobretudo pelo enchimento de um reservatório,

o que dissimula todos os restantes padrões que possam existir.

79

Page 94: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 6.13: Sensibilidade do método baseado no SAX no grupo 1.

SA

X

SA

XLo

garit

mo

SA

XB

ox-C

ox

SA

XP

adro

niza

ção

1 SA

XP

adro

niza

ção

1Lo

garit

mo

SA

XP

adro

niza

ção

1B

ox-C

ox

SA

XP

adro

niza

ção

2 SA

XP

adro

niza

ção

2Lo

garit

mo

SA

XP

adro

niza

ção

2B

ox-C

ox

SA

XP

adro

niza

ção

2co

SA

XP

adro

niza

ção

2B

ox-C

oxco

série 1759 1 1 1 0.82 0.82 0.82 1 1 1 0.82 0.82série 1765 1 1 1 0.7 0.5 0.7 1 1 1 0.7 1série 2091 1 1 1 0.55 0.73 0.73 1 1 1 0.82 0.82série 2150 1 1 1 0.45 0.45 0.45 1 1 1 1 1série 2166 1 1 1 0.27 0.18 0.27 1 1 1 0.91 0.73série 2764 1 0.91 0.91 0.45 0.55 0.45 1 0.91 0.91 0.64 0.55série 2823 0.82 0.82 0.82 0.55 0.45 0.45 0.82 0.82 0.82 0.64 0.82série 3881 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.3 0.3série 3882 0.18 0.18 0.18 0.36 0.18 0.18 0.18 0.18 0.18 0.09 0.18série 4562 1 1 1 0.36 0.55 0.55 1 1 1 1 0.91série 6278 0.82 0.82 0.91 0.73 0.82 0.91 0.82 0.82 0.91 0.82 0.91

Mediana 1.00 1.00 1.00 0.45 0.50 0.45 1.00 1.00 1.00 0.82 0.82Média 0.84 0.83 0.84 0.51 0.51 0.54 0.84 0.83 0.84 0.70 0.73≥0.85 7 7 8 0 0 1 7 7 8 3 4<0.6 2 2 2 8 8 7 2 2 2 2 3

Tabela 6.14: Precisão do método baseado no SAX no grupo 1.

SA

X

SA

XLo

garit

mo

SA

XB

ox-C

ox

SA

XP

adro

niza

ção

1 SA

XP

adro

niza

ção

1Lo

garit

mo

SA

XP

adro

niza

ção

1B

ox-C

ox

SA

XP

adro

niza

ção

2 SA

XP

adro

niza

ção

2Lo

garit

mo

SA

XP

adro

niza

ção

2B

ox-C

ox

SA

XP

adro

niza

ção

2co

SA

XP

adro

niza

ção

2B

ox-C

oxco

série 1759 0.52 0.52 0.52 0.33 0.43 0.43 0.52 0.52 0.52 1 1série 1765 0.56 0.59 0.59 0.29 0.19 0.28 0.56 0.59 0.59 0.88 0.91série 2091 0.58 0.58 0.58 0.32 0.42 0.4 0.58 0.58 0.58 1 1série 2150 0.31 0.31 0.31 0.19 0.21 0.2 0.31 0.31 0.31 0.38 0.37série 2166 0.44 0.44 0.44 0.38 0.25 0.33 0.44 0.44 0.44 0.53 0.53série 2764 0.39 0.36 0.36 0.26 0.3 0.26 0.39 0.36 0.36 0.54 0.46série 2823 0.27 0.27 0.27 0.18 0.15 0.15 0.27 0.27 0.27 0.33 0.35série 3881 0.16 0.16 0.15 0.22 0.24 0.24 0.16 0.16 0.15 0.33 0.3série 3882 0.13 0.13 0.13 0.27 0.18 0.17 0.13 0.13 0.13 1 1série 4562 0.85 0.69 0.69 0.2 0.3 0.3 0.85 0.69 0.69 1 0.91série 6278 0.53 0.53 0.53 0.3 0.32 0.34 0.53 0.53 0.53 1 1

Mediana 0.44 0.44 0.44 0.27 0.25 0.28 0.44 0.44 0.44 0.88 0.91Média 0.43 0.42 0.42 0.27 0.27 0.28 0.43 0.42 0.42 0.73 0.71≥0.85 1 0 0 0 0 0 1 0 0 6 6<0.6 10 10 10 11 11 11 10 10 10 5 5

80

Page 95: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 6.15: Score F1 do método baseado no SAX no grupo 1.

SA

X

SA

XLo

garit

mo

SA

XB

ox-C

ox

SA

XP

adro

niza

ção

1 SA

XP

adro

niza

ção

1Lo

garit

mo

SA

XP

adro

niza

ção

1B

ox-C

ox

SA

XP

adro

niza

ção

2 SA

XP

adro

niza

ção

2Lo

garit

mo

SA

XP

adro

niza

ção

2B

ox-C

ox

SA

XP

adro

niza

ção

2co

SA

XP

adro

niza

ção

2B

ox-C

oxco

série 1759 0.69 0.69 0.69 0.47 0.56 0.56 0.69 0.69 0.69 0.9 0.9série 1765 0.71 0.74 0.74 0.41 0.28 0.4 0.71 0.74 0.74 0.78 0.95série 2091 0.73 0.73 0.73 0.4 0.53 0.52 0.73 0.73 0.73 0.9 0.9série 2150 0.48 0.48 0.48 0.26 0.29 0.28 0.48 0.48 0.48 0.55 0.54série 2166 0.61 0.61 0.61 0.32 0.21 0.3 0.61 0.61 0.61 0.67 0.62série 2764 0.56 0.51 0.51 0.33 0.39 0.33 0.56 0.51 0.51 0.58 0.5série 2823 0.41 0.41 0.41 0.27 0.22 0.23 0.41 0.41 0.41 0.44 0.49série 3881 0.23 0.23 0.22 0.29 0.3 0.3 0.23 0.23 0.22 0.32 0.3série 3882 0.15 0.15 0.15 0.31 0.18 0.17 0.15 0.15 0.15 0.17 0.31série 4562 0.92 0.81 0.81 0.26 0.39 0.39 0.92 0.81 0.81 1 0.91série 6278 0.64 0.64 0.67 0.42 0.46 0.5 0.64 0.64 0.67 0.9 0.95

Mediana 0.61 0.61 0.61 0.32 0.30 0.33 0.61 0.61 0.61 0.67 0.62Média 0.56 0.55 0.55 0.34 0.35 0.36 0.56 0.55 0.55 0.66 0.67≥0.85 1 0 0 0 0 0 1 0 0 4 5<0.6 5 5 5 11 11 11 5 5 5 5 5

Tabela 6.16: Sensibilidade do método baseado no SAX no grupo 3.

SA

X

SA

XLo

garit

mo

SA

XB

ox-C

ox

SA

XP

adro

niza

ção

1 SA

XP

adro

niza

ção

1Lo

garit

mo

SA

XP

adro

niza

ção

1B

ox-C

ox

SA

XP

adro

niza

ção

2 SA

XP

adro

niza

ção

2Lo

garit

mo

SA

XP

adro

niza

ção

2B

ox-C

ox

SA

XP

adro

niza

ção

2Lo

garit

mo

comδ

série 4867 1 1 1 0.27 0.36 0.36 1 1 1 1série 5109 0.36 0.45 0.36 0.36 0.36 0.4 0.36 0.45 0.36 0.3série 6150 0.3 0.3 0.3 0.2 0.4 0.18 0.3 0.3 0.3 0

Mediana 0.36 0.45 0.36 0.27 0.36 0.36 0.36 0.45 0.36 0.30Média 0.55 0.58 0.55 0.28 0.37 0.31 0.55 0.58 0.55 0.43≥0.85 1 1 1 0 0 0 1 1 1 1<0.6 2 2 2 3 3 3 2 2 2 2

Tabela 6.17: Precisão do método baseado no SAX no grupo 3.

SA

X

SA

XLo

garit

mo

SA

XB

ox-C

ox

SA

XP

adro

niza

ção

1 SA

XP

adro

niza

ção

1Lo

garit

mo

SA

XP

adro

niza

ção

1B

ox-C

ox

SA

XP

adro

niza

ção

2 SA

XP

adro

niza

ção

2Lo

garit

mo

SA

XP

adro

niza

ção

2B

ox-C

ox

SA

XP

adro

niza

ção

2Lo

garit

mo

comδ

série 4867 0.37 0.38 0.38 0.2 0.31 0.29 0.37 0.38 0.38 0.55série 5109 0.13 0.16 0.13 0.17 0.17 0.17 0.13 0.16 0.13 0.19série 6150 0.11 0.11 0.11 0.11 0.17 0.1 0.11 0.11 0.11 0

Mediana 0.13 0.16 0.13 0.17 0.17 0.17 0.13 0.16 0.13 0.19Média 0.20 0.22 0.21 0.16 0.22 0.19 0.20 0.22 0.21 0.25≥0.85 0 0 0 0 0 0 0 0 0 0<0.6 3 3 3 3 3 3 3 3 3 3

81

Page 96: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela 6.18: Score F1 do método baseado no SAX no grupo 3.

SA

X

SA

XLo

garit

mo

SA

XB

ox-C

ox

SA

XP

adro

niza

ção

1 SA

XP

adro

niza

ção

1Lo

garit

mo

SA

XP

adro

niza

ção

1B

ox-C

ox

SA

XP

adro

niza

ção

2 SA

XP

adro

niza

ção

2Lo

garit

mo

SA

XP

adro

niza

ção

2B

ox-C

ox

SA

XP

adro

niza

ção

2Lo

garit

mo

comδ

série 4867 0.54 0.55 0.55 0.23 0.33 0.32 0.54 0.55 0.55 0.71série 5109 0.2 0.24 0.2 0.24 0.24 0.24 0.2 0.24 0.2 0.23série 6150 0.16 0.16 0.16 0.14 0.24 0.13 0.16 0.16 0.16 NA

Mediana 0.20 0.24 0.20 0.23 0.24 0.24 0.20 0.24 0.20 0.47Média 0.30 0.32 0.30 0.20 0.27 0.23 0.30 0.32 0.30 0.47≥0.85 0 0 0 0 0 0 0 0 0 0<0.6 3 3 3 3 3 3 3 3 3 1

82

Page 97: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Capítulo 7

Conclusões gerais

7.1 Síntese

Neste capítulo, pretende-se apresentar as principais conclusões retiradas após a realização dos estu-

dos apresentados anteriormente.

Nesta dissertação, dois principais estudos foram realizados: o estudo da propagação da incerteza

no cálculo do balanço hídrico e o estudo relativo à deteção de outliers em séries temporais de caudal.

Em ambos os casos, vários métodos foram propostos, alguns dos quais modificações de outros já

existentes, sendo que, para realizar as necessárias comparações, recorreu-se a alguns dados, tanto

fictícios como reais.

A análise da propagação de incertezas no cálculo do balanço hídrico dividiu-se em duas análises:

na primeira, as incertezas foram introduzidas num formato de bandas, ou seja, com um limite mínimo e

máximo para a incerteza; na segunda análise, as incertezas foram calculadas tendo por base os valores

mínimos e máximos atribuídos a cada uma das componentes do balanço hídrico. Em ambos os casos,

foram propostos diversos métodos, tendo sido realizadas comparações entre os resultados obtidos.

No seguimento das análises efetuadas e através do contacto direto com algumas entidades ges-

toras de sistemas de abastecimento de água, foi possível concluir que estas consideram não possuir

meios nem conhecimentos suficientes para a indicação de valores mínimos e máximos para as diver-

sas componentes do balanço hídrico. Deste modo, apesar de ter sido realizada uma comparação entre

os diferentes métodos propostos para este caso – método Delta e método de Monte Carlo – não se

procedeu à escolha do melhor método. Por oposição, a indicação da incerteza através de uma banda

foi considerada pelas entidades gestoras como a mais indicada. Neste caso, três métodos foram pro-

postos: método Delta, intervalos de confiança e método de Monte Carlo. Relativamente a este último,

foi possível verificar que a distribuição geralmente utilizada, a distribuição normal, não modela corre-

tamente as diversas componentes do balanço hídrico, tendo-se verificado que a distribuição gama se

revela uma melhor opção para este efeito.

De modo a proceder-se à escolha do melhor método, compararam-se os resultados obtidos para

três casos, dois dos quais reais. Em todos estes foi possível concluir que, nos casos em que se

verificam diferenças mais significativas entre os diferentes métodos, as bandas de incerteza com menor

amplitude resultam da aplicação dos intervalos de confiança. Além disso, o grau de confiança que é

possível associar às bandas de incerteza obtidas por este método e o seu menor peso computacional,

comparado com o método de Monte Carlo, são outras das suas vantagens. Neste sentido, concluiu-

se que o melhor método para o estudo da propagação de incertezas no balaço hídrico anual são os

intervalos de confiança.

83

Page 98: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Relativamente à deteção de outliers em séries temporais de caudal, começou-se por considerar o

modelo TBATS e os intervalos de confiança e de previsão obtidos a partir do mesmo. Contudo, dado

o seu elevado peso computacional e os resultados não satisfatórios, optou-se por não seguir em frente

com os métodos baseados neste modelo.

Uma vez que se verificam diferenças estruturais entre as séries temporais, realizou-se uma aná-

lise de clusters, considerando as séries temporais das medianas diárias de consumo padronizadas, de

modo a obterem-se grupos semelhantes, tendo esta análise resultado em três clusters. Dois destes

consistem em grupos de séries com características definidas, sendo que, no terceiro cluster, são agru-

padas as séries que não revelam um padrão definido, apresentando, por isso, diferenças entre si. As

séries deste último cluster podem ser consideradas como outliers relativamente às restantes. Devido a

esta característica deste cluster e ao baixo número de séries temporais nele presentes, não foi possível

construir um método que permita detetar corretamente o maior número de outliers existentes e o menor

número de falsos alarmes. Quanto aos dois outros clusters, concluiu-se que, com o método baseado

no SAX após a criação de um valor δ que permite diminuir o número de falsos alarmes, o número de

outliers detetados foi elevado, em oposição ao número de falsos alarmes que, efetivamente, reduziu

com a utilização do valor δ, tal como desejado. Além disso, a aplicação da transformação de Box-Cox

melhorou os resultados obtidos no caso do primeiro cluster, sendo que, no segundo, tanto os dados

originais como o logaritmo dos mesmos deram origem a resultados muito semelhantes, optando-se,

portanto, por utilizar os dados originais para a deteção de outliers neste cluster. De salientar que este

método permite a deteção de outliers em tempo real, ou seja, utilizando os dados observados nos ins-

tantes anteriores (meses ou anos), é possível construir um padrão para o dia pretendido, podendo-se

realizar instantaneamente a comparação com os dados que estão a ser recolhidos.

7.2 Trabalho futuro

Relativamente a trabalho futuro a realizar no âmbito na propagação de incertezas, poder-se-á consi-

derar a aplicação dos intervalos de confiança a outros balanços anuais, tal como o balanço energético

também realizado pelas entidades gestoras de sistemas de abastecimento de água. Poderá ainda ser

interessante aplicar os mesmos métodos aos casos de distribuições de eletricidade ou de gás natural,

caso seja aplicável.

A classificação das séries temporais de caudal também poderá ser ainda melhorada, de modo a

verificar-se como se poderá classificar mais precisamente as séries que não apresentam padrões evi-

dentes nas medianas dos consumos diários, além da sua identificação a priori através da visualização

do seu gráfico. Ainda no seguimento destas séries, dada a ineficácia na deteção de outliers de qual-

quer um dos métodos construídos nestas séries, outros métodos poderão ainda ser testados com este

objetivo.

Relativamente ao método escolhido para a deteção de outliers em séries temporais de caudal, ba-

seado no SAX e com a construção de um valor δ, poderá ainda ser útil estudar-se a possibilidade de se

proceder à atualização do valor δ para cada série à medida que vão sendo detetados outliers e estes

vão sendo verificados e classificados como sendo reais ou falsos alarmes.

Mais uma vez, dadas as presumíveis semelhanças entre as séries temporais de caudal e as relativas

a consumos de eletricidade ou de gás, também os métodos de deteção de outliers aqui estudados

poderão ser aplicados a estas.

84

Page 99: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Bibliografia

Akaike, H. (1998). Information theory and an extension of the maximum likelihood principle. Selected

Papers of Hirotugu Akaike, págs. 199–213. Springer.

Alegre, H., Coelho, S. T., Almeida, M. d. C., e Vieira, P. (2005). Controlo de perdas de água em sistemas

públicos de adução e distribuição. Série Guias Técnicos, 3.

Alegre, H., Hirner, W., Baptista, J., e Parena, R. (2004). Indicadores de desempenho para serviços de

água, Manual de boa prática,(versão portuguesa). IRAR e LNEC, Lisboa.

Alvisi, S., Franchini, M., e Marinelli, A. (2007). A short-term, pattern-based model for water-demand

forecasting. Journal of Hydroinformatics, 9(1):39–50.

Ash, R. B., e Doléans-Dade, C. A. (1999). Probability & Measure Theory, 2ª edição, pág. 307. Academic

Press, New York.

Babic, B., Stanic, M., Prodanovic, D., Džodanovic, B., e Ðukic, A. (2014). Reducing uncertainty of

infrastructure leakage index – a case study. Procedia Engineering 89:1577–1584.

Bai, J. (1997). Estimation of a change point in multiple regression models. Review of Economics and

Statistics, 79(4): 551–563.

Bai, J., e Perron, P. (2003). Computation and analysis of multiple structural change models. Journal of

Applied Econometrics, 18(1): 1–22.

Baptista, J., Alegre, H., Matos, R., Neves, E., Pássaro, D., Cardoso, A., Escudeiro, M., Santos, R.,

Nunes, M., Ribeiro, A., et al. (2005). Guia de avaliação de desempenho dos operadores de serviços

de águas e resíduos. IRAR & LNEC, Lisboa.

Barrela, R. (2015). Data reconstruction of flow time series in water distribution networks. Tese de

mestrado, Instituto Superior Técnico, Lisboa.

Bell, S. (2001). Measurement good practice guide no. 11 (issue 2). A Beginner’s Guide to Uncertainty

of Measurement. National Physical Laboratory, Teddington.

Berndt, D. J., e Clifford, J. (1994). Using dynamic time warping to find patterns in time series. KDD

Workshop, volume 10, págs. 359–370. Seattle, WA.

BIPM, IEC, IFCC, ILAC, ISO, IUPAC, IUPAP e OIML (2008). Evaluation of measurement dataguide to

the expression of uncertainty in measurement. Joint Committee for Guides in Metrology (JCGM 100:

2008, GUM 1995 with minor corrections).

BIPM, IEC, IFCC, ILAC, ISO, IUPAC, IUPAP e OIML (2008). Evaluation of measurement data – Supple-

ment 1 to the "Guide to the expression of uncertainty in measurement” – Propagation of distributions

using a Monte Carlo method.

85

Page 100: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Cleveland, R. B., Cleveland, W. S., McRae, J. E., e Terpenning, I. (1990). Stl: A seasonal-trend decom-

position procedure based on loess. Journal of Official Statistics, 6(1):3–73.

Chen, C., e Liu, L. (1993). Joint estimation of model parameters and outlier effects in time series. Journal

of the American Statistical Association, 88(421):284-297.

Coleman, H. W., e Steele, W. G. (2009). Experimentation, validation, and uncertainty analysis for engi-

neers. John Wiley & Sons.

European Accreditation Laboratory Committee. (2013). EA-4/02 Evaluation of the uncertainty of measu-

rement in calibration.

Cox, M., Dainton, M. P., e Harris, P. (2001). Software support for metrology best practice guide no. 6.

Uncertainty and Statistical Modelling. National Physical Laboratory, Teddington.

Cox, T. F., e Cox, M. A. (2000). Multidimensional scaling, 2ª edição. CRC Press.

De Livera, A. M., Hyndman, R. J., e Snyder, R. D. (2011). Forecasting time series with complex

seasonal patterns using exponential smoothing. Journal of the American Statistical Association,

106(496):1513–1527.

Farley, M., e Trow, S. (2003). Losses in water distribution networks. A practitioner’s guide to assessment,

monitoring and control. IWA Publishing.

Grubbs, F. E. (1950). Sample criteria for testing outlying observations. Annals of Mathematical Statistics,

21(1):27—58.

Henriques, J. D., Palma, J., e Ribeiro, A. (2006). Medição de caudal em sistemas de abastecimento de

água e de saneamento de águas residuais urbanas. Série “Guias Técnicos” do IRAR, 9.

Huber, P. J., e Ronchetti, E. M. (1981). Robust statistics. John Wiley & Sons.

Hyndman, R. J., Koehler, A. B., Ord, J. K., e Snyder, R. D. (2005). Prediction intervals for exponential

smoothing using two new classes of state space models. Journal of Forecasting, 24(1):17–37.

Hyndman, R. J. (2015). forecast: Forecasting functions for time series and linear models. R package

version 6.2.

Kaiser, R., e Maravall, A. (1999). Seasonal outliers in time series. Imprenta del Banco de Espana,

Espanha.

Lambert, A. (2010). Assessing non-revenue water and its components: a practical approach. IWA

Publishing.

Lee, Y. W., Bogardi, I., e Kim, J. H. (2000). Decision of water supply line under uncertainty. Water

Reasearch, 34(13):3371–3379.

Li, Z., Shao, Q., Xu, Z., e Xu, C. Y. (2013). Uncertainty issues of a conceptual water balance model for

a semi-arid watershed in north-west of China. Hydrological Processes, 27(2):304–312.

Liemberger, R., e McKenzie, R. (2003). Aqualibre™ – A new innovative water balance software. Em

IWA and AWWA Conference on Efficient Management of Urban Water Supply.

Lin, J., Keogh, E., Wei, L., e Lonardi, S. (2007). Experiencing SAX: A novel symbolic representation of

time series. Data Mining and Knowledge Discovery, 15(2):107–144.

86

Page 101: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Lin, J., e Li, Y. (2009). Finding structural similarity in time series data using bag-of-patterns representa-

tion. Scientific and Statistical Database Management, págs. 461–477. Springer.

Lin, J., Khade, R., e Li, Y. (2012). Rotation-invariant similarity in time series using bag-of-patterns

representation. Journal of Intelligent Information Systems, 39(2):287–315.

Loureiro, D. (2010). Consumption analysis methodologies for the efficient management of water distri-

bution systems. Universidade Técnica de Lisboa, Lisboa.

Loureiro, D., Amado, C., Martins, A., Vitorino, D., Mamade, A., e Coelho, S. T. (2016). Water distribution

systems flow monitoring and anomalous event detection: A pratical approach. Urban Water Journal,

13(3):242–252.

Mamade, A. (2013). Profiling consumption patterns using extensive measurements. Tese de mestrado,

Instituto Superior Técnico, Lisboa.

Marek, L. (2014). Outliers in time series. Em The 8th International Days of Statistics and Economics

Montero, P., e Vilar, J. A. (2014). Tsclust: An R package for time series clustering. Journal of Statistical

Software, 62(1).

Ogasawara, E., Martinez, L. C., De Oliveira, D., Zimbrão, G., Pappa, G. L., e Mattoso, M. (2010).

Adaptive normalization: A novel data normalization approach for non-stationary time series. Em The

2010 International Joint Conference on Neural Networks (IJCNN), págs. 1–8. IEEE.

Puust, R., Kapelan, Z., Savic, D., e Koppel, T. (2010). A review of methods for leakage management in

pipe networks. Urban Water Journal, 7(1):25–45.

Quevedo, J., Puig, V., Cembrano, G., Blanch, J., Aguilar, J., Saporta, D., Benito, G., Hedo, M., e Molina,

A. (2010). Validation and reconstruction of flow meter data in the Barcelona water distribution network.

Control Engineering Practice, 18(6):640–651.

R Core Team (2015). R: A language and environment for statistical computing. R Foundation for Statis-

tical Computing, Vienna, Austria. http://www.R-project.org/.

Refsgaard, J. C., van der Sluijs, J. P., Højberg, A. L., e Vanrolleghem, P. A. (2007). Uncertainty in the

environmental modelling process – a framework and guidance. Environmental Modelling & Software,

22(11):1543–1556.

Rosner, B. (1983). Percentage points for a generalized ESD many-outlier procedure. Technometrics,

25(2):165–172.

Rousseeuw, P. J., e Croux, C. (1993). Alternatives to the median absolute deviation. Journal of the

American Statistical Association, 88(424):1273–1283.

Sattary, J., Boam, D., Judeh, W., e Warren, S. (2002). The impact of measurement uncertainty on the

water balance. Water and Environment Journal, 16(3):218–222.

Tan, P. N., Steinbach, M., e Kumar, V. (2006). Introduction to data mining, volume 1. Pearson Addison

Wesley Boston.

Taylor, R., Lambert, A., e McKenzie D. R. (2008). Benchmarking of water losses in New Zealand Manual

(Incorporating the user manual for the 2008 update of the BenchlossNZ Software: Version 2a). New

Zealand Water and Wastes Association; Water Services Managers Group.

87

Page 102: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Thornton, J., Sturm, R., e Kunkel, G. (2008). Water loss control. McGraw Hill Professional.

Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley Publishing Company.

Vallis, O., Hochenbaum, J., e Kejariwal, A. (2014). A novel technique for long-term anomaly detection in

the cloud. Em 6th USENIX Workshop on Hot Topics in Cloud Computing (HotCloud 14).

Verbesselt, J., Hyndman, R., Newnham, G,. e Culvenor, D. (2010). Detecting trend and seasonal chan-

ges in satellite image time series. Remote Sensing of Environment, 114(1):106–115.

Verbesselt, J., Hyndman, R., Zeileis, A., e Culvenor, D. (2010). Phenological change detection while ac-

counting for abrupt and gradual trends in satellite image time series. Remote Sensing of Environment,

114(12):2970–2980.

Ward, J. H. Jr. (1963). Hierarchical grouping to optimize an objective function. Journal of the American

Statistical Association, 58(301):236–244.

Wei, L., Keogh, E., e Xi, X. (2006). Saxually explicit images: finding unusual shapes. Sixth International

Conference on Data Mining (ICDM’06), págs. 711–720. IEEE.

Wu, X., Kumar, V., Quinlan, J. R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G. J., Ng, A., Liu, B.,

Philip, S. Y., et al. (2008). Top 10 algorithms in data mining. Knowledge and information systems,

14(1):1–37.

Yegnan, A., Williamson, D., e Graettinger, A. (2002). Uncertainty analysis in air dispersion modeling.

Environmental Modelling & Software, 17 (7):639–649.

Zeileis, A., Kleiber, C., Krämer, W., e Hornik, K. (2003). Testing and dating of structural changes in

practice. Computational Statistics & Data Analysis, 44(1):109–123.

88

Page 103: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Apêndice A

Propagação de incertezas no balanço

hídrico e nos indicadores de perdas

de água

De modo a exemplificar o modo de cálculo das diversas componentes do balanço hídrico presentes nas

tabelas A.1 e A.2, de seguida apresenta-se o procedimento efetuado no caso da secção 2. das tabelas,

ou seja, do consumo autorizado faturado:

1. a distribuição direta (2.1.1.) resulta da soma dos consumos doméstico, de comércio e de serviços,

público, industrial e de outros consumos faturados medidos;

2. a água exportada (tratada ou não tratada) faturada (2.1.2.) resulta da soma da água transferida

para outros sistemas da mesma entidade e da água vendida a outras entidades gestoras;

3. o consumo faturado medido (2.1.) resulta da soma da distribuição direta (2.1.1.) e da água

exportada (tratada ou não tratada) faturada (2.1.2.);

4. o consumo autorizado faturado (2.) resulta da soma dos consumos faturados medido (2.1.) e não

medido (2.2.).

No caso do exemplo presente nestas tabelas, obtém-se:

Distribuição direta (2.1.1.) = 3 575 458 + 421 056 + 34 953 + 0 + 10 920 = 4 042 387;

Água exportada faturada (2.1.2.) = 0 + 0 = 0;

Consumo faturado medido (2.1.) = 4 042 387 + 0 = 4 042 387;

Consumo faturado não medido (2.2) = 2 737.5 + 2 400 + 0 + 0 + 2 602 = 7 739.5;

Consumo autorizado faturado (2.) = 4 042 387 + 7 739.5 = 4 050 126.5.

No caso das restantes secções, os cálculos efetuam-se de forma análoga, exceto no caso do con-

sumo para lavagem de ruas e do consumo para serviço de combate a incêndio como parte do consumo

não faturado não medido, em que resultam da multiplicação das três componentes apresentadas abaixo

de cada um. Já para o preenchimento da tabela 3.1, onde se sumariam as principais componentes do

balanço hídrico, procede-se tal como descrito de seguida [Alegre et al. (2005)]:

1. Calcular o volume de água entrada no sistema, corrigido dos erros sistemáticos, através do pro-

cedimento descrito anteriormente para as tabelas A.1 e A.2, e introduzi-lo na 1ª coluna;

89

Page 104: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

2. Calcular o consumo faturado medido e o consumo faturado não medido, utilizando o procedimento

anterior, e introduzir os respetivos valores na 4ª coluna; calcular o total destes e introduzir como

consumo autorizado faturado (na 3ª coluna) e como água faturada (na 5ª coluna);

3. Calcular o volume de água não faturada (5ª coluna) subtraindo a água faturada (5ª coluna) à água

entrada no sistema corrigida dos erros sistemáticos, presente na 1ª coluna;

4. Preencher os campos dos consumos não faturados medido e não medido (4ª coluna) e o seu total

(consumo autorizado não faturado - 3ª coluna), utilizando os valores obtidos na tabela A.2;

5. Calcular o consumo autorizado da 2ª coluna como o total dos consumos autorizados faturado e

não faturado, presentes na 3ª coluna;

6. Calcular as perdas de água (2ª coluna) como a diferença entre a água entrada no sistema corrigida

dos erros sistemáticos (1ª coluna) e o consumo autorizado (2ª coluna);

7. Preencher os campos do uso não autorizado e dos erros de medição (4ª coluna), utilizando a

tabela A.2, tal como o campo das perdas aparentes (3ª coluna);

8. Calcular as perdas reais (3ª coluna) subtraindo as perdas aparentes às perdas de água (ambas

na 3ª coluna)1;

9. Calcular os valores dos campos relativos às perdas reais da 4ª coluna, somá-los2 tal como na

tabela A.2 e compará-lo com o resultado das perdas reais (3ª coluna) obtido pelo passo anterior.

Deste modo, seguindo estes passos, é possível preencher todos os campos do quadro presente

na tabela 3.1. Além disso, é possível verificar quais as componentes resultantes de somas e quais as

resultantes de subtrações.

1Ao valor obtido de perdas reais por este cálculo dá-se o nome de perdas reais (1).2Ao valor obtido de perdas reais por este cálculo dá-se o nome de perdas reais (2).

90

Page 105: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela A.1: Componentes do balanço hídrico com o exemplo do município de Vila Faia.

Nome Valor Unidades Fiabilidade Incerteza1. Água entrada no sistema (corrigida dos erros sistemáticos)

1.1.Água entradaÁgua captada 823 838 m3/ano ? ? ? 0-5%Água importada (tratada ou não tratada) fatu-rada por terceiros

4 835 650 m3/ano ? ? ? 0-5%

Água importada (tratada ou não tratada) nãofaturada por terceiros

0 m3/ano ? ? ? 0-5%

1.2.Estimativa dos erros sistemáticos da água entrada no sistemaEstimativa do erro sistemático da água cap-tada

0 m3/ano

Estimativa do erro sistemático da água impor-tada faturada por terceiros

0 m3/ano

Estimativa do erro sistemático da água impor-tada não faturada por terceiros

0 m3/ano

2. Consumo autorizado faturado

2.1.Consumo faturado medido

2.1.1.Distribuição diretaConsumo doméstico 3 575 458 m3/ano ? ? ? 0-5%Consumo de comércio e de serviços 421 056 m3/ano ? ? ? 0-5%Consumo público 34 953 m3/ano ?? 21-50%Consumo industrial 0 m3/ano ? ? ? 0-5%Outros consumos faturados medidos 10 920 m3/ano ?? 6-20%

2.1.2.Água exportada (tratada ou não tratada) faturadaÁgua transferida para outros sistemas damesma entidade

0 m3/ano

Água vendida a outras entidades gestoras 0 m3/ano

2.2.Consumo faturado não medidoConsumo doméstico, comercial e de serviços(clientes sem contador)

2 737.5 m3/ano ?? 6-20%

Consumo para rega de espaços verdes 2 400 m3/ano ?? 21-50%Consumo para lavagem de ruas 0 m3/anoConsumo em marcos e bocas de incêndio 0 m3/anoOutros consumos faturados não medidos 2 602 m3/ano ?? 51-100%

91

Page 106: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela A.2: Continuação das componentes do balanço hídrico com o exemplo do município de Vila Faia.

Nome Valor Unidades Fiabilidade Incerteza3. Consumo autorizado não faturado

3.1.Consumo não faturado medido

3.1.1.Distribuição diretaConsumo público 0 m3/anoConsumo próprio da entidade 0 m3/anoCombate a incêndio 11 885 m3/ano ? 6-20%

3.1.2.Água exportada (tratada ou não tratada) não faturadaÁgua transferida para outros sistemas damesma entidade

0 m3/ano

Água transferida para outras entidades gesto-ras

0 m3/ano

3.2.Consumo não faturado não medido

3.2.1.Consumo próprioConsumo de processo no tratamento 0 m3/anoLavagem de condutas e reservatórios 5 400 m3/ano ? ? ? 51-100%Consumo nas instalações e espaços verdes daentidade

2 500 m3/ano ? ? ? 51-100%

Estimativa de consumo doméstico, comercial ede serviços de clientes sem contador

0 m3/ano

Consumo para rega de espaços verdes 0 m3/anoConsumo para lavagem de ruas 7500 m3/ano

Nº de enchimentos de autotanques por dia 15 nº/dia ?? 6-20%Capacidade média de cada autotanque 5 m3 ? ? ? 0-5%Nº de dias de utilização por ano 100 dias/ano ?? 21-50%

Consumo para serviço de combate a incêndio 22 500 m3/anoNº de enchimentos de autotanque por dia 25 nº/dia ?? 6-20%Capacidade média de cada autotanque 30 m3 ? ? ? 0-5%Nº de dias de utilização por ano 30 dias/ano ?? 6-20%

Outros consumos autorizados não faturadosnão medidos

0 m3/ano

4. Perdas aparentes

4.1.Uso não autorizadoConsumo relativo a utilização fraudulenta demarcos, bocas de incêndio e de rega

4 800 m3/ano ? 101-300%

Consumo relativo a ligações ilícitas 46 400 m3/ano ? 101-300%

4.2.Erros do consumo autorizadoEstimativa do erro sistemático da micro-medição

310 713 m3/ano ? 21-50%

Estimativa do erro sistemático da água autori-zada não medida

0 m3/ano

5. Perdas reaisFugas e extravasamentos nos reservatórios deadução e/ou distribuição

12 775 m3/ano ? 51-100%

Fugas nos ramais 7 300 m3/ano ? 51-100%Perdas reais nas condutas de água bruta e nasestações de tratamento de água

0 m3/ano

Fugas nas condutas de adução e/ou distribui-ção

657 000 m3/ano ?? 21-50%

92

Page 107: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Apêndice B

Deteção de Outliers em Séries

Temporais de Caudal

Tabela B.1: Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de deteção deoutliers, no cluster 1.

Série Semanas OutliersFator multiplicativo Soma de uma parcelaX Fator X Parcela

série 1759 6 a 9 422 a 441 X 1.5série 1765 45 a 48 103 a 122 X 9série 2091 5 a 8 422 a 441 X 7série 2150 29 a 32 200 a 219 X 20série 2166 7 a 10 426 a 445 X 18série 2764 26 a 29 350 a 369 X 1.5série 2823 12 a 15 196 a 215 X 1.6série 3881 28 a 31 585 a 604 X 1.7série 3882 39 a 42 490 a 509 X 2série 4562 10 a 13 334 a 353 X 23série 6278 7 a 10 Conhecidos

Tabela B.2: Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de deteção deoutliers, no cluster 2.

Série Semanas OutliersFator multiplicativo Soma de uma parcelaX Fator X Parcela

série 1766 6 a 9 422 a 441 X 1.4série 2014 4 a 7 235 a 254 X 7série 2082 34 a 37 364 a 383 X 12série 2163 45 a 48 555 a 574 X 25série 2289 29 a 32 510 a 529 X 1.5série 2722 9 a 12 445 a 464 X 7série 2725 49 a 52 230 a 249 X 1.5série 2741 29 a 32 30 a 49 X 26série 2743 11 a 14 450 a 469 X 1.5série 2802 19 a 22 385 a 404 X 7série 2804 20 a 23 25 a 44 X 1.6série 3863 12 a 15 440 a 459 X 1.6série 5124 12 a 15 610 a 629 X 9série 6023 11 a 14 Conhecidos

93

Page 108: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela B.3: Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de deteção deoutliers, no cluster 3.

Série Semanas OutliersFator multiplicativo Soma de uma parcelaX Fator X Parcela

série 4867 25 a 28 422 a 441 X 5série 5109 6 a 9 640 a 659 X 1.9série 6150 27 a 30 Conhecidossérie2166 18 a 22 330 a 349 X 1.7série2168 21 a 25 585 a 604 X 1.7série2533 26 a 30 55 a 74 X 30série2680 31 a 35 392 a 411 X 25série4562 40 a 44 5 a 24 X 16série2163 41 a 45 490 a 509 X 2

Tabela B.4: Sensibilidade do método Twitter e do método de Tukey no grupo 2.

Twitt

erM

M

Twitt

erH

Q

Twitt

erM

MLo

garit

mo

Twitt

erH

QLo

garit

mo

Twitt

erM

MB

ox-C

ox

Twitt

erH

QB

ox-C

ox

Tuke

y

Tuke

yLo

garit

mo

Tuke

yB

ox-C

ox

série 1766 1 1 0.95 0.95 0.95 0.95 0.8 0.75 0.75série 2014 0 0 0 0 0 0 0 0 0série 2082 0.65 0.65 0.35 0.1 0.5 0.4 0.5 0.1 0.4série 2163 1 1 1 1 1 1 0.9 0.85 0.9série 2289 0.85 0.8 0.6 0.5 0.5 0.45 0.4 0.3 0.35série 2722 1 1 0.85 0.75 0.55 0.5 0.75 0.5 0.5série 2725 1 1 1 1 1 1 0.95 0.8 0.85série 2741 1 1 1 1 1 0.95 0.95 0.75 0.75série 2743 0.7 0.7 0.55 0.5 0.45 0.35 0.4 0.35 0.35série 2802 1 1 1 1 1 1 1 0.8 0.8série 2804 1 1 1 1 0.8 0.75 1 0.9 1série 3863 0.15 0.15 0 0 0 0 0 0 0série 5124 1 1 0.9 0.9 0.9 0.85 1 0.85 0.85série 6023 0.96 0.96 0.8 0.8 0.96 0.96 0.84 0.8 0.84

Mediana 1.00 1.00 0.88 0.85 0.85 0.80 0.82 0.75 0.75Média 0.81 0.80 0.71 0.68 0.69 0.65 0.68 0.55 0.60≥0.85 10 9 8 7 7 7 6 3 4<0.6 2 2 4 5 6 6 5 6 6

94

Page 109: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela B.5: Precisão do método Twitter e do método de Tukey no grupo 2.

Twitt

erM

M

Twitt

erH

Q

Twitt

erM

MLo

garit

mo

Twitt

erH

QLo

garit

mo

Twitt

erM

MB

ox-C

ox

Twitt

erH

QB

ox-C

ox

Tuke

y

Tuke

yLo

garit

mo

Tuke

yB

ox-C

ox

série 1766 0.07 0.08 0.19 0.23 0.2 0.23 0.48 0.47 0.47série 2014 0 0 0 0 0 0 0 0 0série 2082 0.59 0.76 0.03 0.01 0.59 0.62 0.5 0.17 0.8série 2163 0.27 0.34 0.19 0.21 0.29 0.34 0.45 0.52 0.47série 2289 0.07 0.09 0.16 0.17 0.14 0.16 0.27 0.3 0.32série 2722 0.07 0.1 0.23 0.29 0.13 0.16 0.65 0.77 0.77série 2725 0.08 0.11 0.17 0.18 0.16 0.18 0.25 0.19 0.19série 2741 0.12 0.17 0.5 0.53 0.47 0.48 0.42 0.44 0.44série 2743 0.05 0.05 0.06 0.09 0.05 0.06 0.33 0.33 0.32série 2802 0.14 0.19 0.42 0.47 0.42 0.51 0.38 0.52 0.52série 2804 0.07 0.09 0.36 0.5 0.36 0.34 0.5 0.4 0.5série 3863 0.01 0.01 0 0 0 0 0 0 0série 5124 0.07 0.12 0.5 0.53 0.41 0.47 0.28 0.34 0.36série 6023 0.19 0.24 0.2 0.22 0.21 0.26 0.23 0.24 0.24

Mediana 0.07 0.11 0.19 0.22 0.21 0.25 0.36 0.34 0.40Média 0.13 0.17 0.22 0.25 0.25 0.27 0.34 0.34 0.39≥0.85 0 0 0 0 0 0 0 0 0<0.6 14 13 14 14 14 13 13 13 12

Tabela B.6: Score F1 do método Twitter e do método de Tukey no grupo 2.

Twitt

erM

M

Twitt

erH

Q

Twitt

erM

MLo

garit

mo

Twitt

erH

QLo

garit

mo

Twitt

erM

MB

ox-C

ox

Twitt

erH

QB

ox-C

ox

Tuke

y

Tuke

yLo

garit

mo

Tuke

yB

ox-C

ox

série 1766 0.14 0.15 0.32 0.37 0.33 0.37 0.6 0.58 0.58série 2014 NA NA NA NA NA NA NA NA NAsérie 2082 0.62 0.7 0.06 0.02 0.54 0.48 0.5 0.12 0.53série 2163 0.43 0.51 0.32 0.34 0.44 0.51 0.6 0.64 0.62série 2289 0.13 0.16 0.25 0.26 0.22 0.23 0.32 0.3 0.33série 2722 0.14 0.18 0.36 0.42 0.22 0.24 0.7 0.61 0.61série 2725 0.16 0.19 0.28 0.3 0.27 0.3 0.39 0.3 0.31série 2741 0.22 0.29 0.67 0.69 0.63 0.63 0.58 0.56 0.56série 2743 0.1 0.1 0.11 0.16 0.08 0.11 0.36 0.34 0.33série 2802 0.25 0.31 0.59 0.63 0.59 0.68 0.55 0.63 0.63série 2804 0.14 0.16 0.53 0.67 0.49 0.47 0.67 0.55 0.67série 3863 0.02 0.02 NA NA NA NA NA NA NAsérie 5124 0.14 0.21 0.64 0.67 0.56 0.61 0.43 0.49 0.51série 6023 0.31 0.38 0.32 0.34 0.35 0.41 0.36 0.37 0.38

Mediana 0.14 0.19 0.32 0.36 0.40 0.44 0.53 0.52 0.55Média 0.22 0.26 0.37 0.41 0.39 0.42 0.51 0.46 0.51≥0.85 0 0 0 0 0 0 0 0 0<0.6 12 12 10 8 11 9 8 9 8

95

Page 110: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

−2.

0−

1.0

0.0

0.5

1.0

1.5

Seg Ter Qua Qui Sex Sab Dom

−2.

0−

1.0

0.0

0.5

1.0

1.5

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

−1.

0−

0.5

0.0

0.5

1.0

Seg Ter Qua Qui Sex Sab Dom

−1.

0−

0.5

0.0

0.5

1.0

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

−1.

0−

0.5

0.0

0.5

1.0

Seg Ter Qua Qui Sex Sab Dom

−1.

0−

0.5

0.0

0.5

1.0

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

−0.

50.

00.

51.

01.

5

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

01.

5

−1.

0−

0.5

0.0

0.5

1.0

1.5

Seg Ter Qua Qui Sex Sab Dom

−1.

0−

0.5

0.0

0.5

1.0

1.5

−1.

0−

0.5

0.0

0.5

1.0

Seg Ter Qua Qui Sex Sab Dom

−1.

0−

0.5

0.0

0.5

1.0

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

Figura B.1: Boxplots das medianas dos consumos diários, no cluster 1.

96

Page 111: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

−0.

6−

0.2

0.0

0.2

0.4

0.6

0.8

Seg Ter Qua Qui Sex Sab Dom

−0.

6−

0.2

0.0

0.2

0.4

0.6

0.8

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

−0.

50.

00.

5

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

5

−1.

0−

0.5

0.0

0.5

1.0

Seg Ter Qua Qui Sex Sab Dom

−1.

0−

0.5

0.0

0.5

1.0

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

−0.

4−

0.2

0.0

0.2

0.4

Seg Ter Qua Qui Sex Sab Dom

−0.

4−

0.2

0.0

0.2

0.4

−0.

50.

00.

51.

01.

52.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

01.

52.

0

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

−0.

50.

00.

51.

01.

5

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

01.

5

−1.

0−

0.5

0.0

0.5

1.0

Seg Ter Qua Qui Sex Sab Dom

−1.

0−

0.5

0.0

0.5

1.0

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

0.0

0.5

1.0

Seg Ter Qua Qui Sex Sab Dom

0.0

0.5

1.0

Figura B.2: Boxplots das medianas dos consumos diários, no cluster 2.

97

Page 112: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

−0.

50.

00.

51.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

0

Figura B.3: Boxplots das medianas dos consumos diários, no cluster 2 (continuação).

−1.

0−

0.5

0.0

0.5

1.0

1.5

Seg Ter Qua Qui Sex Sab Dom

−1.

0−

0.5

0.0

0.5

1.0

1.5

−0.

50.

00.

51.

01.

52.

0

Seg Ter Qua Qui Sex Sab Dom

−0.

50.

00.

51.

01.

52.

0

−1.

0−

0.5

0.0

0.5

1.0

Seg Ter Qua Qui Sex Sab Dom

−1.

0−

0.5

0.0

0.5

1.0

Figura B.4: Boxplots das medianas dos consumos diários, no cluster 3.

98

Page 113: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela B.7: Sensibilidade do método baseado no SAX no grupo 2.

SA

X

SA

XLo

garit

mo

SA

XB

ox-C

ox

SA

XP

adro

niza

ção

1 SA

XP

adro

niza

ção

1Lo

garit

mo

SA

XP

adro

niza

ção

1B

ox-C

ox

SA

XP

adro

niza

ção

2 SA

XP

adro

niza

ção

2Lo

garit

mo

SA

XP

adro

niza

ção

2B

ox-C

ox

SA

XP

adro

niza

ção

2co

SA

XP

adro

niza

ção

2Lo

garit

mo

comδ

SA

XP

adro

niza

ção

2B

ox-C

oxco

série 1766 1 1 1 0.55 0.73 0.73 1 1 1 0.73 0 0.45série 2014 0.5 0.5 0.5 0.4 0.4 0.4 0.5 0.5 0.5 0 0 0.2série 2082 1 1 1 0.64 0.64 0.64 1 1 1 1 0.18 1série 2163 1 1 1 0.9 0.9 0.9 1 1 1 1 0.6 1série 2289 0.82 0.82 0.82 0.55 0.55 0.55 0.82 0.82 0.82 0.82 0.73 0.73série 2722 1 1 1 0.9 1 1 1 1 1 1 1 1série 2725 1 1 1 0.82 0.82 0.82 1 1 1 1 0.82 0.91série 2741 1 0.91 0.91 0.82 0.73 0.73 1 0.91 0.91 0.91 0.91 0.91série 2743 0.73 0.73 0.73 0.73 0.73 0.73 0.73 0.73 0.73 0.55 0.27 0série 2802 1 1 1 0.8 0.9 0.9 1 1 1 1 1 1série 2804 1 1 1 0.8 0.8 0.8 1 1 1 1 1 1série 3863 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0 0 0série 5124 1 1 1 0.73 0.73 0.73 1 1 1 0.91 0.82 0.82série 6023 1 1 1 1 1 1 1 1 1 1 1 1

Mediana 1.00 1.00 1.00 0.77 0.73 0.73 1.00 1.00 1.00 1.00 1.00 1.00Média 0.89 0.88 0.88 0.71 0.74 0.74 0.89 0.88 0.88 0.78 0.57 0.75≥0.85 10 10 10 3 4 4 10 10 10 7 4 6<0.6 2 2 2 4 3 3 2 2 2 2 3 2

Tabela B.8: Precisão do método baseado no SAX no grupo 2.

SA

X

SA

XLo

garit

mo

SA

XB

ox-C

ox

SA

XP

adro

niza

ção

1 SA

XP

adro

niza

ção

1Lo

garit

mo

SA

XP

adro

niza

ção

1B

ox-C

ox

SA

XP

adro

niza

ção

2 SA

XP

adro

niza

ção

2Lo

garit

mo

SA

XP

adro

niza

ção

2B

ox-C

ox

SA

XP

adro

niza

ção

2co

SA

XP

adro

niza

ção

2Lo

garit

mo

comδ

SA

XP

adro

niza

ção

2B

ox-C

oxco

série 1766 0.69 0.69 0.69 0.29 0.4 0.4 0.69 0.69 0.69 1 NA 1série 2014 0.28 0.28 0.28 0.31 0.31 0.31 0.28 0.28 0.28 0 NA 0.4série 2082 0.44 0.44 0.44 0.29 0.29 0.3 0.44 0.44 0.44 1 0.67 0.85série 2163 0.56 0.56 0.56 0.56 0.56 0.56 0.56 0.56 0.56 1 1 1série 2289 0.41 0.43 0.43 0.27 0.26 0.26 0.41 0.43 0.43 0.82 0.8 0.73série 2722 0.4 0.4 0.4 0.38 0.42 0.42 0.4 0.4 0.4 1 1 1série 2725 0.42 0.42 0.42 0.33 0.36 0.36 0.42 0.42 0.42 0.92 0.9 0.91série 2741 0.5 0.48 0.48 0.45 0.5 0.5 0.5 0.48 0.48 1 1 1série 2743 0.53 0.53 0.53 0.57 0.53 0.53 0.53 0.53 0.53 0.86 1 NAsérie 2802 0.36 0.36 0.36 0.25 0.31 0.31 0.36 0.36 0.36 0.77 1 1série 2804 0.29 0.3 0.29 0.38 0.4 0.38 0.29 0.3 0.29 0.56 0.67 0.53série 3863 0.29 0.27 0.29 0.29 0.29 0.29 0.29 0.27 0.29 0 0 0série 5124 0.3 0.3 0.3 0.44 0.47 0.47 0.3 0.3 0.3 0.5 0.9 1série 6023 0.17 0.18 0.18 0.24 0.26 0.23 0.17 0.18 0.18 0.38 0.75 0.32

Mediana 0.41 0.41 0.41 0.32 0.38 0.37 0.41 0.41 0.41 0.84 0.90 0.91Média 0.40 0.40 0.40 0.36 0.38 0.38 0.40 0.40 0.40 0.70 0.81 0.75≥0.85 0 0 0 0 0 0 0 0 0 7 7 8<0.6 13 13 13 14 14 14 13 13 13 5 1 4

99

Page 114: Modelação da Incerteza e Deteção de Outliers Melhoria ... · do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se o melhor para séries

Tabela B.9: Score F1 do método baseado no SAX no grupo 2.

SA

X

SA

XLo

garit

mo

SA

XB

ox-C

ox

SA

XP

adro

niza

ção

1 SA

XP

adro

niza

ção

1Lo

garit

mo

SA

XP

adro

niza

ção

1B

ox-C

ox

SA

XP

adro

niza

ção

2 SA

XP

adro

niza

ção

2Lo

garit

mo

SA

XP

adro

niza

ção

2B

ox-C

ox

SA

XP

adro

niza

ção

2co

SA

XP

adro

niza

ção

2Lo

garit

mo

comδ

SA

XP

adro

niza

ção

2B

ox-C

oxco

série 1766 0.81 0.81 0.81 0.37 0.52 0.52 0.81 0.81 0.81 0.84 NA 0.62série 2014 0.36 0.36 0.36 0.35 0.35 0.35 0.36 0.36 0.36 NA NA 0.27série 2082 0.61 0.61 0.61 0.4 0.4 0.41 0.61 0.61 0.61 1 0.29 0.92série 2163 0.71 0.71 0.71 0.69 0.69 0.69 0.71 0.71 0.71 1 0.75 1série 2289 0.55 0.56 0.56 0.36 0.35 0.35 0.55 0.56 0.56 0.82 0.76 0.73série 2722 0.57 0.57 0.57 0.53 0.59 0.59 0.57 0.57 0.57 1 1 1série 2725 0.59 0.59 0.59 0.47 0.5 0.5 0.59 0.59 0.59 0.96 0.86 0.91série 2741 0.67 0.62 0.62 0.58 0.59 0.59 0.67 0.62 0.62 0.95 0.95 0.95série 2743 0.62 0.62 0.62 0.64 0.62 0.62 0.62 0.62 0.62 0.67 0.43 NAsérie 2802 0.53 0.53 0.53 0.38 0.46 0.46 0.53 0.53 0.53 0.87 1 1série 2804 0.45 0.47 0.45 0.52 0.53 0.52 0.45 0.47 0.45 0.71 0.8 0.69série 3863 0.32 0.31 0.32 0.32 0.32 0.32 0.32 0.31 0.32 NA NA NAsérie 5124 0.46 0.46 0.46 0.55 0.57 0.57 0.46 0.46 0.46 0.65 0.86 0.9série 6023 0.29 0.3 0.3 0.39 0.41 0.38 0.29 0.3 0.3 0.55 0.86 0.48

Mediana 0.56 0.57 0.57 0.44 0.51 0.51 0.56 0.57 0.57 0.86 0.86 0.91Média 0.54 0.54 0.54 0.47 0.49 0.49 0.54 0.54 0.54 0.84 0.78 0.79≥0.85 0 0 0 0 0 0 0 0 0 6 6 7<0.6 9 9 9 12 12 12 9 9 9 1 2 2

Tabela B.10: Valores δ na aplicaçãodo método SAX com a

padronização 2 ao cluster 1.

Série δ δ Box-Coxsérie 1759 0.17 0.08série 1765 0.21 0.25série 2091 0.13 0.09série 2150 0.6 0.42série 2166 0.13 0.07série 2764 0.04 0.04série 2823 0.2 0.26série 3881 0.09 0.12série 3882 0.21 0.24série 4562 0.32 0.16série 6278 0.43 0.26

Média 0.23 0.18Mediana 0.2 0.16

Tabela B.11: Valores δ na aplicaçãodo método SAX com a

padronização 2 ao cluster 2.

Série δ δ Logaritmo δ Box-Coxsérie 1766 0.18 0.08 0.11série 2014 0.01 0 0.01série 2082 0.36 0.16 0.32série 2163 0.33 0.22 0.29série 2289 0.46 0.21 0.24série 2722 0.59 0.25 0.25série 2725 0.32 0.16 0.19série 2741 0.24 0.3 0.29série 2743 0.29 0.13 0.09série 2802 0.4 0.45 0.45série 2804 0.32 0.4 0.32série 3863 0.1 0.09 0.08série 5124 0.27 0.13 0.11série 6023 0.34 0.64 0.41

Média 0.3 0.23 0.22Mediana 0.32 0.18 0.24

Tabela B.12: Valores δ na aplicaçãodo método SAX com a

padronização 2 ao cluster 3.

Série δ Logaritmosérie 4867 0.4série 5109 0.12série 6150 0.12

Média 0.21Mediana 0.12

100