modelação da incerteza e deteção de outliers melhoria ... · do desvio studentizado extremo...
TRANSCRIPT
Modelação da Incerteza e Deteção de Outliers paraMelhoria do Diagnóstico de Perdas em Sistemas de
Abastecimento de Água
Maria José de Almeida e Silva
Dissertação para obtenção do Grau de Mestre em
Matemática e Aplicações
Orientadores: Prof.a Maria da Conceição Esperança AmadoDr.a Dália Susana dos Santos da Cruz Loureiro
Júri
Presidente: Prof. António Manuel Pacheco PiresOrientador: Dr.a Dália Susana dos Santos da Cruz LoureiroVogais: Prof. Manuel Gonzalez Scotto
Dr. Álvaro Silva Ribeiro
Novembro 2016
ii
Agradecimentos
Gostaria de começar por expressar o meu profundo agradecimento à minha orientadora, Professora
Conceição Amado, por todo o seu apoio e dedicação durante todo o desenvolvimento desta dissertação.
Gostaria ainda de expressar o meu obrigada à minha co-orientadora, Eng. Dália Loureiro, por toda a
disponibilidade em me explicar todos os conceitos relativos a perdas e consumos de água.
Deixo ainda expresso o meu agradecimento à equipa do Núcleo de Engenharia Sanitária do LNEC,
pelo ambiente tranquilo e saudável que me proporcionaram para o desenvolvimento desta dissertação.
Em particular, gostaria de referir a equipa do projeto iPerdas 2016, Dália, Ana, Aisha e Marta, tal
como as entidades gestoras participantes do projeto que comigo colaboraram permitindo, deste modo,
conferir uma maior realidade às análises realizadas.
Não poderia deixar de agradecer aos meus amigos por todo o apoio que me deram e pela compre-
ensão que demonstraram pela minha falta de tempo. Um agradecimento muito especial à Mariana e à
Valentina por a distância nunca nos ter separado. Quero ainda agradecer a todos os meus colegas, de
ambas as universidades, em especial à Adriana, Ana Paula e Rita da UM.
Por último, mas não menos importante, agradeço profundamente aos meus pais e a toda a minha
família, por todo o apoio que recebi durante esta etapa.
iii
iv
Resumo
As perdas de água que ocorrem nos sistemas de abastecimento de água constituem um grave pro-
blema, em termos económico, ambiental e social, que se reflete em duas áreas distintas, que serão
objeto de estudo nesta dissertação: nas incertezas no cálculo do balanço hídrico anual e em alguns pi-
cos de consumo existentes nas séries temporais de caudal, sendo outros relativos a consumos atípicos.
Contudo, os dois temas permitem melhorar as ferramentas existentes para o diagnóstico de perdas de
água. No primeiro caso, estas são quantificadas utilizando dados medidos ou estimados e que, por
isso, possuem incertezas que se propagam com os cálculos efetuados. Deste modo, esta propagação
foi estudada, considerando-se dois formatos diferentes de introdução das incertezas e três métodos de
propagação das mesmas, sendo um deles uma inovação. A combinação entre bandas de incerteza e
intervalos de confiança foi a que permitiu obter os melhores resultados. O segundo ponto visa contribuir
para a redução da incerteza na estimativa de perdas reais – uma das componentes mais relevantes do
balanço hídrico, através da deteção automatizada de eventos associados a roturas. Para tal, aplicaram-
se diversos métodos de deteção de outliers, métodos estes resultantes de inovações com base no teste
do desvio studentizado extremo generalizado, no método de Tukey e no SAX. Este último revelou-se
o melhor para séries com e sem sazonalidade anual, caracterizada por consumos mais elevados nos
meses quentes.
Palavras-chave: Propagação de incertezas. Bandas de incerteza. Deteção de outliers. Balanço
hídrico. Sistemas de abastecimento de água. SAX.
v
vi
Abstract
The water losses that occur in water supply systems are a great problem, in economic, environmental
and social terms, in two different areas, which will be object of study in this dissertation: in the uncer-
tainties in the annual water balance calculations and in some of the consumption peaks that exist in
flow time series, being others concerning to atypical consumptions. However, these two subjects help
to improve the existing diagnostic tools for water losses. In the first case, the water losses are quantified
using metered or estimated data with uncertainties that propagate through the calculations. Therefore,
this propagation was studied, considering two different formats for the specification of uncertainties and
three propagation methods, being one of them an innovation. The combination between uncertainty
bands and confidence intervals gave the best results. The second issue aims to contribute to reduction
of uncertainty in the real losses estimative – one of the most relevant water balance components, th-
rough automated detection of events associated with pipe bursts. For that, several methods of outlier
detection were applied, being these methods resulting from innovations based on the generalized ex-
treme studentized deviate test, on the Tukey method and on the SAX. This last method was the best for
time series with and without annual seasonality, characterized by higher consumptions in hot months.
Keywords: Propagation of uncertainties. Uncertainty bands. Detection of outliers. Water Balance.
Water supply systems. SAX.
vii
viii
Conteúdo
Agradecimentos iii
Resumo v
Abstract vii
Lista de Figuras xii
Lista de Tabelas xiv
1 Introdução 1
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Estrutura da tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Estado de arte 3
2.1 Propagação de incertezas no balanço hídrico e nos indicadores de perdas de água . . . 3
2.2 Deteção de outliers em séries temporais de caudal . . . . . . . . . . . . . . . . . . . . . . 4
3 Metodologia para a propagação de incertezas no balanço hídrico e nos indicadores de
perdas de água 7
3.1 Conceitos teóricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 Balanço hídrico e indicadores de perdas de água . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Métodos de determinação da propagação de incerteza baseados em bandas de incerteza 10
3.3.1 Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3.2 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3.3 O método de Monte Carlo para cálculo de incertezas . . . . . . . . . . . . . . . . 16
3.4 Métodos de cálculo da propagação de incertezas baseados nos valores mínimos e máxi-
mos das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4 Resultados da propagação de incertezas no balanço hídrico e nos indicadores de perdas
de água 23
4.1 Métodos de propagação de incertezas baseados em bandas de incerteza . . . . . . . . . 23
4.1.1 Método Delta e intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1.2 Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.3 Comparação dos resultados de um exemplo com dois casos reais . . . . . . . . . 28
4.2 Métodos de propagação de incertezas baseados nos valores mínimos e máximos das
variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
ix
5 Métodos para a detecção de outliers em séries temporais de caudal 35
5.1 Deteção de outliers com base no modelo TBATS . . . . . . . . . . . . . . . . . . . . . . . 35
5.1.1 Estimação dos parâmetros e seleção do modelo . . . . . . . . . . . . . . . . . . . 37
5.1.2 Intervalos de previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.3 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.1.4 Intervalos de previsão e de confiança combinados . . . . . . . . . . . . . . . . . . 41
5.2 Métodos para a deteção de outliers baseados nas características das séries temporais
de caudal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2.1 Agrupamento e classificação de séries temporais de consumos de água . . . . . . 41
5.2.2 Método Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.3 Método de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2.4 Método baseado na representação simbólica de séries temporais (SAX) . . . . . . 44
5.3 Medidas de avaliação de desempenho entre diferentes métodos . . . . . . . . . . . . . . 48
6 Resultados da deteção de outliers em séries temporais de caudal 51
6.1 Deteção de outliers com base no modelo TBATS . . . . . . . . . . . . . . . . . . . . . . . 52
6.1.1 Intervalos de previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.1.2 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.1.3 Intervalos de previsão e de confiança combinados . . . . . . . . . . . . . . . . . . 55
6.2 Agrupamento e classificação de séries temporais de consumos de água . . . . . . . . . . 58
6.3 Métodos para a deteção de outliers baseados nas características das séries temporais
de caudal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.3.1 Método Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.3.2 Método de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.3.3 Método baseado na representação simbólica de séries temporais (SAX) . . . . . . 69
6.4 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
7 Conclusões gerais 83
7.1 Síntese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.2 Trabalho futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Bibliografia 85
A Propagação de incertezas no balanço hídrico e nos indicadores de perdas de água 89
B Deteção de Outliers em Séries Temporais de Caudal 93
x
Lista de Figuras
5.1 Exemplo da aplicação da PAA a uma série temporal. . . . . . . . . . . . . . . . . . . . . . 45
5.2 Exemplo da aplicação do SAX a uma série temporal. . . . . . . . . . . . . . . . . . . . . . 46
6.1 Intervalos de previsão para uma semana da série temporal ZMC1. . . . . . . . . . . . . . 53
6.2 Intervalos de previsão para uma semana da série temporal ZMC2. . . . . . . . . . . . . . 53
6.3 Intervalos de previsão para uma semana da série temporal ZMC3. . . . . . . . . . . . . . 53
6.4 Desvio padrão simulado para uma semana da série temporal ZMC1. . . . . . . . . . . . . 54
6.5 Desvio padrão simulado para uma semana da série temporal ZMC2. . . . . . . . . . . . . 54
6.6 Desvio padrão simulado para uma semana da série temporal ZMC3. . . . . . . . . . . . . 54
6.7 Intervalos de confiança na série temporal ZMC1. . . . . . . . . . . . . . . . . . . . . . . . 56
6.8 Intervalos de confiança na série temporal ZMC2. . . . . . . . . . . . . . . . . . . . . . . . 56
6.9 Intervalos de confiança na série temporal ZMC3. . . . . . . . . . . . . . . . . . . . . . . . 56
6.10 Intervalos de previsão e de confiança combinados na série temporal ZMC1. . . . . . . . . 57
6.11 Intervalos de previsão e de confiança combinados na série temporal ZMC2. . . . . . . . . 57
6.12 Intervalos de previsão e de confiança combinados na série temporal ZMC3. . . . . . . . . 57
6.13 Dendrograma das séries temporais padronizadas das medianas diárias dos consumos
de água obtido pelo método Ward com a dissemelhança DTW. . . . . . . . . . . . . . . . 59
6.14 Medianas diárias de duas das séries temporais de consumos de água padronizados do
cluster 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.15 Medianas diárias de duas das séries temporais de consumos de água padronizados do
cluster 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.16 Medianas diárias de duas das séries temporais de consumos de água padronizados do
cluster 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.17 Representação das séries temporais em duas dimensões com base no MDS métrico. . . 61
6.18 Gráfico do erro de má classificação estimado do kNN em função de k, utilizando a vali-
dação cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.19 Deteção de outliers na série 1759, do cluster 1, com recurso ao método Twitter HQ sem
transformações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.20 Dendrograma relativo à análise de clusters dos meses do ano da série 1759, do cluster 1. 65
6.21 Dendrograma relativo à análise de clusters dos meses do ano da série 2289, do cluster 2. 65
6.22 Dendrograma relativo à análise de clusters dos meses do ano da série 4867, do cluster 3. 65
6.23 Deteção de outliers na série 2166, do cluster 1, com recurso ao método de Tukey sem
transformações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.24 Comparação do SAX com w = 24, w = 48 e w = 96 considerando af = 4. . . . . . . . . . 70
6.25 Comparação do SAX com w = 24, w = 48 e w = 96 considerando af = 5. . . . . . . . . . 70
6.26 Comparação do SAX com o padrão construído com a média e a mediana, considerando
w = 48 e af = 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
xi
6.27 Comparação do SAX com o padrão construído com a média e a mediana, considerando
w = 48 e af = 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.28 Aplicação do SAX com af = 4, considerando o padrão construído com a mediana e w = 48. 72
6.29 Aplicação do SAX com af = 5, considerando o padrão construído com a mediana e w = 48. 72
6.30 Identificação dos outliers obtidos aquando da aplicação do SAX com af = 4 a um exem-
plo, considerando o padrão construído com a mediana e w = 48. . . . . . . . . . . . . . . 72
6.31 Identificação dos outliers obtidos aquando da aplicação do SAX com af = 5 a um exem-
plo, considerando o padrão construído com a mediana e w = 48. . . . . . . . . . . . . . . 73
6.32 Representação de uma série após a normalização min-max segundo a alternativa 1. . . . 74
6.33 Representação de uma série após a normalização min-max segundo a alternativa 2. . . . 74
6.34 Representação de uma série após a normalização min-max segundo a alternativa 3. . . . 74
6.35 Representação de uma série após a normalização min-max segundo a alternativa 4. . . . 75
6.36 Representação de uma série após a padronização com a média e o desvio padrão. . . . 75
6.37 Representação de uma série após a padronização com a mediana e o MAD. . . . . . . . 75
6.38 Deteção de outliers na série 1759, do cluster 1, com recurso ao método baseado no SAX
e a transformação de Box-Cox. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.39 Deteção de outliers na série 1759, do cluster 1, com recurso ao método baseado no SAX,
com a transformação de Box-Cox e com a utilização do valor δ. . . . . . . . . . . . . . . . 78
B.1 Boxplots das medianas dos consumos diários, no cluster 1. . . . . . . . . . . . . . . . . . 96
B.2 Boxplots das medianas dos consumos diários, no cluster 2. . . . . . . . . . . . . . . . . . 97
B.3 Boxplots das medianas dos consumos diários, no cluster 2 (continuação). . . . . . . . . . 98
B.4 Boxplots das medianas dos consumos diários, no cluster 3. . . . . . . . . . . . . . . . . . 98
xii
Lista de Tabelas
3.1 Componentes do balanço hídrico (retirado de Alegre et al. (2005) e definido de acordo
com IWA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Notação para a definição dos indicadores de desempenho de perdas de água . . . . . . 11
3.3 Indicadores de desempenho de perdas de água (retirado de Alegre et al. (2005)) . . . . . 11
3.4 Bandas de incerteza dos dados (retirado de Alegre et al. (2005)) . . . . . . . . . . . . . . 11
3.5 Banda de fiabilidade da fonte de informação (retirado de Alegre et al. (2005)) . . . . . . . 12
3.6 Sistematização dos métodos de propagação de incertezas aplicados a cada caso de
estudo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1 Incertezas para as componentes do balanço hídrico, com base no método Delta, IC e
MMC com a distribuição normal para o exemplo de Vila Faia. . . . . . . . . . . . . . . . . 25
4.2 Incertezas, no formato de bandas, dos dados complementares do balanço hídrico do
exemplo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3 Incertezas dos indicadores de desempenho de perdas de água, com base no método
Delta, IC e MMC com a distribuição normal para o exemplo de Vila Faia. . . . . . . . . . . 26
4.4 Incertezas para as componentes do balanço hídrico, com base no MMC com a distribui-
ção gama, para o exemplo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.5 Incertezas dos indicadores de desempenho de perdas de água, com base no MMC com
a distribuição gama, para o exemplo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . 30
4.6 Incertezas de algumas componentes do balanço hídrico para o caso da entidade #8. . . 30
4.7 Incertezas de algumas componentes do balanço hídrico para o caso da entidade #13. . . 30
4.8 Incertezas para as componentes do balanço hídrico, com base no MMC com a distribui-
ção triangular, para o exemplo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.9 Incertezas dos dados complementares, com base na distribuição triangular, para o exem-
plo de Vila Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.10 Incertezas dos indicadores de desempenho de perdas de água, com base no método
Delta e MMC com a distribuição triangular, para o exemplo de Vila Faia. . . . . . . . . . . 33
4.11 Incertezas de algumas componentes do balanço hídrico para o caso da entidade #8,
utilizando a distribuição triangular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1 Notação utilizada no SAX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.2 Matriz de confusão associada ao problema de classificação binária. . . . . . . . . . . . . 49
6.1 Medidas de desempenho nas 3 ZMC, utilizando os intervalos de previsão como método
de deteção de outliers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.2 Medidas de desempenho nas 3 ZMC, utilizando os intervalos de confiança como método
de deteção de outliers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
xiii
6.3 Medidas de desempenho nas 3 ZMC, utilizando os intervalos de previsão e de confiança
combinados como método de deteção de outliers. . . . . . . . . . . . . . . . . . . . . . . 58
6.4 Clusters relativos aos meses, no cluster 1. . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.5 Clusters relativos aos meses, no cluster 2. . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.6 Clusters relativos aos meses, no cluster 3. . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.7 Sensibilidade do método Twitter e do método de Tukey no grupo 1. . . . . . . . . . . . . . 67
6.8 Precisão do método Twitter e do método de Tukey no grupo 1. . . . . . . . . . . . . . . . 67
6.9 Score F1 do método Twitter e do método de Tukey no grupo 1. . . . . . . . . . . . . . . . 68
6.10 Sensibilidade do método Twitter e do método de Tukey no grupo 3. . . . . . . . . . . . . . 68
6.11 Precisão do método Twitter e do método de Tukey no grupo 3. . . . . . . . . . . . . . . . 68
6.12 Score F1 do método Twitter e do método de Tukey no grupo 3. . . . . . . . . . . . . . . . 69
6.13 Sensibilidade do método baseado no SAX no grupo 1. . . . . . . . . . . . . . . . . . . . . 80
6.14 Precisão do método baseado no SAX no grupo 1. . . . . . . . . . . . . . . . . . . . . . . 80
6.15 Score F1 do método baseado no SAX no grupo 1. . . . . . . . . . . . . . . . . . . . . . . 81
6.16 Sensibilidade do método baseado no SAX no grupo 3. . . . . . . . . . . . . . . . . . . . . 81
6.17 Precisão do método baseado no SAX no grupo 3. . . . . . . . . . . . . . . . . . . . . . . 81
6.18 Score F1 do método baseado no SAX no grupo 3. . . . . . . . . . . . . . . . . . . . . . . 82
A.1 Componentes do balanço hídrico com o exemplo do município de Vila Faia. . . . . . . . . 91
A.2 Continuação das componentes do balanço hídrico com o exemplo do município de Vila
Faia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
B.1 Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de
deteção de outliers, no cluster 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
B.2 Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de
deteção de outliers, no cluster 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
B.3 Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de
deteção de outliers, no cluster 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
B.4 Sensibilidade do método Twitter e do método de Tukey no grupo 2. . . . . . . . . . . . . . 94
B.5 Precisão do método Twitter e do método de Tukey no grupo 2. . . . . . . . . . . . . . . . 95
B.6 Score F1 do método Twitter e do método de Tukey no grupo 2. . . . . . . . . . . . . . . . 95
B.7 Sensibilidade do método baseado no SAX no grupo 2. . . . . . . . . . . . . . . . . . . . . 99
B.8 Precisão do método baseado no SAX no grupo 2. . . . . . . . . . . . . . . . . . . . . . . 99
B.9 Score F1 do método baseado no SAX no grupo 2. . . . . . . . . . . . . . . . . . . . . . . 100
B.10 Valores δ na aplicação do método SAX com a padronização 2 ao cluster 1. . . . . . . . . 100
B.11 Valores δ na aplicação do método SAX com a padronização 2 ao cluster 2. . . . . . . . . 100
B.12 Valores δ na aplicação do método SAX com a padronização 2 ao cluster 3. . . . . . . . . 100
xiv
Capítulo 1
Introdução
Os sistemas de abastecimento de água encontram-se divididos em subsistemas, nos quais são con-
trolados os fluxos de água, através de medições efetuadas com recurso a medidores de fluxo. Deste
modo, a cada medidor de fluxo está associada uma zona de medição controlada (ZMC). A divisão em
subsistemas permite uma melhor gestão operacional, uma vez que é possível fazer uma melhor moni-
torização das perdas de água e dos consumos atípicos em cada subsistema, utilizando-se para tal os
dados recolhidos e as estimativas realizadas para os consumos.
Com o crescimento da população em zonas urbanas, as alterações climáticas e a crescente escas-
sez de água, a importância de uma melhor monitorização destas zonas torna-se elevada. Deste modo,
o controlo das perdas de água torna-se uma questão essencial, de modo a permitir a existência de água
suficiente com qualidade.
Contudo, em Portugal, a percentagem de água não faturada, relativamente ao total de água entrada
nos sistemas, é bastante elevada (cerca de 31%, segundo um estudo anual, publicado em 2014, reali-
zado pela ERSAR – Entidade Reguladora dos Serviços de Água e Resíduos), tendo efeitos diretos na
sustentabilidade económica, financeira e ambiental das entidades gestoras. Na primeira edição do pro-
jeto iPerdas – Iniciativa Nacional para a Gestão Eficiente de Perdas, que ocorreu em 2014, verificou-se
que, nas entidades gestoras de água participantes, a percentagem de água não faturada era de cerca
de 25.6% do total de água entrada nos sistemas. A água não faturada pode ser dividida em três par-
celas: o consumo autorizado não faturado, as perdas aparentes (que correspondem ao consumo não
autorizado e a erros de medição) e as perdas reais (relativas a perdas físicas nas condutas, devidas a
ruturas e vazamentos), sendo esta última parcela a mais representativa de entre as três.
Duas formas diferentes podem ser utilizadas para estimar as perdas de água. Por um lado, através
do balanço hídrico, onde se utiliza os valores de água entrada no sistema e dos consumos autorizados
para estimar este valor, ou seja, as perdas de água são estimadas através de uma abordagem top-
down, sendo necessário associar uma incerteza a este valor estimado, dadas as incertezas associadas
a algumas das medições e estimativas dos consumos. Por outro lado, através da deteção de eventos
anómalos, também designados de outliers, nas séries temporais de caudal é possível estimar os valores
de perdas de água associados a fugas em condutas e ramais e, simultaneamente, diminuir a incerteza
associada a esta componente das perdas de água. Estas duas abordagens, ou seja, a propagação de
incertezas no cálculo do balanço hídrico e a deteção de outliers em séries temporais de caudal, serão
estudadas na presente dissertação como dois assuntos distintos e independentes.
1
1.1 Motivação
No caso do balanço hídrico, pretende-se quantificar as perdas de água, através da análise da água
entrada no sistema, dos consumos medidos e não medidos autorizados, entre outros. Contudo, para o
cálculo de alguns destes consumos, como os não medidos, é necessário realizar estimativas e, por isso,
os valores calculados no balanço hídrico não podem ser considerados por si só, uma vez que existem
incertezas associadas. Também no caso dos consumos medidos é necessário associar incertezas,
neste caso relativas aos equipamentos de medição, à leitura manual ou automática e à transferência
e processamento de dados. Assim, dado que é necessário efetuar cálculos com os dados obtidos de
modo a obter os valores de todas as componentes do balanço hídrico, tal como as perdas de água,
torna-se necessário estudar a propagação das incertezas ao longo dos cálculos efetuados, sendo este
um dos principais objetivos desta tese. Além disso, as componentes do balanço hídrico são utilizadas
para o cálculo de indicadores de perdas de água, cujo principal objetivo é a ajuda à tomada de decisões
sobre o que deve ser melhorado no balanço hídrico. Deste modo, a associação da incerteza a cada um
destes indicadores permite também saber quais os mais fiáveis para este efeito.
Uma das componentes mais relevantes das perdas de água são as perdas reais que, além de
perdas de base, incluem ainda as perdas por fugas e roturas reportadas e as perdas por fugas e
roturas passíveis de identificação através de deteção ativa de fugas. Pelo seu impacto, em termos
de volume associado e de consequências para o bom funcionamento dos sistemas, esta tese incidirá
também sobre a exploração de métodos para a deteção de roturas, ou seja, métodos para a deteção dos
picos de consumos verificados nas séries temporais de caudal, de modo a que estes sejam detetados
o mais precocemente possível. Estes eventos anómalos constituem outliers nas séries temporais de
caudal, contudo a sua origem poderá não ser apenas as fugas e vazamentos de água em condutas
e ramais, por deterioração das infraestruturas. Os problemas nas medições, que aparecem na forma
de valores extremos isolados ou longos períodos com medições contantes, também são considerados
como outliers, apesar de, em princípio, a sua deteção ser mais fácil. Também os consumos anormais
ou a inexistência de consumo, devidos a mudanças nas populações e no seu uso da água, constituem
outliers nestas séries. Existe ainda a possibilidade de estes serem devidos a manutenções nas válvulas
e bombas existentes na rede de distribuição. Na deteção de outliers que será realizada, a origem
dos outliers não será tida em consideração, ou seja, os métodos são construídos para a deteção de
qualquer evento anómalo, sendo necessária a presença humana para a identificação da sua origem.
Contudo, as séries temporais relativas a consumos de água apresentam algumas características que é
necessário tomar em consideração: sazonalidades diária e semanal, além de tendências ao longo do
ano, por exemplo. Dadas estas particularidades, torna-se necessário estudar métodos de deteção de
observações atípicas, ou seja, outliers, que tenham em consideração estes fatores, sendo este também
um dos principais objetivos da realização da presente dissertação.
1.2 Estrutura da tese
Esta dissertação estrutura-se como se descreve de seguida. No capítulo 2, é apresentado o estado de
arte relativo ao cálculo da propagação de incertezas e aos métodos de deteção de outliers. O capítulo 3
incide sobre métodos de propagação de incertezas, sendo as formulações teóricas de todos os métodos
estudados apresentadas nas secções de 3.3 a 3.4. Os resultados referentes a este tópico encontram-se
no capítulo 4. No capítulo 5, são apresentados todos os conceitos e métodos utilizados para a deteção
de outliers, sendo que, no capítulo 6, se encontram apresentados e discutidos os resultados obtidos. No
capítulo 7, encontram-se as principais conclusões retiradas dos estudos efetuados, tal como sugestões
de trabalho futuro.
2
Capítulo 2
Estado de arte
2.1 Propagação de incertezas no balanço hídrico e nos
indicadores de perdas de água
O estudo da propagação de incertezas é muito frequentemente associado a modelos, à estimação dos
seus parâmetros e a previsões realizadas, inclusive com o objetivo de ajudar a tomar decisões em áreas
como a hidrologia [Lee et al. (2000); Li et al. (2013)].
Contudo, em relação ao estudo da propagação de incertezas em cálculos que se baseiam apenas
em operações definidas, é possível de encontrar na literatura dois métodos: o método Delta, baseado
em séries de Taylor e que permite aproximar a variância de uma função de diversas variáveis numa
soma linear de variâncias [Bell (2001); Yegnan et al. (2002); Henriques et al. (2006); Refsgaard et al.
(2007); Coleman e Steele (2009); Babic et al. (2014)], e as simulações de Monte Carlo, baseadas na
realização de simulações a partir da definição de uma função densidade de probabilidade para cada
variável [Yegnan et al. (2002); Refsgaard et al. (2007); Coleman e Steele (2009)]. Apesar disso, apenas
é possível encontrar aplicações ao cálculo do balanço hídrico relativas ao primeiro destes métodos [Ale-
gre et al. (2005); Babic et al. (2014)]. Inclusive, este é o método utilizado para acreditação europeia [EA
(2013)]. É ainda possível encontrar um método com aplicações ao cálculo do balanço hídrico, baseado
numa distribuição normal, suposição para a qual não existe verificação, e no EQM (Erro Quadrático
Médio) [Liemberger e McKenzie (2003); Taylor et al. (2008); Thornton et al. (2008); Lambert (2010)].
Todos estes métodos permitem estimar a incerteza, conhecer a confiança sobre cada componente,
tomar decisões baseadas nas componentes e indicadores com menor incerteza e planear ações no
sentido de vir a reduzir a incerteza sobre certas componentes, em particular todas aquelas que não são
medidas. Alguns destes valores acrescentados do estudo das incertezas são mencionados em Sattary
et al. (2002) e Thornton et al. (2008).
Contudo, todos os métodos referidos têm por base um único valor para a incerteza, podendo não
se verificar tal facto no caso do balanço hídrico, uma vez que, em Alegre et al. (2004), Baptista et al.
(2005) e Alegre et al. (2005), se propõe a utilização de bandas de incerteza para a definição desta neste
contexto. Assim, nesta dissertação, o método Delta e as simulações de Monte Carlo serão adaptados
para a utilização de bandas de incerteza. Além disso, um novo método de propagação de incertezas
com aplicação exclusiva ao caso das bandas de incerteza será construído.
3
2.2 Deteção de outliers em séries temporais de caudal
Dada a dependência temporal que existe nas séries temporais, para a deteção de outliers nestas séries,
nem sempre é possível utilizar os métodos de deteção de outliers que existem para bases de dados
em que não existe esta dependência temporal. Além disso, em Alvisi et al. (2007) e Mamade (2013),
verificou-se que as séries temporais de caudal possuem duas sazonalidades: diária e semanal. Dadas
as características particulares das séries temporais, vários métodos de deteção de outliers surgiram,
baseando-se em modelos específicos para séries temporais, como os AR e os ARIMA [Chen e Liu
(1993); Kaiser e Maravall (1999); Marek (2014)]. Nestes casos, usualmente, são utilizados os resíduos
do modelo para a deteção das observações atípicas. Por vezes, tal como em Hyndman (2015), procede-
se apenas à decomposição da série temporal nas tendência e sazonalidade e aplica-se o método de
Tukey, baseado na amplitude inter-quartil, aos resíduos. Contudo, em Barrela (2015), verificou-se que o
modelo TBATS, apresentado em De Livera et al. (2011), e uma modificação da abordagem de Quevedo
et al. (2010) modelavam ainda melhor as séries temporais resultantes de consumos de água. Contudo,
não existe bibliografia sobre a utilização deste modelo para deteção de outliers, apesar de ser um bom
método de preenchimento de falhas em séries temporais de caudal.
Em Verbesselt et al. (2010a) e Verbesselt et al. (2010b), procura-se encontrar instantes em que
ocorrem mudanças na tendência, na sazonalidade e nas restantes componentes de uma série temporal,
considerando-se estes pontos como outliers. Estes métodos têm por base a deteção de breakpoints, tal
como descrito em Bai (1997) e Bai e Perron (2003). Contudo, aquando da tentativa de aplicação destes
métodos a séries temporais de caudal, verificou-se que as alterações existentes nestas séries não são
suficientemente significativas para serem detetadas, além do peso computacional inerente à aplicação
destes métodos.
Em Rosner (1983), é apresentada uma generalização do teste do desvio studentizado extremo,
também conhecido por teste de Grubbs para outliers e descrito em Grubbs (1950), com o objetivo de
detetar um número máximo de outliers, indicado a priori, e tendo por base a suposição de se estar
perante uma população normal. Contudo, os estimadores de localização e de dispersão utilizados são
a média e o desvio-padrão, respetivamente. Uma vez que estes não são robustos na presença de
observações extremas, em Vallis et al. (2014), é proposta a utilização deste teste, após uma partição
e decomposição da série temporal, substituindo estes estimadores pela mediana e pelo MAD. Nesta
dissertação, analisa-se uma adaptação do procedimento seguido em Vallis et al. (2014) com base em
estimadores robustos mais eficientes que a mediana e o MAD.
O método de Tukey para deteção de outliers, descrito em Tukey (1977), propõe a utilização da ampli-
tude inter-quartil para a definição das observações consideradas extremas e muito extremas. Contudo,
a sua aplicação a séries temporais de caudal, que possuem sazonalidade, não permite uma deteção
correta, uma vez que existem diferenças, por exemplo, entre os consumos de água durante a noite e
ao início da manhã. Deste modo, considerando os instantes de tempo anteriores para a deteção de ou-
tliers nas primeiras horas da manhã, concluir-se-ia que, dados os baixos consumos registados durante
a noite, os valores da manhã seriam atípicos, mesmo não o sendo para aqueles instantes de tempo.
Alguns métodos recentes para a deteção de outliers em séries de caudal foram propostos em Loureiro
et al. (2016), Mamade (2013) e Barrela (2015), mas, nestes casos, os padrões de consumos são tidos
em consideração.
O SAX (Symbolic Aggregate approXimation), apresentado em Lin et al. (2007), resulta da represen-
tação simbólica de uma aproximação agregada por partes (PAA – Piecewise Aggregate Approximation),
através da utilização de letras. Em Lin et al. (2007), Lin e Li (2009) e Lin et al. (2012), é apresentado
este método, sendo estudada a sua aplicação a análises de clusters e a classificação. Contudo, o
estudo relativo a deteção de outliers, apesar de ser mencionado, não é desenvolvido em Lin e Li (2009)
4
nem em Lin et al. (2012). No caso de Lin et al. (2007), é feita referência a um método de deteção de
outliers baseado em modelos de Markov e em árvores de sufixos.
No caso concreto de séries de caudal, os métodos mencionados poderão permitir a deteção de
grandes roturas de água, mas tornam-se inapropriados para a deteção de pequenas fugas na rede,
sendo que, para este efeito, no caso de zonas residenciais, dever-se-á fazer monitorização dos míni-
mos noturnos [Farley e Trow (2003); Puust et al. (2010)], ou seja, do menor fluxo fornecido para uma
área durante o período noturno (entre a meia-noite e as 5 da manhã [Loureiro (2010)]). Contudo, para
uma melhor deteção de outliers é necessário utilizar os dados históricos, uma vez que são estes que
permitem detetar os comportamentos típicos de cada zona e que, desta forma, poderão permitir distin-
guir as diferentes fontes dos outliers. Todavia, alguns dos métodos existentes não permitem a utilização
de muitos dados históricos.
Deste modo, na presente dissertação, propõem-se diferentes métodos que têm em consideração
não só as características destas séries, mas também os dados históricos. Os procedimentos propostos
baseiam-se no teste do desvio studentizado extremo generalizado [Rosner (1983)], no método de Tukey
[Tukey (1977)] e no SAX [Lin et al. (2007)].
5
6
Capítulo 3
Metodologia para a propagação de
incertezas no balanço hídrico e nos
indicadores de perdas de água
Neste capítulo, pretende-se apresentar a metodologia utilizada para o estudo da primeira questão so-
bre a qual incide esta dissertação: a propagação de incertezas no cálculo do balanço hídrico e dos
indicadores de perdas de água. Para tal, começar-se-á por apresentar, na secção 3.1, os conceitos
teóricos sobre incertezas necessários a este estudo. Na secção 3.2, descrevem-se as componentes do
balanço hídrico, assim como os indicadores de desempenho de perdas de água, pertinentes para este
trabalho. Serão estudados dois formatos para a indicação das incertezas das componentes a introduzir
no balanço hídrico: (i) através de bandas (secção 3.3); (ii) e através da indicação de valores mínimos e
máximos para as componentes (secção 3.4).
3.1 Conceitos teóricos
Uma medição permite ficar a conhecer uma propriedade de alguma coisa, por exemplo, quão quente
ou quão longo é um determinado objeto. Contudo, aquando da avaliação dessa medida, podem ocorrer
alguns erros, o que leva a que seja necessário associar a cada medição uma incerteza, sendo esta,
por definição, a dúvida que existe em relação ao resultado da medição efetuada. Além disso, é preciso
ter em consideração a diferença entre erro e incerteza. O primeiro é definido como a diferença entre o
valor medido e o “verdadeiro valor” do que se está a medir, enquanto que a incerteza é a quantificação
da dúvida que existe sobre o valor medido.
As fontes de incerteza são variadas, desde as incertezas associadas ao instrumento utilizado ou à
pessoa responsável pela medição até às influências do próprio ambiente onde esta é realizada. Con-
tudo, existem duas formas de incerteza:
• aleatória: quando diferentes medições levam a diferentes resultados;
• sistemática: quando ocorre sempre a mesma influência nas várias medições efetuadas. Neste
caso, a realização de mais medições não permite identificar o problema.
A análise da propagação das incertezas baseia-se em probabilidades, no sentido em que é asso-
ciada uma variável aleatória a cada medição que se pretende efetuar. Assim, por exemplo, poderá ser
possível atribuir uma função de distribuição de probabilidade a cada variável aleatória, que permitirá
7
saber qual a probabilidade daquela medição se encontrar dentro de um certo intervalo. No caso de se
poderem efetuar repetidas medições de uma mesma variável, ou seja, no caso de se poder ter uma
amostra da variável, esta poderá ser utilizada para retirar alguma informação sobre a incerteza desta
medição, através da avaliação do quão dispersos se encontram os resultados obtidos. A forma mais
usual para medir essa dispersão é o desvio padrão amostral, denotado usualmente por s, que dá uma
indicação do quão afastados os valores individuais obtidos estão do valor médio e que, considerando
um conjunto de n observações de uma variável X, pode ser expresso matematicamente por:
s =
√∑ni=1(xi − x)2
n− 1, (3.1)
onde xi representa a i-ésima medição e x a média dos n resultados. Assim, tomando o valor do desvio
padrão como a incerteza da medição, obtém-se a incerteza padrão. Deste modo e com base nas
medições (x1, x2, . . . , xn), X toma o valor x com uma incerteza de s, ou seja, tem-se x± s.Contudo, em geral, o objetivo de algumas medições, nomeadamente na física e na química, é o
seu uso subsequente em algumas fórmulas para se obter valores que não podem ser medidos direta-
mente. Assim, as incertezas das medições são propagadas (de alguma forma) para o resultado final
da fórmula. Contudo, por vezes, as fórmulas utilizadas não permitem o cálculo do desvio padrão de
forma analítica. Considerando apenas duas variáveis aleatórias X e Y , que poderão representar duas
diferentes medições, e supondo que existem todos os momentos necessários, veja-se, de seguida, o
que acontece à variância do produto e do quociente.
Como
V ar(X) = E[X2]− E[X]2, (3.2)
Cov(X2, Y 2) = E[X2Y 2]− E[X2]E[Y 2] e (3.3)
E[XY ] = Cov(X,Y ) + E[X]E[Y ] (3.4)
então
V ar(XY ) = E[(XY )2]− E[XY ]2 = E[X2Y 2]− E[XY ]2 e (3.5)
E[XY ]2 = (Cov(X,Y ) + E[X]E[Y ])2. (3.6)
Assim,
V ar(XY ) = Cov(X2, Y 2) + E[X2]E[Y 2]− (Cov(X,Y ) + E[X]E[Y ])2 (3.7)
= Cov(X2, Y 2) + (V ar(X) + E[X]2)(V ar(Y ) + E[Y ]2)− (Cov(X,Y ) + E[X]E[Y ])2. (3.8)
No caso de se ter X e Y variáveis aleatórias independentes, pode-se simplificar esta fórmula e
obtém-se:
V ar(XY ) = (V ar(X) + E[X]2)(V ar(Y ) + E[Y ]2)− E[X]2E[Y ]2
= V ar(X)V ar(Y ) + V ar(X)E[Y ]2 + E[X]2V ar(Y ). (3.9)
Utilizando o resultado da variância do produto de duas variáveis aleatórias não necessariamente
independentes, pode-se concluir que:
8
V ar
(X
Y
)= Cov
(X2,
1
Y 2
)+ E[X2]E
[1
Y 2
]−(Cov
(X,
1
Y
)+ E[X]E
[1
Y
])2
= Cov
(X2,
1
Y 2
)+(V ar(X) + E[X]2
)(V ar
(1
Y
)+ E
[1
Y
]2)
−(Cov
(X,
1
Y
)+ E[X]E
[1
Y
])2
. (3.10)
Com estes resultados para funções simples de apenas duas variáveis, pode-se concluir que, quando
se aumentar a complexidade das expressões e o número de variáveis envolvido, nem sempre será
possível encontrar uma forma analítica para determinar a sua variância e, consequentemente, obter
a incerteza do valor da fórmula através do desvio padrão. Assim, será necessário recorrer a outros
métodos para estimar a variância.
3.2 Balanço hídrico e indicadores de perdas de água
O balanço hídrico realizado por entidades gestoras de água, e que se sugere que seja efetuado anu-
almente [Alegre et al. (2005)], consiste numa representação matemática das várias entradas e saídas
de água num sistema de abastecimento. O seu principal objetivo centra-se na subsequente análise das
perdas de água sendo, por vezes, este o único método que as entidades possuem para a contabilização
deste valor. Assim, durante a realização do balanço hídrico anual, pretende-se preencher um quadro
como o apresentado na tabela 3.1, de modo a calcular-se a partir deste os indicadores de desempenho
de perdas de água definidos na tabela 3.3, onde se utiliza a notação definida na tabela 3.2. Algumas das
componentes do balanço hídrico presentes na tabela 3.1 resultam de cálculos efetuados com base nas
componentes presentes nas tabelas A.1 e A.2 da secção A dos Anexos, onde se apresenta o balanço
hídrico completo, preenchido com um exemplo que será utilizado no capítulo 4. Nesta mesma secção
dos Anexos, encontra-se ainda explicado o modo de cálculo das diversas componentes presentes no
quadro da tabela 3.1 e, consequentemente, as componentes presentes na tabela 3.2. De salientar
que, aquando do cálculo do indicador financeiro água não faturada em termos de volume, considera-se
como água entrada no sistema o valor da componente de água entrada no sistema subtraído do valor
de água transferida para outros sistemas da mesma entidade gestora (como parte do consumo não
faturado medido) e como água não faturada a soma das seguintes parcelas: perdas de água, consumo
não faturado medido (distribuição direta), consumo não faturado medido (água transferida para outras
entidades gestoras) e consumo não faturado não medido.
Além de nem sempre existirem medições em todos os pontos de consumo, mesmo quando estas
existem (permitindo obter alguns dos dados necessários para o cálculo do balanço hídrico) não são
totalmente fiáveis, devido, por exemplo, às falhas que ocorrem nas leituras e aos próprios equipamentos
utilizados para as medições. Assim, torna-se necessário saber qual a incerteza associada a cada
uma das medições e estimativas utilizadas e aos subsequentes cálculos executados utilizando estes
mesmos valores e que, consequentemente, são apenas aproximados.
Dado que não é possível executar várias medições para cada uma das componentes do balanço hí-
drico e, portanto, não se pode considerar o seu desvio padrão amostral como a incerteza das mesmas,
utiliza-se uma classificação em bandas recomendada pelo IWA e pela ERSAR [Alegre et al. (2004);
Baptista et al. (2005)] e que se reproduz na tabela 3.4. Estas bandas são bandas da incerteza relativa
associada a cada medição.
A impossibilidade da realização de várias medições para cada uma das componentes do balanço
9
hídrico e a consequente falta de uma amostra para cada uma delas, torna também impossível a utili-
zação de métodos de reamostragem, como o bootstrap e o jacknife, para o estudo da propagação de
incertezas.
Contudo, é ainda sugerido em Alegre et al. (2005) que seja indicada a fiabilidade da fonte de in-
formação, que deverá refletir a confiança que se tem na fonte fornecedora dos dados. A classificação
sugerida é reproduzida na tabela 3.5.
Tabela 3.1: Componentes do balanço hídrico (retirado de Alegre et al. (2005) e definido de acordo com IWA)
Água entradano sistema[m3/ano]
Consumoautorizado[m3/ano]
Consumoautorizadofaturado[m3/ano]
Consumo faturadomedido (incluindoágua exportada)
[m3/ano] Águafaturada[m3/ano]
Consumo faturadonão medido
[m3/ano]
Consumoautorizado
não faturado[m3/ano]
Consumo nãofaturado medido
[m3/ano]
Água nãofaturada[m3/ano]
Consumo não faturadonão medido
[m3/ano]
Perdas deágua
[m3/ano]
Perdasaparentes[m3/ano]
Uso não autorizado[m3/ano]
Erros de medição[m3/ano]
Perdas reais[m3/ano]
Fugas nas condutas deadução e/ou distribuição
[m3/ano]Fugas e extravasamentos
nos reservatórios deadução e/oudistribuição
[m3/ano]Fugas nos ramais
[m3/ano]Perdas reais nas condutas
de água bruta e nas estaçõesde tratamento de água
[m3/ano]
3.3 Métodos de determinação da propagação de incerteza
baseados em bandas de incerteza
Os métodos que serão apresentados nesta secção, que se baseiam na indicação de uma banda de
incerteza (limite superior e inferior) para cada uma das componentes do balanço hídrico, são gerais,
podendo ser aplicados a outras áreas, que não apenas o balanço hídrico e os indicadores de perdas
de água.
Como referido atrás, em probabilidades e estatística, a incerteza é, em geral, quantificada em termos
da raiz quadrada da variância (desvio padrão) associada à variável aleatória (v.a.) de interesse. Quando
a v.a. de interesse é função de outras variáveis, a incerteza final depende da incerteza de cada variável
per si. A este fenómeno designa-se propagação de incerteza (ou de erro).
Existem vários métodos para a determinação da propagação da incerteza e estes dependem não só
da natureza da função que descreve a relação entre a variável de interesse e as outras variáveis, mas
também dos constrangimentos associados à modelação do problema real.
10
Tabela 3.2: Notação para a definição dos indicadores de desempenho de perdas de água
Notação DescriçãoA3 Água entrada no sistemaA5 Água exportada faturadaA7 Água exportada não faturadaA8 Consumo faturado medido
A11 Consumo não faturado medidoA13 Consumo autorizado não faturadoA15 Perdas de águaA18 Perdas aparentesA19 Perdas reais (1)A21 Água não faturadaC8 Comprimento de condutas
C24 Número de ramaisC25 Comprimento médio dos ramais prediaisD34 Pressão média de operação (kPa)G5 Custos correntes
G57 Tarifa média para consumidores diretosG58 Custo unitário assumido das perdas reais
H2 Tempo de pressurização do sistema
Tabela 3.3: Indicadores de desempenho de perdas de água (retirado de Alegre et al. (2005))
Nome Notação Definição
Indicadores de recursos hídricos
Ineficiência na utilização dos recursos hídricos WR1 A19A3 × 100
Indicadores operacionais
Perdas de água por ramal Op23 (A15×365)/H1C24
Perdas de água por comprimento de conduta Op24 A15/365C8
Perdas aparentes por volume de água entrada no sistema Op26 A18A3 × 100
Perdas aparentes Op25 A18A3−A5−A7 × 100
Perdas reais por comprimento de conduta Op28 A19C8×H2×365/24
Perdas reais por ramal Op27 A19×1000/365C24×H2/24
Índice infra-estrutural de perdas Op29Op27
18×C8/C24+0.8+0.025×C25D34/10
Água não medida Op39 A3−A8−A11A3 × 100
Indicadores financeiros
Água não faturada em termos de volume Fi46 A21A3 × 100
Água não faturada em termos de custo Fi47 (A13+A18)×G57+A19×G58G5 × 100
Tabela 3.4: Bandas de incerteza dos dados (retirado de Alegre et al. (2005))
Banda de incerteza dosdados
Erro associado ao dado fornecido
0 - 5% Melhor ou igual a ±5%
5 - 20% Pior do que ±5%, mas melhor que ou igual a ±20%
20 - 50% Pior do que ±20%, mas melhor que ou igual a ±50%
50 - 100% Pior do que ±50%, mas melhor que ou igual a ±100%
100 - 300% Pior do que ±100%, mas melhor que ou igual a ±300%
> 300% Pior do que ±300%
11
Tabela 3.5: Banda de fiabilidade da fonte de informação (retirado de Alegre et al. (2005))
Banda de fiabilidade dafonte de informação
Conceito associado
? ? ?
Dados baseados em medições exaustivas, registos fidedignos, proce-dimentos, investigações ou análises adequadamente documentadas ereconhecidas como o melhor método de cálculo.
??Genericamente como a anterior, mas com algumas falhas não significa-tivas nos dados.
?Dados baseados em estimativas ou extrapolação a partir de uma amos-tra limitada.
3.3.1 Método Delta
Seja Y = f(X1, X2, . . . , Xp), onde f é uma função diferenciável das variáveis aleatórias Xi para i ∈{1, 2, . . . , p}. Quando Y não é uma combinação linear das p variáveis aleatórias, obter a sua variância
não é um procedimento simples. Uma alternativa nesta situação é o método Delta, que se baseia na
linearização da função f utilizando a série de Taylor. Assim,
V ar(Y ) ≈p∑i=1
(∂f
∂Xi
)2
V ar(Xi) +
p∑i=1
∑j 6=i
(∂f
∂Xi
)(∂f
∂Xj
)Cov(Xi, Xj) (3.11)
e, consequentemente, pode-se obter uma aproximação do desvio padrão da v.a. Y , ou seja, da incer-
teza padrão associada a este valor.
Quando se pode assumir que as variáveis são independentes (hipótese que, em geral, segundo
Alegre et al. (2005), se aplica ao caso em estudo), (3.11) simplifica-se e:
V ar(Y ) ≈p∑i=1
(∂f
∂Xi
)2
V ar(Xi). (3.12)
Esta aproximação é utilizada no Guide to the expression of uncertainty in measurement (GUM)
[BIPM et al. (2008)] para se obter a incerteza padrão da variável Y , dada pela raiz quadrada positiva da
variância de Y .
O valor da estimativa de Y , denotado por y, é calculado por:
y = f(x1, x2, . . . , xp). (3.13)
Daqui em diante, designa-se por incerteza absoluta de uma variável a incerteza padrão (dada pelo
desvio padrão) e por incerteza relativa o quociente entre o desvio padrão e o valor médio dessa mesma
variável, ou seja, considerando a variável aleatória X com variância σ2X e valor médio E[X], então σX é
a incerteza absoluta da variável X eσXE[X]
é a incerteza relativa (também conhecido como coeficiente
de variação).
Considere-se A e B variáveis aleatórias independentes com incerteza absoluta σA e σB , respeti-
vamente, e valores médios E[A] e E[B]. Considere-se ainda C uma variável aleatória com incerteza
absoluta σC e valor médio E[C]. Veja-se como é que ocorre a propagação da incerteza de algumas
funções básicas.
No caso da soma e da subtração, tem-se que:
Soma
Considerando C = A+B,
σ2C = σ2
A + σ2B ; (3.14)
12
Substração
Considerando C = A−B,
σ2C = σ2
A + σ2B . (3.15)
No caso do produto e do quociente, utilizando (3.12), tem-se que:
Produto
Considerando C = AB, (σCE[C]
)2
≈(σAE[A]
)2
+
(σBE[B]
)2
; (3.16)
Quociente
Considerando C =A
B,
σ2C ≈
1
E[B]2
(σ2A +
(E[A]
E[B]
)2
σ2B
). (3.17)
Quando os valores das quantidades de entrada no modelo de medição são introduzidos em termos
de incertezas padrão por bandas, i.e, por um valor inferior e um valor superior, cada um destes valores
é utilizado para obter uma estimativa da incerteza final. O resultado obtido é também um limite inferior
e um limite superior, ou seja, um intervalo. No entanto, a estes intervalos não está associado nenhum
grau de confiança. Assim, de seguida, propõe-se a construção de intervalos de confiança para as
incertezas propagadas.
3.3.2 Intervalos de confiança
O objetivo agora será construir um intervalo de confiança (IC) para a incerteza absoluta (ou relativa)
associada a variáveis dadas pela forma Y = f(X1, X2, . . . , Xp), onde Xi, para todo o i ∈ {1, 2, . . . , p},são variáveis aleatórias independentes – sendo esta uma hipótese que, tal como referido anteriormente,
se aplica, em geral, ao caso em estudo – para as quais se conhece a banda de incerteza, tratando-se
esta da única informação que se tem sobre a sua incerteza. Assim, o mais natural será assumir que
estas seguem uma distribuição uniforme. Contudo, ao analisar-se a fórmula (3.12), que será utilizada
para calcular a propagação da incerteza, percebe-se que se terá de lidar com uma combinação linear
das incertezas absolutas de cada variável ao quadrado. Assim, propõe-se o procedimento que se
segue para a construção dos intervalos de confiança da incerteza associada à variável Y , ou seja, para
a construção dos intervalos de confiança para σ2Y ≈
∑pi=1
(∂f
∂Xi
)2
σ2i :
1. para cada variável Xi, i ∈ {1, . . . , p}, registar o seu valor observado xi e a sua banda de incerteza
relativa (ai − bi)% e, por conseguinte, calcular a banda de incerteza absoluta de Xi, dada por(aixi100 −
bixi100
);
2. assumir que a incerteza absoluta ao quadrado de Xi, σ2i , segue uma distribuição uniforme no
intervalo [(aixi100
)2,(bixi100
)2], ou seja, σ2
i ∼ U [(aixi100
)2,(bixi100
)2] e, consequentemente,
(∂f
∂Xi
)2
σ2i ∼ U
[(∂f
∂Xi
)2 (aixi100
)2,
(∂f
∂Xi
)2(bixi100
)2], (3.18)
uma vez que(∂f
∂Xi
)2
é uma constante.
13
Seguindo este procedimento, obtém-se uma soma finita de p variáveis uniformes independentes não
identicamente distribuídas, pelo que não é fácil a construção de IC para σ2Y . Para simplificar a dedução
do IC pretendido, vão-se considerar duas situações, a mais simples onde Y é apenas função de duas
(p = 2) variáveis Xi e uma mais geral para funções de Y com p ≥ 3 variáveis Xi.
Caso p = 2
Considere-se as variáveis aleatórias V e W independentes com distribuição uniforme em [aV , bV ] e
[aW , bW ], respetivamente, ou seja, V ∼ U [aV , bV ] e W ∼ U [aW , bW ] e Z = V +W . Então Z segue uma
distribuição trapezoidal com função densidade de probabilidade dada por:
fZ(z) =
uz − ab− a
se a ≤ z < b
u se b ≤ z < c
ud− zd− c
se c ≤ z ≤ d
0 caso contrário
(3.19)
onde:
• a = aV + aW ;
• b = 12 [aV + aW + bV + bW − |(bV − aV )− (bW − aW )|];
• c = 12 [aV + aW + bV + bW + |(bV − aV )− (bW − aW )|];
• d = bV + bW ;
• u = 2(c+ d− a− b)−1,
ou seja, Z ∼ Trapezoidal(a, b, c, d).
Assim, quando se tem Y = f(X1, X2), pode-se concluir que σ2Y ∼ Trapezoidal(a, b, c, d), sendo
σ2Y ≈
(∂f
∂X1
)2
σ21 +
(∂f
∂X2
)2
σ22 e a, b, c e d dados como anteriormente, onde aXi =
(∂f
∂Xi
)2 (aixi100
)2e bXi =
(∂f
∂Xi
)2(bixi100
)2
, para i ∈ {1, 2}. Deste modo, é possível calcular um intervalo de confiança
para a incerteza absoluta σY .
Caso p ≥ 3
Neste caso, comece-se por enunciar o teorema do limite central para variáveis independentes não
identicamente distribuídas:
Teorema do Limite Central (variáveis independentes não identicamente distribuídas): Sejam X1,
X2, . . ., Xp variáveis aleatórias independentes com E[Xi] = µi e V ar(Xi) = σ2i < ∞. Considere-se
Yi = Xi − µi, para i = 1, . . . , n, s2p = V ar(∑pi=1Xi) =
∑pi=1 σ
2i e Tp =
∑pi=1 Yi. Se:
• (condição de Lindeberg) para todo ε > 0,1
s2p
p∑i=1
E[Y 2i 1|Yi|>εsp ]
p→∞−→ 0 ou
• (condição de Lyapunov) existe δ > 0 tal que1
s2+δp
p∑i=1
E[|Yi|2+δ]p→∞−→ 0,
entãoTpsp
d−→ N(0, 1).
Contudo, é possível provar [Ash e Doléans-Dade (1999)] queTpsp
d−→ N(0, 1), se existir δ > 0 tal
que1
sp
(p∑i=1
E[|Yi − E[Yi]|2+δ]
) 12+δ
p→∞−→ 0, apesar de esta ser uma condição menos forte do que a
condição de Lyapunov.
14
Veja-se que a distribuição uniforme satisfaz esta condição mais fraca, começando por verificar que
se X é uma variável aleatória com uma distribuição uniforme em [a, b] e k é uma constante positiva,
então, definindo Y = kX, tem-se que E[|Y − E[Y ]|3] ≤ k3(b− a)2.
Supondo que b− a > 0 (caso contrário, é trivial), tem-se
E[|Y − E[Y ]|3] =
∫ kb
ka
|y − E[Y ]|3fY (y)dy (3.20)
=
∫ b
a
|kx− kE[X]|3fX(x)dx (3.21)
= k3∫ b
a
∣∣∣∣x− a+ b
2
∣∣∣∣3 1
b− adx, uma vez que k > 0 (3.22)
=k3
b− a
(∫ a+b2
a
(a+ b
2− x)3
dx+
∫ b
a+b2
(x− a+ b
2
)3
dx
)(3.23)
=k3
b− a
(∫ b−a2
0
z3dz +
∫ b−a2
0
z3dz
)(3.24)
=2k3
b− a
∫ b−a2
0
z3dz (3.25)
Considerando m = b−a2 , então:
E[|Y − E[Y ]|3] =k3
m
∫ m
0
z3dz =k3
m
m4
4(3.26)
=k3m3
4≤ k3(b− a)3 (3.27)
Sejam X1, . . . , Xp variáveis aleatórias tal que Xi tem distribuição uniforme no intervalo [ai, bi] e ki
constantes não negativas. Considere-se Yi = kiXi, mi = bi−ai2 e σ2
i =m2i
12 a variância de Xi. Então
V ar(Yi) = k2i σ2i . Além disso, considere-se L = limp→∞
(∑pi=1E[|Yi − E[Yi]|3]
) 13
(∑pi=1 k
2i σ
2i )
12
. Pode-se observar
que tanto o numerador como o denominador são positivos e, portanto, L é não negativo. Mostre-se
então que L ≤ 0 quando p tende para infinito.
L ≤ limp→∞
(∑pi=1 k
3im
3i
) 13(∑p
i=1 k2im2i
12
) 12
= limp→∞
√12 6
√√√√(∑pi=1 k
3im
3i
)2(∑pi=1 k
2im
2i )
3 (3.28)
= limp→∞
2√
3 6
√ ∑pi=1
∑pj=1(kikjmimj)
3∑pi=1
∑pj=1
∑pl=1(kikjklmimjml)2
(3.29)
Nesta última expressão, pode-se notar que os termos (kikjmimj)3 e (kikjklmimjml)
2 são da
mesma ordem. Contudo, no denominador, tem-se mais p termos do que no numerador e, portanto,
quando p tende para infinito, a fração tende para zero. Assim, provou-se que L = 0 quando p tende
para infinito. Conclui-se, por isso, que a distribuição uniforme verifica a condição de Lyapunov mais
fraca e, por conseguinte, tem-se que o teorema do limite central para variáveis independentes e não
identicamente distribuídas é válido para variáveis com esta distribuição.
Uma das propriedades da distribuição uniforme é a sua rápida convergência para a distribuição
normal. Pode-se mostrar que esta propriedade ainda é válida ao aplicar o teorema do limite central
15
para variáveis independentes não identicamente distribuídas. Este facto será a base para a construção
de intervalos de confiança quando se tem p ≥ 3.
Considere-se X ∼ U [a, b], então E[X] = a+b2 e V ar(X) = (b−a)2
12 . Deste modo,
E
[(∂f
∂Xi
)2
σ2i
]=
(∂f
∂Xi
)2 ((aixi100
)2+(bixi100
)2)2
, (3.30)
V ar
((∂f
∂Xi
)2
σ2i
)=
(∂f
∂Xi
)4 ((bixi100
)2 − (aixi100
)2)212
(3.31)
e, portanto,
Tpsp
=
p∑i=1
(∂f
∂Xi
)2
σ2i −
p∑i=1
1
2
(∂f
∂Xi
)2((aixi
100
)2+
(bixi100
)2)
√√√√ p∑i=1
1
12
(∂f
∂Xi
)4((
bixi100
)2
−(aixi
100
)2)2(3.32)
converge para uma distribuição N (0, 1). Deste modo, é possível obter um intervalo de confiança para
σ2Y ≈
∑pi=1
(∂f
∂Xi
)2
σ2i .
Uma vez que, no caso prático em estudo, o cálculo do balanço hídrico, as variáveis são utilizadas
de forma sucessiva para o cálculo de novas componentes, é necessário garantir que os intervalos de
confiança finais possuam o grau de confiança desejado. Com esse objetivo, utilizar-se-á a correção de
Bonferroni, que permitirá obter intervalos de confiança que possuem, pelo menos, o grau de confiança
pretendido.
3.3.3 O método de Monte Carlo para cálculo de incertezas
Uma forma alternativa de avaliar a incerteza de uma determinada medição, sem recorrer ao método
Delta, é através do método de Monte Carlo (MMC), sendo este método também apresentado como uma
possibilidade em BIPM et al. (2008). Como anteriormente, admite-se que se tem Y = f(X1, . . . , Xp)
com Xi independentes para todo o i ∈ {1, . . . , p}. O MMC propaga as funções de densidade de
probabilidade associadas às variáveis Xi e permite calcular uma estimativa da função densidade de
probabilidade de Y , a partir da qual se obtém a estimativa da incerteza final. O procedimento pode
sumariar-se nos seguintes passos:
• Passo 1: associar uma função densidade de probabilidade, gXi , a cada variávelXi, i ∈ {1, . . . , p};• Passo 2: realizar M simulações de cada uma das variáveis Xi, denotadas por xi1, xi2, . . . , xiM ,
∀i ∈ {1, . . . , p}, utilizando, para tal, as funções densidade de probabilidade gXi ;
• Passo 3: calcular yj = f(x1j , . . . , xpj), ∀j ∈ {1, . . . ,M};
• Passo 4: calcular y =1
M
M∑j=1
yj e s2Y =1
M − 1
M∑j=1
(yj − y)2.
Deste modo, sY =√s2Y dá uma estimativa da incerteza absoluta da variável Y e, consequente-
mente, é possível obter a estimativa da incerteza relativa desta medida. Contudo, uma vez que o
desvio padrão amostral não é um estimador robusto, optou-se por também utilizar o MAD (Median ab-
solute deviation), ajustado por um fator (3.33), e o IQR (Interquartile range) (3.34) como estimadores da
incerteza absoluta das variáveis no procedimento anterior.
16
1.4826×MAD = 1.4826×medianai(|yi −medianaj(yj)|), (3.33)
IQR = Q3 −Q1, (3.34)
onde medianaj(yj) representa a mediana de todas as observações yj , j = 1, . . . ,M e Q1 e Q3 re-
presentam, respetivamente, o 1º e o 3º quartis amostrais das observações yj , j = 1, . . . ,M . Assim,
aquando da avaliação dos resultados, poder-se-á comparar estes três estimadores e verificar qual o
que tem melhor desempenho.
Para a aplicação do método de Monte Carlo, apenas é necessário garantir que a função f é contínua
para cada Xi na proximidade da melhor estimativa xi de Xi, o que se verifica em todos os casos em
estudo.
No caso concreto do balanço hídrico, está-se perante um modelo multi-etapas, uma vez que os resul-
tados obtidos para algumas variáveis irão ser utilizados, de seguida, para o cálculo de novas variáveis.
Assim, neste caso, se se estiver perante uma variável Z = h(Y, Y1, . . . , Yk), onde Y = f(X1, . . . , Xp)
e, anteriormente, já tiverem sido realizadas simulações para as variáveis Xi, i ∈ {1, . . . , p}, devem ser
seguidas as seguintes etapas:
• fazer M simulações para as variáveis Yi, i ∈ {1, . . . , k}, usando o mesmo valor de M que foi
utilizado para as simulações de Xi, i ∈ {1, . . . , p};• calcular zj = h(yj , y1j , . . . , ykj), onde é utilizada a notação apresentada anteriormente.
Sendo assim, também neste caso, se obtém a estimativa da incerteza absoluta da variável Z, sem
serem realizadas simulações diretas para a variável Y .
O número de simulações M para se obter um grau de confiança nos resultados de 95%, segundo
Cox et al. (2001), será de, pelo menos, 50 000. Contudo, segundo BIPM et al. (2008), ter-se-á de
realizar, pelo menos, 11−p × 104 simulações, o que, para um grau de confiança p = 0.95, significa 200
000 simulações. Dada a discrepância destes valores, os dois valores para M serão utilizados de modo
a comparar os resultados.
Distribuição Normal
Inicialmente, para a aplicação do MMC ao balanço hídrico e dada a falta de informação sobre as dis-
tribuições de cada uma das variáveis, assumir-se-á uma distribuição normal, com valor médio estimado
pelo valor mais provável indicado pela entidade gestora (moda) e a estimativa da variância calculada da
seguinte forma: dada a gama de incerteza relativa (a−b)% indicada para uma variável, calcula-se o qua-
drado da incerteza absoluta para cada um dos limites((
a100 ×moda
)2e(b
100 ×moda)2)
, assumindo-
se cada um destes valores para a variância. Assim, como se obtêm duas distribuições diferentes para
cada variável (com o mesmo valor médio, mas variâncias diferentes), aplica-se o método de Monte
Carlo separadamente.
Ainda considerando a distribuição normal, estudar-se-á a possibilidade de aplicar esta distribuição
com valor médio dado pelo logaritmo do valor indicado pela entidade gestora, log(moda), e variância
calculada do mesmo modo que anteriormente. Esta opção foi considerada, uma vez que, em geral, as
séries de consumos apresentam uma distribuição aproximadamente log-normal [Loureiro (2010)].
Distribuição Normal Truncada
Tipicamente, todas as variáveis presentes no balanço hídrico são não negativas, pelo que assumir-
se-á também uma distribuição normal truncada para cada variável, com limite inferior igual a zero e com
valor médio e variância, antes da truncagem, definidos tal como no caso anterior.
17
Distribuição Log-Normal
Dada a grandeza dos valores introduzidos como mais prováveis na maioria das variáveis do balanço
hídrico, optar-se-á ainda por assumir que estas seguem uma distribuição log-normal.
Contudo, neste caso, o valor médio e o valor mais provável não coincidem. Se X ∼ N (µ, σ2),
então Y = exp(X) ∼ logN (µ, σ2) e E[Y ] = eµ+σ2
2 , Moda(Y ) = eµ−σ2
e V ar(Y ) = (eσ2 − 1)e2µ+σ
2
.
Considerando que se pretende que o valor introduzido pela entidade gestora seja igual à moda da
distribuição Y e a variância seja calculada do mesmo modo que na distribuição normal, para realizar as
simulações é necessário encontrar os valores de µ e σ2. Nesse sentido, considerando Moda(Y ) = m e
V ar(Y ) = w, é necessário resolver o sistema (3.35).m = eµ−σ2
w = (eσ2 − 1)e2µ+σ
2. (3.35)
Contudo, este sistema não tem uma solução única e, além disso, não é possível, no caso em estudo,
obter computacionalmente um resultado para as várias soluções, dada a sua complexidade e a gran-
deza dos valores das variáveis. Deste modo, a aplicação da distribuição log-normal ficará limitada a as-
sumir que o valor introduzido pela entidade gestora corresponde ao valor médio da distribuição Y . Neste
caso, assumir-se-á que V ar(Y ) =(a
100 × E[Y ])2
, para o limite inferior, e V ar(Y ) =(b
100 × E[Y ])2
, no
limite superior, onde a − b% representa a gama de incerteza relativa da medição associada à variável
Y . Assim, µ = log(E[Y ])− σ2
2 e σ2 = log(
1 + V ar(Y )E[Y ]
).
Distribuição Skew Normal
Além das distribuições anteriores, optar-se-á por considerar ainda uma generalização da distribuição
normal: a distribuição skew normal. Denotando por φ(x) e por Φ(x), a função densidade de probabi-
lidade e a função de distribuição de uma N (0, 1), respetivamente, tem-se que a função densidade de
probabilidade de uma distribuição skew normal é dada por:
f(x) =2
ωφ
(x− ξω
)Φ
(α
(x− ξω
)), (3.36)
onde ξ é o parâmetro de localização, ω é o parâmetro de escala e α é o parâmetro de forma.
Se X ∼ skewNormal(ξ, ω, α), então E[X] = ξ + ωδ√
2π e V ar(X) = ω2
(1− 2δ2
π
), onde δ = α√
1+α2.
No entanto, não existe uma forma fechada para a moda desta distribuição. Deste modo, não será
possível fazer simulações de Monte Carlo com esta distribuição assumindo que o valor indicado pela
entidade gestora para cada uma das variáveis corresponde ao valor mais provável. Além disso, esta
distribuição admite um parâmetro de localização que não coincide com o valor médio, acontecendo o
mesmo com o parâmetro de escala e o desvio padrão, o que levará a que se façam duas simulações
diferentes:
• Caso 1: assumindo que o valor indicado pela entidade gestora corresponde ao parâmetro de
localização e que o de escala é dado por(a
100 × ξ)2
no limite inferior e por(b
100 × ξ)2
no limite
superior;
• Caso 2: assumindo que o valor indicado pela entidade gestora corresponde ao valor médio E[Y ]
e que a variância toma o valor(a
100 × E[Y ])2
no limite inferior e(b
100 × E[Y ])2
no limite superior,
o que corresponde a ξ = E[Y ]−√V ar[Y ]
π − 1e ω =
√V ar[Y ]
1− 1π
;
onde (a− b) % corresponde à gama de incerteza relativa da variável Y .
18
De modo a ser possível realizar estas simulações, é também necessário definir o parâmetro de
forma. Analisando os gráficos da função densidade de probabilidade de diferentes distribuições skew
normal, concluiu-se que, no caso em estudo, um valor adequado para este parâmetro será 1.
Também neste caso, tal como com a distribuição normal, estudar-se-á a possibilidade de aplicar
esta distribuição substituindo o valor indicado pela entidade gestora pelo seu logaritmo.
Distribuição Gama
Se X é uma variável que segue uma distribuição gama com parâmetro de forma α e parâmetro de
taxa β, X ∼ Gama(α, β), então a função densidade de probabilidade é dada por:
f(x) =βα
Γ(α)xα−1e−βx (3.37)
e E[X] = αβ , V ar(X) = α
β2 e, se α > 1, Moda(X) = α−1β .
Denotando por m o valor indicado pela entidade gestora para uma medição e por (a− b) % a gama
de incerteza relativa da mesma, pode-se assumir Moda(X) = m e V ar(X) = w, onde w =(a
100 ×m)2
,
para o limite inferior, e w =(b
100 ×m)2
, para o limite superior. Deste modo, resolvendo o sistema:m = α−1β
w = αβ2
, (3.38)
obtém-se α = βm+ 1 e β = m+√m2+4w2w , uma vez que β > 0. Assim, assumindo uma distribuição gama
com parâmetros dados pela solução do sistema anterior, é possível fazer simulações de Monte Carlo
para as variáveis do balanço hídrico.
Em todas as hipóteses consideradas para distribuição das variáveis associadas às diferentes com-
ponentes do balanço hídrico são consideradas duas distribuições diferentes, uma associada ao limite
inferior da banda de incerteza relativa da variável e outra ao limite superior. Deste modo, em qualquer
uma das situações, obter-se-á um intervalo de incertezas, uma vez que o MMC será aplicado de forma
separada às duas distribuições. Observe-se que, no caso de a gama de incerteza possuir limite infe-
rior nulo, assume-se como valor 0.01%, uma vez que, de outra forma, não se obteriam distribuições.
Todas estas possibilidades serão analisadas com alguns casos fictícios e reais e os resultados serão
apresentados no capítulo 4. Nesse capítulo, serão comparados os resultados obtidos com os métodos
apresentados anteriormente (método Delta e intervalos de confiança), de modo a que seja possível
perceber qual a distribuição que melhor modela estas variáveis, assim como o método mais adequado
para a estimativa da incerteza final.
3.4 Métodos de cálculo da propagação de incertezas baseados
nos valores mínimos e máximos das variáveis
Na secção 3.2, indicou-se que, para medir a incerteza de uma medição, utilizar-se-ia uma classificação
em bandas recomendada pelo IWA e pela ERSAR [Alegre et al. (2004); Baptista et al. (2005)] e que
se reproduziu na tabela 3.4. Contudo, em teoria, acredita-se que poderá ser mais intuitivo para as
entidades gestoras introduzir a medida de incerteza associada à medição/componente de uma forma
diferente. Ou seja, em vez da indicação da medição efetuada e da banda de incerteza, esta última
é substituída pela indicação de dois valores, que representam o valor mínimo e o máximo para essa
mesma medição, ou seja, os valores que a entidade gestora acredita que esta variável não ultrapassa.
19
Deste modo, uma vez que os valores mínimo e máximo poderão não ser simétricos em relação à
medição efetuada e, portanto, não se poderá assumir a diferença entre um extremo e a medição como
incerteza absoluta, será assumida uma distribuição triangular para modelar as variáveis de interesse,
assumindo para valor mais provável a medição efetuada e para valores mínimo e máximo os indicados
pela entidade gestora1.
Assim, se a medição efetuada pela entidade e os valores mínimo e máximo indicados para a variável
X forem, respetivamente, b, a e c, tem-se que X ∼ Triangular(a, b, c) e, portanto, E[X] = a+b+c3 ,
V ar(X) = a2+b2+c2+ab+ac+bc18 e Moda(X) = b. Segundo o GUM [BIPM et al. (2008)], poderá analisar-
se a propagação de incertezas utilizando o valor médio da distribuição e, para incerteza absoluta da
medição, a raiz quadrada positiva da variância. Deste modo, torna-se possível aplicar a fórmula (3.12).
Contudo, dada a assimetria que se verifica em muitas das variáveis do balanço hídrico, o valor médio
da distribuição afasta-se de forma significativa da moda, o que leva a resultados subsequentes não
reais, do ponto de vista prático. Por esta razão, optar-se-á por utilizar as próprias medições efetuadas
pela entidade, ou seja, a moda das distribuições, em detrimento dos valores médios, para a realização
dos cálculos seguintes. No seguimento do uso dos valores mais prováveis em detrimento dos valores
médios e uma vez que a variância é uma medida de dispersão em relação ao valor esperado, torna-se
necessário definir uma medida de dispersão em relação à moda. Assim, analogamente à definição da
variância, propõe-se, neste trabalho, a seguinte medida:
Disp(X) = E[(X −Moda(X))2]
= E[X2]− 2E[X]Moda(X) +Moda(X)2. (3.39)
No caso de uma variável que segue uma distribuição triangular X ∼ Triangular(a, b, c), tem-se que:
Disp(X) =a2 + b2 + c2 + ab+ ac+ bc
6− 2b× a+ b+ c
3+ b2
=a2 + 3b2 + c2 + ac− 3ab− 3bc
6(3.40)
uma vez que,
E[X2] = V ar(X) + E[X]2
=a2 + b2 + c2 − ab− ac− bc
18+
(a+ b+ c)2
9
=a2 + b2 + c2 + ab+ ac+ bc
6. (3.41)
Deste modo, seguindo o proposto no GUM [BIPM et al. (2008)], poder-se-á analisar a propagação de
incertezas substituindo o valor esperado pela moda e assumindo como incerteza absoluta da variável
X a raiz quadrada positiva desta nova medida de dispersão,√Disp(X). No caso da incerteza relativa,
esta será calculada em relação à moda, ou seja, será dada por
√Disp(X)
Moda(X)×100%. Consequentemente,
para a avaliação da incerteza de uma variável Y = f(X1, . . . , Xp), bastará utilizar a fórmula (3.12),
relativa ao método Delta, substituindo os valores relativos à variância pelos valores desta nova medida
de dispersão.
Contudo, uma vez que se está a assumir uma distribuição triangular para as componentes/variáveis
do balanço hídrico, poder-se-á também aplicar simulações de Monte Carlo para estudar as incertezas.
1Esta hipótese está também presente no Guide to the expression of uncertainty in measurement (GUM) [BIPM et al. (2008)],sendo designada por “avaliação do tipo B da incerteza padrão", em oposição à “avaliação do tipo A da incerteza padrão"que foiseguida até então. A principal diferença em relação ao método Delta, enunciado na secção 3.3.1, centra-se na utilização de umadistribuição para modelar as variáveis.
20
Tal como anteriormente, não será apenas utilizado o desvio padrão como medida de dispersão das
simulações realizadas, optando-se também por analisar o MAD e o IQR. Deste modo, no capítulo 4,
proceder-se-á à análise comparativa destes dois métodos.
Para a análise do melhor método de cálculo da incerteza expandida obtida pela propagação das
incertezas iniciais, serão utilizados dados relativos a um exemplo fictício de Vila Faia, retirado de Alegre
et al. (2005), e dados de dois casos reais, provenientes de duas entidades gestoras participantes no
projeto iPerdas 2016 e designados por entidade #8 e entidade #132. Na tabela 3.6, é possível encontrar
uma sistematização dos casos de estudo que serão utilizados para estudar cada método, tanto no caso
das bandas de incerteza como no caso dos valores mínimo e máximo para as variáveis.
Tabela 3.6: Sistematização dos métodos de propagação de incertezas aplicados a cada caso de estudo.
Exemplo de Vila Faia(retirado de Alegre
et al. (2005))Entidade #8 Entidade #13
Métodos de propagação de incertezas baseados em bandas de incertezaMétodo Delta X X XIntervalos de confiança X X XMétodo de Monte Carlo
Escolha da melhor distribuição XAplicação da melhor distribuição X X X
Métodos de propagação de incertezas baseados nos valores mínimos e máximos das variáveisMétodo Delta X XMétodo de Monte Carlo X X
2Esta designação encontra-se de acordo com a numeração interna das entidades gestoras no próprio projeto.
21
22
Capítulo 4
Resultados da propagação de
incertezas no balanço hídrico e nos
indicadores de perdas de água
O exemplo fictício do município de Vila Faia, apresentado em Alegre et al. (2005) e reproduzido nas
tabelas A.1 e A.2 dos Anexos, foi utilizado para testar todos os métodos e para comparar resultados.
Além deste exemplo, foi possível ainda obter dados reais, relativos a dois sistemas de cidades portu-
guesas (designados por entidade #8 e entidade #13, de acordo com a numeração interna estabelecida
no projeto iPerdas 2016), para a avaliação do método Delta, dos intervalos de confiança e do método
de Monte Carlo com bandas de incerteza. Contudo, para a aplicação dos métodos baseados nos valo-
res mínimos e máximos das variáveis, apenas a entidade #8 conseguiu fornecer os dados no formato
indicado, tendo a entidade #13 afirmado não possuir informação suficiente para indicar valores mínimos
e máximos. Apesar disso, serão utilizados os dados simulados a partir do exemplo de Vila Faia e os
dados reais da entidade #8 para estudar a propagação de incertezas com base nos valores mínimos e
máximos das componentes do balanço hídrico.
4.1 Métodos de propagação de incertezas baseados em bandas
de incerteza
Nesta secção, pretende-se apresentar os resultados relativos à aplicação do método Delta, dos inter-
valos de confiança (IC) e do método de Monte Carlo (MMC), nos casos em que as incertezas são
fornecidas no formato de bandas. Deste modo, começar-se-á por comparar os resultados do método
Delta e dos intervalos de confiança. No caso do método de Monte Carlo, começar-se-á por proceder à
seleção da distribuição de probabilidade que melhor modela as variáveis, utilizando os dados do exem-
plo fictício de Vila Faia. Após a identificação da melhor distribuição, esta será utilizada para a avaliação
do MMC nos restantes casos de estudo.
4.1.1 Método Delta e intervalos de confiança
Utilizando os dados apresentados em Alegre et al. (2005), no exemplo fictício do município de Vila Faia,
pretende-se observar quais as diferenças que se obtêm nas incertezas, em termos de componentes do
balanço hídrico e indicadores de desempenho de perdas de água, efetuando os cálculos com base na
23
fórmula (3.12), relativa ao método Delta, e com base nos intervalos de confiança a 95%1 construídos
na secção 3.3.2. Estes dados são apresentados nas tabelas 4.1 e 4.3, nas colunas “Método Delta”
e “IC a 95%”, e correspondem às componentes principais do balanço hídrico e aos indicadores de
desempenho de perdas de água utilizados para análise. Na tabela 4.2 apresentam-se ainda os valores
de alguns dados complementares, necessários ao cálculo dos indicadores, e as respetivas incertezas
consideradas2.
A partir destes resultados, pode-se verificar que, em geral, a amplitude dos intervalos de confiança
apresenta uma ligeira tendência para ser inferior à amplitude das bandas de incerteza obtidas pelo
método Delta, em especial, quando se consideram componentes resultantes de subtrações, tais como
a água não faturada e as perdas de água. Quando se englobam diversas operações nos cálculos
(como é o caso dos indicadores de perdas de água), as conclusões não são claras, sendo estes factos
confirmados pela análise dos resultados obtidos com os dados reais das entidades gestoras #8 e #13,
sendo alguns deles possíveis de verificar nas tabelas 4.6 e 4.7, respetivamente.
4.1.2 Método de Monte Carlo
Na aplicação prática do método de Monte Carlo, para o cálculo das incertezas relativas, optou-se por
utilizar como denominador a própria medição indicada pela entidade gestora, em detrimento da média
das simulações, tal como sugerido em BIPM et al. (2008).
Tal como referido na secção 3.3.3, foram colocadas duas possibilidades para o número de simu-
lações de Monte Carlo a realizar: 50 000 e 200 000. Uma vez que o caso da distribuição normal foi
o único em que se verificaram diferenças relativamente significativas entre os valores obtidos com 50
000 e 200 000 simulações, neste caso, optou-se por apresentar os resultados obtidos com 200 000
simulações e, nas restantes distribuições, com 50 000. Para testar qual a distribuição, de entre as
possibilidades colocadas na secção 3.3.3, que melhor se adequa ao caso em estudo, utilizar-se-á os
dados do exemplo fictício de Vila Faia, sendo, posteriormente, utilizada a melhor destas distribuições
para analisar os dados das entidades #8 e #13.
Distribuição normal
Observando a coluna “MMC com distribuição Normal e desvio padrão” das tabelas 4.1 e 4.3, onde
se encontram os resultados obtidos com os dados do exemplo fictício do município de Vila Faia e a
distribuição normal, e comparando com as colunas à esquerda (relativas ao método Delta e aos in-
tervalos de confiança), pode-se concluir que existem resultados bastante díspares, nomeadamente no
índice infra-estrutural de fugas (tabela 4.3). Neste caso, obtém-se o intervalo de incertezas relativas
80 – 44 366.3%, o que se pode concluir que é irreal, dados os valores obtidos anteriormente, nomea-
damente o IC a 95% de 39.4 – 70.2%.
Embora as incertezas no índice infra-estrutural de fugas tenham diminuído com a utilização dos
estimadores MAD e IQR, cujos resultados se encontram nas últimas duas colunas das tabelas 4.1 e
4.3, persistem diferenças elevadas. Esta mesma tendência também foi possível de verificar no caso,
por exemplo, das perdas aparentes. As diferenças verificadas entre os três estimadores devem-se à
própria diferença na robustez dos mesmos.
1Os resultados obtidos com a aplicação dos intervalos de confiança a 90% foram muito semelhantes aos obtidos com um graude confiança de 95% e, por isso, apresentar-se-ão estes últimos.
2Uma vez que os dados complementares presentes na tabela 4.2 não foram sujeitos a cálculos, apenas se indica as bandasde incerteza introduzidas pela entidade gestora (neste caso, indicadas no exemplo), que estão na base de todos os métodosutilizados.
24
Tabela 4.1: Incertezas para as componentes do balanço hídrico, com base no método Delta, IC e MMC com adistribuição normal para o exemplo de Vila Faia.
Componente do ba-lanço hídrico
Mediçãom3/ano
MétodoDelta
IC a 95%
MMC comdistribui-
çãoNormal e
desviopadrão
MMC comdistribui-
çãoNormal e
MAD
MMC comdistribui-
çãoNormal e
IQR
Água entrada no sis-tema
5 659 488 0-4.3 % 0.8-4.2% 0-5% 0-5% 0-6.7%
Consumo faturadomedido
4 426 870 2-6.2 % 2.3-6.1% 2.01-9.30% 2-9.3% 2.7-12.5%
Consumo faturadonão medido
7 739.5 18.5-37.7 % 19.8-37% 25.8-56.6% 25.8-56.5% 34.7-76.2%
Consumo autorizadofaturado
4 434609.5
2-6.2 % 2.3-6.1% 2.1-9.4% 2.1-9.4% 2.8-12.6%
Água não faturada1 224878.5
7.2-30.2 % 12.1-28.5% 7.4-10.9% 7.4-10.9% 10-14.6%
Consumo não fatu-rado medido
11 885 6-20 % 6-20% 6-20% 6-20% 8.1-27%
Consumo não fatu-rado não medido
37 900 9.7-22 % 12.9-20.3% 23.1-63.8% 23.1-62% 31.1-84.2%
Consumo autorizadonão faturado
49 785 7.5-17.4 % 9.8-16.2% 19-53.3% 19-52% 25.6-70.5%
Consumo autorizado4 484394.5
2-6.3 % 2-6.2% 2.2-9.9% 2.2-9.9% 3-13.3%
Perdas de água1 175093.5
7.7-31.9 % 12-20% 8.5-13.6% 8.5-13.5% 11.5-18.3%
Uso não autorizado 51 200 92-273.3 %102.3-
269.7%101-300%
100.9-299.6%
136.1-404.2%
Erros de medição 310 713 21-50 % 21-50% 19.2-45.7% 19.2-45.6% 25.8-61.5%Perdas aparentes 361 913 22.2-57.8 % 28.8-54.8% 34.9-92.2% 34.9-92.1% 47-124.3%Perdas reais (1) 813 180.5 14.9-52.7 % 23.4-49.1% 26.7-57.6% 26.7-57.5% 36-77.6%Fugas nas condutasde adução e/ou distri-buição
657 000 21-50 % 21-50% 21-50% 21-49.9% 28.3-67.4%
Fugas e extravasa-mentos nos reserva-tórios de adução e/oudistribuição
12 775 51-100 % 51-100% 51-100% 50.9-99.9%68.7-
134.7%
Fugas nos ramais (amontante do pontode medição)
7 300 51-100 % 51-100% 51-100% 50.9-99.9%68.7-
134.7%
Perdas reais nascondutas de águabruta e nas estaçõesde tratamento deágua
(-)
Perdas reais (2) 677 075 20.4-48.6 % 17-49.8% 21.9-98.1% 21.9-98%29.5-
132.2%
25
Tabela 4.2: Incertezas, no formato de bandas, dos dados complementares do balanço hídrico do exemplo de VilaFaia.
Variável ValorBanda deincerteza
Comprimento total da rede (km) 850 0-5 %Número total de ramais 23 000 6-20%Altura piezométrica média de serviço (kPa) 400 21-50%Comprimento médio dos ramais prediais(m) 5 21-50%Tempo de pressurização do sistema (horas/dia) 24 0-5%Custos correntes (€/ano) 5 718 335 0-5%Tarifa média para consumidores diretos (€/m3) 1.43 0-5%Custo unitário assumido das perdas reais (€/m3) 0.49 0-5%
Tabela 4.3: Incertezas dos indicadores de desempenho de perdas de água, com base no método Delta, IC e MMCcom a distribuição normal para o exemplo de Vila Faia.
Indicador ValorMétodoDelta
IC a 95%
MMC comdistribui-
çãoNormal e
desviopadrão
MMC comdistribui-
çãoNormal e
MAD
MMC comdistribui-
çãoNormal e
IQR
Indicadores de recursos hídricos
Ineficiência na utiliza-ção dos recursos hídri-cos (%)
14.428.4-46.4
%22.1-50.3% 27.4-64.8% 27.4-64.1% 36.9-86.6%
Indicadores operacionais
Perdas de água por ra-mal (l/ramal/dia)
140 16.2-34.9%17.3-34.4
%14.8-51.5% 14.5-37.9% 19.6-53.1%
Perdas de água porcomprimento de con-duta (m3/km/dia)
3.8 15.1-29%13.3-29.9
%8.5-18.6% 8.5-18.5% 11.5-24.9%
Perdas aparentes porvolume de água en-trada no sistema (%)
6.4 29-54.9%28.3-55.3
%34.4-86.5% 34.4-85.5%
46.4-115.5%
Perdas aparentes (%) 6.4 29-54.9%27.1-55.9
%34.4-86.5% 34.4-85.5%
46.4-115.5%
Perdas reais por com-primento de conduta(m3/km/dia)
2.628.4-46.8
%21.2-50.6% 26.7-69.5% 26.7-67.2% 36-91.3%
Perdas reais por ramal(l/ramal/dia)
96.9 29-50.6 % 25.2-52.8%33.1-
113.1%32.6-80.7%
44.1-113.6%
Índice infra-estruturalde fugas (-)
1.537.1-71.4
%39.4-70.2
%80-
44366.3%52.5-
108.8%74-190.2%
Água não medida (%) 21.610.4-26.5
%9.8-26.8% 7.2-15.6% 7.2-15.4% 9.7-20.8%
Indicadores financeiros
Água não faturada emtermos de volume (%)
21.614.5-27.4
%3.4-29.7% 7.3-15.8% 7.3-15.6% 9.8-21.1%
Água não faturada emtermos de custo (%)
17.319.1-34.8
%18.9-35.1% 7.7-25.7% 7.7-25.7%
10.3-34.6%
26
Quando se tentou realizar simulações de MC, substituindo os valores introduzidos pelos seus respe-
tivos logaritmos, tal como descrito na secção 3.3.3, não foi possível executar todos os cálculos neces-
sários, nomeadamente no que diz respeito à aplicação do logaritmo, uma vez que se obtiveram valores
negativos em simulações de componentes às quais se teria de aplicar o logaritmo, concluindo-se, deste
modo, que esta não será uma possibilidade a aplicar.
Deste modo, com base no exemplo fictício do município de Vila Faia, pode-se concluir que a distri-
buição normal não modela corretamente as variáveis presentes no balanço hídrico. Por conseguinte,
a aplicação de simulações de Monte Carlo para o estudo da propagação de incertezas não deverá ser
executada com esta distribuição, tendo-se estudado, por isso, outras distribuições, tal como apresen-
tado de seguida.
Distribuição normal truncada
No caso da utilização da distribuição normal truncada, verificou-se que os resultados são bastante
semelhantes aos obtidos anteriormente com a distribuição normal. Por exemplo, no caso do índice infra-
estrutural de fugas, obteve-se os intervalos de incertezas relativas 63.7 – 26 735.2%, 52.4 – 99.4% e
73.9 – 154.5% utilizando como estimadores para a incerteza absoluta o desvio padrão, o MAD e o IQR,
respetivamente. Uma vez que estes valores são irreais, pode-se concluir que, dada a credibilidade do
exemplo utilizado, as variáveis do balanço hídrico não seguem uma distribuição normal truncada.
Distribuição log-normal
Os resultados da aplicação da distribuição log-normal não se encontram apresentados, já que, mais
uma vez, existiram valores discrepantes no que diz respeito, por exemplo, ao índice infra-estrutural de
perdas. Neste caso, apesar de o IC a 95% associado a este indicador ser de 39.4 – 70.2%, com o MMC
e esta distribuição obtiveram-se os intervalos 54.8 – 177.2%, 52 – 123.7% e 70.8 – 181.8%, utilizando
como estimadores para a incerteza absoluta o desvio padrão, o MAD ajustado e o IQR, respetivamente.
Deste modo, também esta distribuição não será uma boa opção para a modelação das variáveis de
interesse associadas ao balanço hídrico.
Distribuição skew normal
Da aplicação da distribuição skew normal, como descrita no caso 1 da secção 3.3.3, ao sistema de
Vila Faia, resultaram intervalos 62.8 – 24 178%, 45.2 – 84.1% e 63.8 – 137.1% para a incerteza relativa
associada ao índice infra-estrutural de fugas, considerando como estimadores para a incerteza absoluta
o desvio padrão, o MAD e o IQR, respetivamente. Uma vez que os resultados não parecem ser realistas,
principalmente utilizando o desvio padrão e o IQR, pode-se concluir que estes dois estimadores, com
esta hipótese, não modelam bem o problema em causa.
Também na aplicação do caso 2 se obtêm valores irreais, por exemplo, 1 720.4 – 46 313.1%, 70.6 –
173.2% e 102.6 – 317.5% foram os intervalos de incerteza relativa obtidos para o índice infra-estrutural
de fugas, utilizando o desvio padrão, o MAD e o IQR, respetivamente, como estimadores da incerteza
absoluta. Este exemplo permite inferir que nenhuma das hipóteses colocadas com a distribuição skew
normal se adequa aos dados em estudo.
Mais uma vez, ao substituir-se o valor indicado pela entidade gestora pelo logaritmo do mesmo
em todo o procedimento anterior, tal como referido na secção 3.3.3, ocorreram problemas em alguns
cálculos, repetindo-se o que sucedera anteriormente com a distribuição normal.
Distribuição gama
Aquando da aplicação da distribuição gama ao exemplo do sistema do município de Vila Faia,
27
obtiveram-se os resultados presentes nas tabelas 4.4 e 4.5. Comparando com os resultados obti-
dos com o método Delta e com os intervalos de confiança, pode-se verificar que a distribuição gama
modela bem as componentes do balanço hídrico.
Em relação à escolha entre os três estimadores da incerteza absoluta, verifica-se que os resultados
entre o desvio padrão e o MAD são bastante semelhantes, enquanto que o IQR, em geral, leva a um
aumento dos valores, em ambos os limites dos intervalos. Uma vez que estas incertezas resultam de
simulações e, por isso, estão sujeitas à ocorrência de observações um pouco mais discrepantes, e o
MAD é um estimador mais robusto do que o desvio padrão, considera-se que este será um melhor
estimador para a incerteza absoluta.
Deste modo, pode-se concluir que a aplicação de simulações de Monte Carlo com a distribui-
ção gama e o estimador MAD é uma opção viável para o cálculo da propagação de incertezas. Ao
considerar-se os resultados obtidos com os dados fornecidos pelas entidades gestoras, foi possível
validar esta mesma hipótese, tal como se pode verificar pelos exemplos presentes nas tabelas 4.6 e
4.7, e, portanto, considera-se que a distribuição gama modela corretamente as diferentes variáveis do
balanço hídrico.
4.1.3 Comparação dos resultados de um exemplo com dois casos reais
Comparando os resultados obtidos com os diferentes métodos e os dados do exemplo de Vila Faia
e das entidades gestoras, foi possível retirar algumas conclusões sobre o modo de propagação das
incertezas com as diferentes operações e sobre as diferenças que se verificam entre os métodos.
Considerando as componentes do balanço hídrico que resultam de operações que envolvem apenas
somas, verifica-se que as incertezas obtidas pelos diferentes métodos são semelhantes, além de não
aumentarem relativamente às incertezas das diferentes parcelas. Naturalmente, as incertezas das
parcelas de maior grandeza refletem-se de forma mais significativa na incerteza do resultado final. Estas
conclusões são possíveis de retirar, não apenas com o exemplo fictício de Vila Faia, mas também com
os dados das duas entidades gestoras. Nas tabelas 4.6 e 4.7, onde se encontram reproduzidos alguns
dos resultados obtidos com os dados destas duas entidades, relativamente a componentes resultantes
de somas, pode-se analisar, por exemplo, a água entrada no sistema ou o consumo autorizado.
Contudo, quando se consideram as componentes do balanço hídrico que resultam de subtrações,
as conclusões entre métodos diferem. Para além do exemplo de Vila Faia, este facto também é visível
nos dados das duas entidades gestoras estudadas, reproduzidos em parte nas tabelas 4.6 e 4.7, sendo
as perdas de água aí presentes um exemplo de uma componente nestas condições. Neste caso, em
geral, a incerteza do resultado final aumenta relativamente às incertezas das parcelas, o que seria de
esperar, no caso do método Delta e dos intervalos de confiança, considerando a fórmula (3.15), para A
e B positivos. Em relação às divisões existentes nos indicadores de perdas de água, é possível retirar
as mesmas conclusões que nas subtrações: os resultados obtidos com os três métodos diferem e existe
uma tendência para o aumento da incerteza no resultado final, o que é explicado pela fórmula (3.17).
Em relação às conclusões entre os métodos, verifica-se que, em geral, os intervalos de confiança
são os que apresentam uma menor amplitude no caso de subtrações, ou seja, os maiores limites in-
feriores e os menores limites superiores. No caso de componentes resultantes apenas de somas,
verifica-se que não existem diferenças significativas entre os métodos. Contudo, no caso de combina-
ções de várias operações não é possível retirar conclusões claras. Uma vez que o MMC é o método
mais dispendioso computacionalmente, considera-se que não deverá ser considerado para a análise da
propagação de incertezas no balanço hídrico. A preferência dos IC, quando comparados com o método
Delta, deve-se ao facto de, em geral, produzirem intervalos de menor amplitude e adicionalmente terem
associado um nível de confiança.
28
Tabela 4.4: Incertezas para as componentes do balanço hídrico, com base no MMC com a distribuição gama,para o exemplo de Vila Faia.
Componente do balanço hí-drico
Mediçãom3/ano
MMC comdistribuição
Gama e desviopadrão
MMC comdistribuiçãoGama e MAD
MMC comdistribuiçãoGama e IQR
Água entrada no sistema 5 659 488 0-4.3% 0-4.3%0-5.8%
Consumo faturado medido 4 426 870 2-6.3% 2-6.1%2.7-8.3%
Consumo faturado não medido 7 739.5 18.4-37.7% 17.7-35%24.1-47.9%
Consumo autorizado faturado 4 434 609.5 2-6.3% 2-6.1%2.7-8.3%
Água não faturada 1 224 878.5 7.2-30.4% 7.1-29.9%9.7-40.3%
Consumo não faturado medido 11 885 6-20% 6-19.7%8.1-26.6%
Consumo não faturado não me-dido
37 900 9.7-22.1% 9.5-21.2%12.8-28.9%
Consumo autorizado não fatu-rado
49 785 7.5-17.5% 7.4-17%10-22.9%
Consumo autorizado 4 484 394.5 2-6.2% 1.9-6%2.6-8.2%
Perdas de água 1 175 093.5 7.5-31.7% 7.4-31.2%10.1-42%
Uso não autorizado 51 200 92.5-275.6% 82-220.2%115.1-321.9%
Erros de medição 310 713 21-49.9% 20.7-47.6%28-65.4%
Perdas aparentes 361 913 22.4-58% 22-55.3%29.8-75.2%
Perdas reais (1) 813 180.5 14.7-52.6% 14.7-52%19.7-69.7%
Fugas nas condutas de aduçãoe/ou distribuição
657 000 21-50% 21-50%28-65.3%
Fugas e extravasamentos nosreservatórios de adução e/oudistribuição
12 775 51-100% 51-100%66.5-125.2%
Fugas nos ramais (a montantedo ponto de medição)
7 300 51-100% 51-100%66.5-125.2%
Perdas reais nas condutas deágua bruta e nas estações detratamento de água
(-)
Perdas reais (2) 677 075 20.3-48.6% 20.1-46.5%27.2-63.8%
29
Tabela 4.5: Incertezas dos indicadores de desempenho de perdas de água, com base no MMC com a distribuiçãogama, para o exemplo de Vila Faia.
Componente do balanço hí-drico
Valor
MMC comdistribuição
Gama e desviopadrão
MMC comdistribuiçãoGama e MAD
MMC comdistribuiçãoGama e IQR
Indicadores de recursos hídricos
Ineficiência na utilização dos re-cursos hídricos (%)
14.4 14.7-51% 22.3-30.3%19.7-67.6%
Indicadores operacionais
Perdas de água por ramal(l/ramal/dia)
140 9.6-37.1% 9.5-35%12.8-47.7%
Perdas de água por comprimentode conduta (m3/km/dia)
3.8 7.5-32% 7.4-31.5%10.1-42.5%
Perdas aparentes por volume deágua entrada no sistema (%)
6.4 22.4-58.5% 22-55.3%29.8-75.6%
Perdas aparentes (%) 6.4 22.4-58.5% 22-55.3%29.8-75.6%
Perdas reais por comprimento deconduta (m3/km/dia)
2.62 14.7-53% 14.7-52%19.7-69.7%
Perdas reais por ramal(l/ramal/dia)
96.9 15.7-55.3% 15.6-52.2%20.9-69.9%
Índice infra-estrutural de fugas (-) 1.5 24.6-67.9% 23.3-49.9%31.4-68.1%
Água não medida (%) 21.6 7.2-28% 7.1-27.4%9.7-37%
Indicadores financeiros
Água não faturada em termos devolume (%)
21.6 7.2-27.9% 7.1-27.3%9.7-36.9%
Água não faturada em termos decusto (%)
17.3 8.9-28.3% 8.7-27.4%11.9-37%
Tabela 4.6: Incertezas de algumas componentes do balanço hídrico para o caso da entidade #8.
Componente do balançohídrico
Valor Método Delta IC a 95%MMC com
distribuiçãoGama e MAD
Água entrada no sistema 11 918 792 0.8 – 5.2 % 1.5 – 5 % 0.8 – 5.1 %Consumo autorizado 9 125 696 0.7 – 5.5 % 1.3 – 4.5 % 0.5 – 4.2 %
Perdas de água 2 793 096 4 – 18.3 % 10.7 – 25.1 % 3.6 – 25.8 %Consumo não autorizado 1 485 076 42.1 – 82.5 % 45.1 – 80.8 % 40.2 – 74.3 %
Erros de medição 481 316 0.3 – 5.1 % 1 – 5.1 % 0.3 – 5.2 %Perdas aparentes 1 966 392 31.8 – 62.3 % 34.4 – 60.9 % 30.4 – 56.2 %
Perdas reais (1) 826 704 76.8 – 148.8 % 97.7 – 163.5 % 73.1 – 160.7 %Perdas reais (2) 1 042 159 43.6 – 85.5 % 39.8 – 87.4 % 41.6 – 76.4 %
Tabela 4.7: Incertezas de algumas componentes do balanço hídrico para o caso da entidade #13.
Componente do balançohídrico
Valor Método Delta IC a 95%MMC com
distribuçãoGama e MAD
Água entrada no sistema 9 867 897 0 - 3.6 % 0.9 - 3.5 % 0 - 3.6 %Consumo autorizado 6 381 730 0.8 - 4.3 % 1.4 - 4.1 % 0.7 - 4 %
Perdas de água 3 486 167 1.4 - 7.9 % 4.7 - 12.1 % 1.3 - 12.5 %Consumo não autorizado 64 360 39 - 76.4 % 43.2 - 74.1 % 37.3 - 70.3 %
Erros de medição 897 772 0 - 5 % 0 - 5 % 0 - 5 %Perdas aparentes 962 132 2.6 - 6.9 % 3.5 - 6.5 % 2.5 - 6.6 %
Perdas reais (1) 2 524 035 2.2 - 3.3 % 6.4 - 17.4 % 2 - 17.5 %Perdas reais (2) 237 250 51 - 100 % 51 - 100 % 49 - 89 %
30
Escolhido o melhor método para o estudo da propagação das incertezas com base nas bandas de
incerteza, torna-se necessário verificar qual o impacto destes valores de incerteza, principalmente nas
componentes de perdas de água, para as entidades gestoras #8 e #13.
Comparando os resultados destas duas entidades, pode-se verificar que as perdas aparentes apre-
sentam um incerteza significativamente superior no caso #8, 34.3 – 60.9%, em oposição ao caso #13,
3.5 – 6.5%. A principal razão para esta diferença reside no consumo não autorizado (subcomponente
das perdas aparentes sobre a qual há, em geral, um grande desconhecimento), que tem um peso bas-
tante mais significativo no primeiro caso do que no segundo. Assim, resultando as perdas aparentes
da soma entre o consumo não autorizado e os erros de medição, torna-se evidente que os erros de
medição têm uma influência maior no caso #13, diminuindo a incerteza associada às perdas aparentes.
Relativamente às perdas reais, verifica-se que as incertezas associadas ao valor de perdas reais
(1), obtido por dedução das perdas aparentes às perdas de água, e ao valor de perdas reais (2), obtido
pela soma de subcomponentes de perdas reais estimadas através de métodos complementares, são
também muito diferentes. Na entidade #8, a menor incerteza sobre o valor de perdas reais (2) estimado
deve levar a entidade gestora a analisar e a rever a estimativa de perdas reais (1), que tem associada
uma incerteza significativamente superior. Com a entidade #13 verifica-se a situação oposta, sendo
que, neste caso, apenas uma das subcomponentes das perdas reais que são utilizadas para o cálculo
das perdas reais (2) foi estimada.
4.2 Métodos de propagação de incertezas baseados nos valores
mínimos e máximos das variáveis
Dada a existência de dados neste formato apenas para o caso da entidade #8, optou-se por, com base
nas gamas de incerteza relativa, simular valores mínimos e máximos para as variáveis iniciais do exem-
plo fictício de Vila Faia. Com base nos valores deste exemplo, procedeu-se como descrito na secção
3.4, obtendo-se os resultados presentes nas tabelas 4.8 e 4.10. Na tabela 4.9, encontram-se os valores
de incerteza dos dados complementares, obtidos com base na distribuição triangular, necessários para
o cálculo dos indicadores de desempenho de perdas de água presentes na tabela 4.10.
Pela análise das tabelas 4.8 e 4.10, pode-se verificar que o método Delta revela uma ligeira tendên-
cia para valores de incerteza superiores aos apresentados pelo MMC com o desvio padrão e o MAD
como estimadores de dispersão. Contudo, estes valores são superados pelos obtidos com o MMC com
o IQR. Apesar disso, não existem diferenças significativas entre os dois métodos.
Mais uma vez, dada a robustez do estimador MAD e o facto de se estarem a realizar simulações,
considera-se que, de entre os estimadores estudados, este será o mais indicado a utilizar.
Comparando os resultados obtidos com os métodos anteriores baseados nas gamas de incerteza,
pode-se concluir que, em geral, os métodos baseados na distribuição triangular apresentam valores,
apesar de ligeiramente inferiores, relativamente semelhantes aos obtidos com os intervalos. Contudo,
no caso do uso não autorizado, verifica-se que a incerteza é substancialmente mais baixa do que o
esperado, não tendo sido possível encontrar uma explicação para este facto.
No caso dos resultados apresentados pela entidade #8, tabela 4.11, verificou-se que existe uma
diminuição muito significativa, comparativamente aos intervalos de confiança, nos valores de incerteza
aquando da utilização dos valores mínimo e máximo como modo de calcular as incertezas das compo-
nentes do balanço hídrico. Contudo, foi também possível averiguar que os valores de incerteza obtidos
não correspondiam ao que a entidade gestora considerava adequado face ao modo como os valores
das componentes tinham sido obtidos. Deste modo, na prática, acredita-se que este formato de cálculo
de incertezas não será o adequado.
31
Tabela 4.8: Incertezas para as componentes do balanço hídrico, com base no MMC com a distribuição triangular,para o exemplo de Vila Faia.
Componente do balançohídrico
Valor maisprovávelm3/ano
Delta comdistribuiçãoTriangular
MMC comdistribuiçãoTriangular e
desviopadrão
MMC comdistribuiçãoTriangular e
MAD
MMC comdistribuiçãoTriangular e
IQR
Água entrada no sistema 5 659 488 1.5% 1.1% 1.1% 1.6%Consumo faturado medido 4 426 870 3.6% 2.7% 2.9% 3.9%Consumo faturado não me-dido
7 739.5 13% 12.1% 12.7% 17.3%
Consumo autorizado fatu-rado
4 434 609.5 3.6% 2.7% 2.9% 3.9%
Água não faturada 1 224 878.5 14.8% 10.8% 11.2% 15.2%Consumo não faturado me-dido
11 885 6.8% 5.8% 6.2% 8.5%
Consumo não faturado nãomedido
37 900 6.2% 5.9% 6.1% 8.2%
Consumo autorizado não fa-turado
49 785 5% 4.7% 4.8% 6.5%
Consumo autorizado 4 484 394.5 3.6% 2.6% 2.8% 3.9%Perdas de água 1 175 093.5 15.5% 11.3% 11.7% 15.8%Uso não autorizado 51 200 32.6% 26.3% 28.2% 39.2%Erros de medição 310 713 17.2% 15.4% 16.5% 22.6%Perdas aparentes 361 913 15.5% 13.7% 14.6% 20%Perdas reais (1) 813 180.5 23.4% 17.4% 18% 24.3%Fugas nas condutas de adu-ção e/ou distribuição
657 000 17.1% 17.1% 17.1% 17.1%
Fugas e extravasamentosnos reservatórios de aduçãoe/ou distribuição
12 775 34.7% 34.7% 34.7% 34.7%
Fugas nos ramais (a mon-tante do ponto de medição)
7 300 34% 34% 34% 34%
Perdas reais (2) 677 075 16.6% 14.9% 16% 21.6%
Tabela 4.9: Incertezas dos dados complementares, com base na distribuição triangular, para o exemplo de VilaFaia.
Variável Valor IncertezaComprimento total da rede (km) 850 1.8 %Número total de ramais 23 000 6.8%Altura piezométrica média de serviço (kPa) 400 16.9%Comprimento médio dos ramais prediais(m) 5 14.1%Tempo de pressurização do sistema (horas/dia) 24 0%Custos correntes (€/ano) 5 718 335 1.8%Tarifa média para consumidores diretos (€/m3) 1.43 1.9%Custo unitário assumido das perdas reais (€/m3) 0.49 1.7%
32
Tabela 4.10: Incertezas dos indicadores de desempenho de perdas de água, com base no método Delta e MMCcom a distribuição triangular, para o exemplo de Vila Faia.
Componente do balançohídrico
ValorDelta com
distribuiçãoTriangular
MMC comdistribuiçãoTriangular e
desviopadrão
MMC comdistribuiçãoTriangular e
MAD
MMC comdistribuiçãoTriangular e
IQR
Indicadores de recursos hídricosIneficiência na utilização dosrecursos hídricos (%)
14.4 23.4% 17.2% 17.8% 24.1%
Indicadores operacionaisPerdas de água por ramal(l/ramal/ano)
140 16.9% 13.6% 13.8% 18.7%
Perdas de água por com-primento de conduta(m3/km/dia)
3.8 15.5% 11.5% 11.9% 16.2%
Perdas aparentes por vo-lume de água entrada no sis-tema (%)
6.4 15.5% 13.9% 14.9% 20.2%
Perdas aparentes (%) 6.4 15.5% 13.9% 14.9% 20.2%Perdas reais por com-primento de conduta(m3/km/dia)
2.62 23.5% 17.7% 18.2% 24.7%
Perdas reais por ramal(l/ramal/dia)
96.9 24.3% 19.5% 19.8% 26.8%
Índice infra-estrutural de fu-gas (-)
1.5 29.8% 32% 29.2% 40.4%
Água não medida (%) 21.6 14.2% 10.6% 11.1% 15%Indicadores financeirosÁgua não faturada em ter-mos de volume (%)
21.6 14.9% 10.5% 11% 15%
Água não faturada em ter-mos de custo (%)
17.3 12.6% 8.3% 8.3%11.2%
Tabela 4.11: Incertezas de algumas componentes do balanço hídrico para o caso da entidade #8, utilizando adistribuição triangular.
Componente do balançohídrico
Valor Método DeltaMMC com
distribuiçãotriangular e MAD
Água entrada no sistema 11 918 792 1.5% 0.9%Consumo autorizado 9 125 696 1.8% 1.1%
Perdas de água 2 793 096 8.5% 4.9%Consumo não autorizado 1 485 076 8.9% 7.5%
Erros de medição 481 316 0.7% 0.7%Perdas aparentes 1 966 392 6.7% 5.7%
Perdas reais (1) 826 704 32.9% 21.1%Perdas reais (2) 1 042 159 7% 7.4%
33
4.3 Conclusões
Uma vez que foi possível perceber, tanto através dos resultados obtidos e apresentados anteriormente
como pelo contacto direto com algumas entidades gestoras, que estas não possuem informação su-
ficiente para a indicação de valores mínimos e máximos para as diferentes componentes do balanço
hídrico, pode-se concluir que a indicação das incertezas associadas a estas componentes não deverá
ser realizada neste formato.
Assim, dado que os resultados relativos às bandas de incerteza se revelaram bastante satisfatórios
e reais, concluiu-se que o estudo da propagação das incertezas no cálculo do balanço hídrico e dos
indicadores de perdas de água deverá ser efetuado recorrendo a estas como modo de introduzir as
incertezas associadas às diversas componentes. Relativamente ao método de Monte Carlo, a distri-
buição normal revelou-se uma má escolha para modelar as componentes do balanço hídrico, tendo-se
verificado que a distribuição gama é uma melhor opção. No que diz respeito ao método a utilizar,
verificou-se que os resultados obtidos apenas diferiam entre os três métodos quando se consideravam
componentes e indicadores que resultavam de subtrações, divisões ou combinações de diversas ope-
rações. Nestes casos, concluiu-se que os intervalos de confiança, além de terem um grau de confiança
associado, deram origem aos intervalos com a menor amplitude. Deste modo, considerou-se que es-
tes são o melhor método para avaliar a propagação de incertezas no cálculo do balanço hídrico e dos
indicadores de perdas de água.
34
Capítulo 5
Métodos para a detecção de outliers
em séries temporais de caudal
Neste capítulo, pretende-se apresentar várias abordagens para a deteção de outliers em séries tempo-
rais, a segunda questão sobre a qual se debruça a presente dissertação. Começar-se-á pela utilização
do modelo TBATS, uma vez que este já foi estudado com séries temporais provenientes de sistemas
de abastecimento de água em Barrela (2015). Assim, com o objetivo de estudar a possibilidade de
se utilizarem intervalos de previsão e/ou intervalos de confiança para a deteção de outliers em séries
temporais ajustadas com o modelo TBATS, começar-se-á por formalizar este modelo na secção 5.1,
explicitando-se a forma como os parâmetros são estimados na secção 5.1.1. De seguida, na secção
5.1.2, apresentar-se-á os resultados necessários para a construção de intervalos de previsão. Poste-
riormente, na secção 5.1.3, proceder-se-á à apresentação de um método de construção de intervalos
de confiança para séries temporais ajustadas com o modelo TBATS. Na secção 5.1.4, apresentar-se-ão
novos intervalos com o mesmo objetivo, baseados simultaneamente nos intervalos de previsão e de
confiança.
Devido ao elevado peso computacional do ajuste de um modelo TBATS a séries temporais de cau-
dal, pretende-se estudar novos métodos para a deteção de outliers que não se baseiem neste modelo.
Contudo, como existem séries temporais de consumos com comportamentos bastante diferenciados,
na secção 5.2.1, começar-se-á por apresentar a metodologia utilizada para a realização uma análise
de clusters a um conjunto de séries temporais de caudal, com o objetivo de as agrupar em conjuntos
e, deste modo, estudar qual o melhor método para cada um destes. De seguida, apresentar-se-ão
os diferentes métodos em estudo: método baseado no teste do desvio studentizado extremo gene-
ralizado e algumas variantes, na secção 5.2.2, método de Tukey modificado, na secção 5.2.3, e um
método baseado no SAX (algoritmo de representação simbólica de séries temporais), na secção 5.2.4.
A comparação entre os métodos será realizada de acordo com o descrito na secção 5.3.
5.1 Deteção de outliers com base no modelo TBATS
O modelo TBATS refere-se a um modelo apresentado em De Livera et al. (2011), utilizando-se o acró-
nimo TBATS para identificar as características chave do mesmo: o primeiro T está relacionado com
a representação Trigonométrica das componentes sazonais e BATS refere-se às restantes caracterís-
ticas principais deste modelo – transformação de Box-Cox, erros ARMA, Tendência e componentes
Sazonais.
Considere-se um processo estocástico com N observações positivas {yt}Nt=1, onde yt é o valor
35
observado no instante t. Aplicando a transformação de Box-Cox com parâmetro λ, representada por
y(λ)t , obtém-se:
y(λ)t =
yλt −1λ , λ 6= 0
log(yt), λ = 0. (5.1)
Deste modo, define-se:
y(λ)t = lt−1 + φbt−1 +
T∑i=1
s(i)t−mi + dt, (5.2)
onde lt é o nível local no instante t, que é dado pela equação de nível definida como
lt = lt−1 + φbt−1 + αdt, (5.3)
e bt é a tendência a curto prazo no instante t, dada pela equação de tendência
bt = (1− φ)b+ φbt−1 + βdt, (5.4)
onde b é a tendência a longo prazo, α e β são os parâmetros de suavização, φ é o parâmetro de
amortecimento e m1, . . . ,mT são os T períodos de sazonalidade .
Além disso, dt representa um processo ARMA(p, q), sendo dado por
dt =
p∑i=1
ϕidt−i +
q∑i=1
θiεt−i + εt, (5.5)
onde εt é um ruído branco normal de valor médio nulo e variância constante σ2.
Define-se ainda a i-ésima sazonalidade no instante t como:
s(i)t =
ki∑j=1
s(i)j,t , (5.6)
onde a representação trigonométrica das componentes sazonais baseada em séries de Fourier é dada
por:
s(i)j,t =s
(i)j,t−1cos(λ
(i)j ) + s
∗(i)j,t−1sin(λ
(i)j ) + γ
(i)1 dt (5.7)
s∗(i)j,t =− s(i)j,t−1sin(λ
(i)j ) + s
∗(i)j,t−1cos(λ
(i)j ) + γ
(i)2 dt (5.8)
com γ(i)1 e γ(i)2 parâmetros de amortecimento, λ(i)j = 2πj
mie ki o número de harmónicas necessário para
a i-ésima componente sazonal. Deste modo, s(i)j,t descreve o nível estocástico da i-ésima componente
sazonal e s∗(i)j,t descreve o crescimento estocástico do nível da i-ésima componente sazonal, que é
necessário para descrever mudanças nesta mesma componente ao longo do tempo. Este modelo é
representado de forma abreviada como TBATS(λ, φ, p, q, {m1, k1}, . . . , {mT , kT }) e é um caso especial
dos modelos de estados de espaço de inovações lineares, adaptado para incorporar a transformação
de Box-Cox. Deste modo, é possível escrever o modelo (5.2) como:
y(λ)t = wTxt−1 + εt (5.9)
xt = Fxt−1 + gεt (5.10)
onde wT é um vetor linha, g é um vetor coluna, F é uma matriz e xt é o vetor de estados não observados
36
no instante t.
No caso do modelo TBATS com termo de crescimento não estacionário, tem-se que o vetor de
estados é definido por xt = (lt, bt, s(1)t , . . . , s
(T )t , dt, dt−1, . . . , dt−p+1, εt, εt−1, . . . , εt−q+1)T , onde s
(i)t é
um vetor linha dado por (s(i)1,t, s
(i)2,t, . . . , s
(i)ki,t
, s∗(i)1,t , s
∗(i)2,t , . . . , s
∗(i)ki,t
). Considerem-se 1r = (1, 1, . . . , 1) e
0r = (1, 1, . . . , 1) vetores linha de comprimento r, γ(i)1 = γ(i)1 1ki , γ
(i)2 = γ
(i)2 1ki , γ
(i) = (γ(i)1 , γ
(i)2 ),
γ = (γ(1), . . . , γ(T )), ϕ = (ϕ1, ϕ2, . . . , ϕp) e θ = (θ1, θ2, . . . , θq). Considerem-se ainda Ou,v a matriz
nula de dimensão u × v, Iu,v a matriz diagonal retangular de dimensão u × v com 1’s na diagonal,
a(i) = (1ki ,0ki) e a = (a(1), . . . ,a(T )). Definam-se agora as matrizes B = γTφ, C = γT θ,
Ai =
[C(i) S(i)
−S(i) C(i)
], (5.11)
e A =⊕T
i=1 Ai = diag(A1, . . . ,AT ), onde C(i) e S(i) são matrizes diagonais cujos elementos das
diagonais são dados por cos(λ(i)j ) e sin(λ(i)j ), para j = 1, 2, . . . , ki, respetivamente. Seja ainda τ =
2∑Ti=1 ki.
Então, w = (1, φ,a, ϕ, θ)T , g = (α, β, γ, 1,0p−1, 1,0q−1) e
F =
1 φ 0τ αϕ αθ
0 φ 0τ βϕ βθ
0Tτ 0Tτ A B C
0 0 0τ ϕ θ
0Tp−1 0Tp−1 Op−1,τ Ip−1,p Op−1,q
0 0 0τ 0p 0q
0Tq−1 0Tq−1 Oq−1,τ Oq−1,p Iq−1,q
. (5.12)
Estando as matrizes anteriores apresentadas para o caso de o modelo ter todas as componen-
tes presentes, quando alguma destas é omitida, os correspondentes termos devem ser omitidos das
matrizes.
5.1.1 Estimação dos parâmetros e seleção do modelo
No modelo TBATS, além dos parâmetros de suavização e de amortecimento, que geralmente são es-
timados utilizando a soma dos quadrados dos erros ou a função de verosimilhança normal, é ainda
necessário estimar os coeficientes ARMA e o parâmetro da transformação de Box-Cox.
Pelas fórmulas (5.9) e (5.10), é possível escrever xt = Dxt−1+gyt, onde D = F−gwT . Além disso,
εt = y(λ)t −wTxt−1
= y(λ)t −wT (Dxt−2 + gy
(λ)t−1)
= y(λ)t −wT (D2xt−3 + Dgy
(λ)t−2 + gy
(λ)t−1)
=...
= y(λ)t −wT
t−1∑j=1
Dj−1gy(λ)t−j −wTDt−1x0
= y(λ)t −wT xt−1 − wT
t−1x0
= yt − wTt−1x0 (5.13)
onde yt = y(λ)t −wT xt−1, xt = Dxt−1 + gy
(λ)t , wT
t = wTt−1D, x0 = 0 e wT
0 = wT .
37
Reescrevendo a equação (5.13), obtém-se yt = wTt−1x0 + εt e, portanto, o vetor de valores iniciais
x0 corresponde a um vetor de coeficientes de regressão. Deste modo, é possível estimá-lo pelo método
usual de mínimos quadrados.
Além disso, utilizando a hipótese εt ∼ N (0, σ2), tem-se que y(λ)t ∼ N (wTxt−1, σ2). Deste modo, tal
como descrito em De Livera et al. (2011), a função densidade de probabilidade da amostra aleatória
que descreve os dados transformados é dada pela expressão (5.14).
p(y(λ)|x0, ϑ, σ2) =
N∏t=1
p(y(λ)t |xt−1, ϑ, σ2) =
N∏t=1
p(εt) =1
(2πσ2)N2
exp
(− 1
2σ2
N∑t=1
ε2t
)(5.14)
Assim, utilizando o Jacobiano da transformação de Box-Cox, obtém-se a função densidade de pro-
babilidade da amostra aleatória que descreve os dados originais (5.15):
p(yt|x0, ϑ, σ2) = p(y
(λ)t |x0, ϑ, σ
2)
∣∣∣∣∣det(∂y
(λ)t
∂y
)∣∣∣∣∣ =1
(2πσ2)N2
exp
(− 1
2σ2
N∑t=1
ε2t
)N∏t=1
yλ−1t , (5.15)
onde ϑ é o vetor que contém o parâmetro da transformação de Box-Cox, os parâmetros de suavização
e os coeficientes ARMA.
Deste modo, a função log-verosimilhança é dada por:
L(x0, ϑ, σ2) = −N
2log(2πσ2)− 1
2σ2
N∑t=1
ε2t + (λ− 1)
N∑t=1
log(yt). (5.16)
Considerando o seguinte estimador de σ2,
σ2 =1
N
N∑t=1
ε2t , (5.17)
e multiplicando por −2 e omitindo termos constantes em (5.16), obtém-se
L∗(x0, ϑ) = N log
(N∑t=1
ε2t
)− 2(λ− 1)
N∑t=1
log(yt). (5.18)
Uma vez que o vetor de valores iniciais foi estimado através dos mínimos quadrados de uma regres-
são em (5.13), o objetivo passa a ser minimizar
L∗(ϑ) = N log(SSE∗)− 2(λ− 1)
N∑t=1
log(yt), (5.19)
onde SSE∗ é o valor optimizado da soma dos quadrados dos erros de predição (ou resíduos) dados os
parâmetros.
A seleção do melhor modelo, no que diz respeito ao número de harmónicas ki e das ordens p e q
do modelo ARMA, é realizada através da utilização de um critério de informação de Akaike (1998).
5.1.2 Intervalos de previsão
Seja Y (λ)n+h|n a variável aleatória associada à previsão dos dados transformados no instante futuro n+h,
dados o vetor de estados finais xn e os parâmetros ϑ e σ2. Sabe-se que esta variável segue uma
distribuição normal com valor médio e variância apresentados de seguida.
Sejam µh = E[Y(λ)n+h|xn] e vh = V ar(Y
(λ)n+h|xn). Sejam ainda mh = E[xn+h|xn] e Vh = V ar(xn+h|xn).
Note-se que m0 = xn e V0 = O. Tal como descrito em Hyndman et al. (2005) e uma vez que E[εt] = 0,
38
tem-se então que:
mh = E[Fxn+h−1 + gεt|xn]
= Fmh−1
=...
= Fhm0 = Fhxn (5.20)
e, portanto,
µh = E[wTxn+h−1 + εt|xn]
= wTmh−1
= wTFh−1xn. (5.21)
Além disso,
Vh = V ar(Fxn+h−1 + gεt|xn)
= V ar(Fxn+h−1|xn) + V ar(gεt|xn)
= FVh−1FT + gσ2gT
= F2Vh−2(FT )2 + FggTFTσ2 + ggTσ2
=...
= Fh−1V1(FT )h−1 + . . .+ FggTFTσ2 + ggTσ2
= σ2h−1∑j=0
FjggT (Fj)T , (5.22)
uma vez que V1 = FV0FT + ggTσ2 = ggTσ2.
Deste modo,
vh = V ar(wTxn+h−1 + εt|xn)
= wTV ar(xn+h−1|xn)w + σ2
= wTVh−1w + σ2 (5.23)
e, portanto, se h = 1, v1 = wTV0w + σ2 = σ2 e, se h ≥ 2, utilizando (5.22),
vh = σ2
1 +
h−2∑j=0
wTFjggT (Fj)Tw
= σ2
1 +
h−1∑j=1
wTFj−1ggT (Fj−1)Tw
, (5.24)
ou seja, considerando cj = wTFj−1g,
V ar(Y(λ)n+h|n) =
σ2 se h = 1
σ2(
1 +∑h−1j=1 c
2j
)se h ≥ 2
. (5.25)
A distribuição da previsão Yn+h|n não é normal, no entanto, tanto as previsões pontuais como as
intervalares podem ser obtidas utilizando a transformação inversa de Box-Cox com os quantis da distri-
39
buição de Y (λ)n+h|n apropriados, já que a transformação de Box-Cox é monótona crescente.
5.1.3 Intervalos de confiança
Na secção anterior, apresentaram-se todos os dados necessários para a construção de intervalos para
previsões futuras, dados o vetor de estados finais xn e os parâmetros ϑ e σ2. Contudo, como também se
pretende construir intervalos de confiança para os valores ajustados pelo modelo para as observações
passadas, nesta secção, apresentar-se-á um método para a construção destes mesmos intervalos
baseado em simulações.
Sejam {y1, . . . , yN} as observações para as quais se pretende construir os intervalos de confiança.
Em primeiro lugar, ajusta-se um modelo TBATS a estas observações, obtendo-se os valores dos parâ-
metros de suavização, de amortecimento e da transformação de Box-Cox, dos coeficientes do modelo
ARMA e do número de harmónicas dos modelos trigonométricos, ficando deste modo a matriz F e os
vetores w e g definidos. Além disso, também o vetor de estados iniciais x0 é estimado, utilizando a
regressão em (5.13).
Uma vez que se pretende estimar valores para a variância em cada instante de tempo t, t = 1, . . . , N ,
proceder-se-á como descrito de seguida:
• realizar N simulações para os valores εt, utilizando uma distribuição normal com valor médio nulo
e variância σ2, estimada pelo modelo;
• utilizando o modelo descrito em (5.9) e (5.10), obter uma simulação da série ajustada pelo modelo,
após a transformação de Box-Cox, {y(λ)1 , . . . , y(λ)N };
• repetindo os dois pontos anteriores M vezes, onde M é um número suficientemente grande, obter
M reproduções da série ajustada pelo modelo, {y(λ)1,i , . . . , y(λ)N,i}, i = 1, . . . ,M ;
• uma vez que a série deverá ser sempre positiva, no caso de λ 6= 0, se se verificar que, para uma
determinada simulação i, i = 1, . . . ,M , existe t, t = 1, . . . , N , tal que y(λ)t,i λ + 1 < 0, então essa
simulação deverá ser eliminada e substituída por uma nova;
• para cada instante de tempo t, t = 1, . . . , N , calcular a variância amostral de {y(λ)t,1 , y(λ)t,2 , . . . , y
(λ)t,M}.
Uma vez calculadas as estimativas para a variância de {y(λ)1 , . . . , y(λ)N } e como se tem que Y
(λ)t ∼
N (wTxt−1, σ2), está-se em condições de calcular intervalos de confiança para estas mesmas obser-
vações. Após o cálculo destes intervalos, fazendo uso da transformação inversa de Box-Cox, que é
monótona crescente, torna-se possível obter os respetivos intervalos de confiança para {y1, . . . , yN}.
Tanto os intervalos de previsão como os intervalos de confiança podem ser utilizados como méto-
dos de deteção de outliers. Para tal, depois de construídos os intervalos pretendidos, proceder-se-á
à identificação das observações originais que não se encontram dentro dos limites dos intervalos con-
siderados, sendo, por isso, consideradas como outliers, ou seja, observações atípicas em relação às
restantes.
Os métodos de deteção de outliers podem ser divididos em duas categorias: a deteção de outliers
online e a deteção de outliers offline. No primeiro caso, está-se perante a deteção de outliers em tempo
real, ou seja, estes métodos pretendem verificar se as observações que se estão a recolher no presente
são atípicas em relação às que se obtiveram no passado. No caso em estudo, a utilização dos limites
dos intervalos de previsão como modo de deteção de outliers é um exemplo de um método que se
inclui nesta categoria. Já no segundo caso, estes métodos têm como objetivo a deteção de outliers em
observações recolhidas no passado, sendo, por isso, a utilização dos limites dos intervalos de confiança
um exemplo de um método que se inclui nesta segunda categoria.
40
5.1.4 Intervalos de previsão e de confiança combinados
Considere-se um conjunto de observações {y1, . . . , ym, ym+1, . . . , ym+N}, onde se pretende verificar se
existem possíveis outliers nas últimas N observações, com base nas m observações passadas, onde
N < m. Para tal, propõe-se que se ajuste um modelo TBATS às observações {y1, . . . , ym}, com base
no qual se calculam N previsões e os respetivos intervalos. De seguida, ajusta-se um modelo TBATS
às observações {yN , . . . , ym, ym+1, . . . , ym+N}, construindo-se os respetivos intervalos de confiança,
com base no descrito em 5.1.3. Deste modo, para os instantes de tempo m+ 1, . . . ,m+N , obter-se-ão
intervalos de previsão e intervalos de confiança. Utilizando os limites superiores de ambos e calculando
a média dos dois para cada instante de tempo, obtém-se um único limite superior. Procedendo-se de
forma análoga para os limites inferiores, este procedimento resulta na construção de um único novo
intervalo. Assim, as observações {ym+1, . . . , ym+N} que não se encontrem entre os limites do intervalo
construído para o respetivo instante de tempo serão consideradas potenciais outliers.
5.2 Métodos para a deteção de outliers baseados nas
características das séries temporais de caudal
Uma vez que a deteção de outliers em séries temporais depende, em geral, das características es-
pecíficas das séries, é importante adaptar o método de deteção a cada tipo de série temporal. Neste
sentido, ir-se-á fazer uma análise de clusters que permitirá identificar grupos de séries similares. De
seguida, em cada grupo, aplicar-se-ão diferentes métodos de deteção de outliers e escolher-se-á, em
cada grupo, o procedimento que tiver o melhor desempenho. Esta análise prévia facilitará a deteção de
outliers em novas séries, pois uma nova série pode ser classificada num dos grupos, permitindo, assim,
utilizar o melhor método para a deteção de observações atípicas que foi encontrado para esse grupo.
Todas as séries de caudal que serão utilizadas nesta análise correspondem a um ano de observa-
ções efetuadas a cada 15 minutos. Uma vez que estas apresentam valores omissos, foi necessário
começar por reconstruí-las. Para tal, foi utilizada uma modificação da abordagem de Quevedo et al.
(2010), apresentada em Barrela (2015) e que será designada por abordagem de JQ.
5.2.1 Agrupamento e classificação de séries temporais de consumos de água
Na análise de clusters das séries temporais de consumos de água, utilizar-se-á o método de Ward
(Ward (1963)) com a distância DTW (Dynamic Time Warping), definida em Berndt e Clifford (1994) e
Montero e Vilar (2014) como
dDTW (X,Y ) = minr∈M
(m∑i=1
|xai − ybi |
), (5.26)
onde X = {xt}Ni=1 e Y = {yt}Ni=1 são conjuntos de observações de dois processos estocásticos. Além
disso, M é o conjunto de todas as sequências de pares possíveis de tamanho m que preservam a
ordem das observações e que são da forma
r = ((xa1 , yb1), . . . , (xam , ybm)), (5.27)
onde ai, bj ∈ {1, . . . , N}, ∀i, j ∈ {1, . . . ,m}, são tais que a1 = b1 = 1, am = bm = N e ai+1 =
ai ou ai+1 = ai + 1 e bi+1 = bi ou bi+1 = bi + 1, para i = 1, . . . ,m− 1.
Deste modo, a distância DTW tem por objetivo encontrar um caminho r entre as séries de tal modo
que a distância entre os pares de observações (xai , ybi) é minimizada.
41
Após a aplicação do método de clustering Ward com a distância DTW, identificam-se os grupos de
séries de caudal que possuem, em cada grupo, características similares. Deste modo, poderão ser
utilizados para classificar uma nova série de caudal.
A classificação de uma nova série será efetuada com base no método kNN (k – Nearest Neighbours)
[Tan et al. (2006); Wu et al. (2008)], cuja descrição do algoritmo se encontra de seguida :
1. Considerar uma base de dados de treino D = {(xi, yi)}, onde xi ∈ Rp e yi representa a classe do
objeto i, ∀i ∈ {1, . . . , n};2. Definir a medida de dissemelhança a utilizar entre dois objetos;
3. Encontrar o valor k, sendo que, neste caso, utilizar-se-á o erro estimado de má classificação para
tal;
4. Para um novo objeto x0 ∈ Rp, calcular a distância entre o novo objeto e todos os objetos do
conjunto de treino: d(xi,x0), i ∈ {1, . . . , n};5. Ordenar as distâncias calculadas por ordem crescente e considerar os primeiros k elementos,
definindo-se Dk(x0) ⊆ D como o conjunto desses vizinhos;
6. Considerando as classificações de todos os vizinhos, atribuir ao novo objeto a classe na qual se
encontra a maioria dos seus vizinhos, i.e,
y0 = arg maxcI
∑(xi,yi)⊂Dk(x0)
I(yi = cI), (5.28)
onde cI são as classes. Em caso de empate, uma opção é atribuir aleatoriamente uma das
classes empatadas.
Já que a cada uma das séries está associada uma localização física, pretende-se verificar se os
clusters construídos revelam alguma tendência geográfica, para tal utilizar-se-á o multidimensional sca-
ling (MDS) [Cox e Cox (2000)]. Este método permite obter uma representação espacial dos objetos,
em particular em duas dimensões, de tal modo que as suas distâncias correspondem às similaridades
dos objetos. Uma vez que a dissimilaridade DTW possui propriedades métricas, aplicar-se-á o MDS
métrico.
5.2.2 Método Twitter
O teste do desvio studentizado extremo (DSE) generalizado, descrito em Rosner (1983), tem como
objetivo a deteção de outliers, sendo apenas necessário introduzir um limite superior, r, para o número
de outliers a detetar.
Seja (X1, X2, . . . , Xn) uma amostra aleatória proveniente da população FX , as hipóteses deste
teste são:
H0 : Todas as observações são provenientes de FX ,
vs.
H1 : Existem até r observações que não são provenientes de FX ,
sendo a estatística de teste dada por:
Ri =maxi|Xi −X|
S, i = 1, 2, . . . , r, (5.29)
onde X e S representam os estimadores média e desvio padrão amostrais, respetivamente.
Removendo a observação que maximiza |xi − x|, calcula-se o valor da estatística de teste com as
restantes n − 1 observações, onde n é a dimensão da amostra. Repetindo este procedimento até se
removerem r observações, obtêm-se os valores das r estatísticas de teste r1, r2, ..., rr.
42
De seguida, calculam-se os r valores críticos
λi =(n− i)tp,n−i−1√
(n− i− 1 + t2p,n−i−1)(n− i+ 1), i = 1, . . . , r, (5.30)
onde tp,ν é o quantil de ordem p de uma distribuição t de Student com ν graus de liberdade e p =
1− α2(n−i+1) , onde α é o nível de significância considerado.
O número de outliers é dado pelo maior índice i tal que ri > λi.
Uma vez que se sabe que os estimadores média e desvio padrão amostrais não são robustos
na presença de outliers, optar-se-á por não se utilizar estes estimadores no procedimento anterior,
substituindo-os pela mediana e pelo MAD (ajustado pelo fator 1.4826), respetivamente, tal como em
Vallis et al. (2014).
Adicionalmente, utilizar-se-á o estimador-M de localização de Huber (Huber e Ronchetti (1981)) e
o estimador de dispersão Qn (Rousseeuw e Croux (1993)) para substituir a média e o desvio padrão
amostrais, respetivamente, uma vez que estes para além de serem robustos apresentam melhor efici-
ência que a mediana e o MAD.
Para a aplicação deste método a séries temporais com sazonalidade, tal como se observa no caso
de séries temporais provenientes de sistemas de abastecimento de água, define-se um valor r para
o número máximo de outliers a considerar e denote-se por X = {Xt}t=1,...,n o processo estocástico
associado à série temporal em estudo. De seguida, procede-se como se descreve em Vallis et al.
(2014):
1. Definir ν = {};2. Determinar a periodicidade/sazonalidade;
3. Dividir X em janelas WX(t) sem interseção e que contenham pelo menos 2 semanas;
4. Para todas as janelas WX(t):
(a) Definir nW = número de observações em WX(t);
(b) Verificar que r ≤ (nW × 0.49);
(c) Utilizando a decomposição STL [Cleveland et al. (1990)], extrair a componente sazonal SXde WX(t);
(d) Calcular um estimador de localização (mediana ou Huber) X∗;
(e) Calcular a componente residual RX = X − SX −X∗;(f) Aplicar o teste do DSE generalizado a RX , utilizando o mesmo estimador de localização que
anteriormente (no caso da mediana, utiliza-se o MAD como estimador de dispersão e, no
caso do Huber, utiliza-se o Qn). Obter o vetor de outliers XO, ou seja, XO = DSE(RX , r);
(g) ν = ν ∪XO
5. ν é o vetor com os outliers detetados.
Uma vez que, supondo que se tem sazonalidade semanal, é importante detetar efeitos semanais,
então o tamanho das janelas escolhidas deverá englobar pelo menos dois períodos, ou seja, duas
semanas de modo a que tais efeitos possam ser detetados. Na prática, optar-se-á por utilizar quatro
semanas.
Este método foi desenvolvido por uma equipa da rede social Twitter e, por esse motivo, daqui em
diante, será designado como método Twitter. Além disso, a variante que utiliza a mediana e o MAD
será designada por Twitter MM e a variante que utiliza o estimador de Huber e o Qn será designada
por Twitter HQ.
Aquando da aplicação prática deste método ao caso em estudo e devido à falta de conhecimento
relativo à estacionariedade das séries temporais, optar-se-á por aplicar este método não apenas aos
43
dados originais, mas também ao logaritmo dos mesmos e à sua transformação de Box-Cox.
Uma vez que algumas séries apresentam valores nulos e, portanto, não é possível aplicar o mé-
todo com o logaritmo dos dados originais nem com a transformação de Box-Cox, estes valores serão
substituídos por um valor inferior aos mínimos não nulos das séries temporais.
5.2.3 Método de Tukey
O método tradicional de Tukey para deteção de outliers, descrito em Tukey (1977), consiste em ava-
liar quão distante uma observação se encontra em relação aos 1º e 3º quartis utilizando a amplitude
inter-quartis, ou seja, uma observação é considerada como outlier no caso de se encontrar na região
{x : Q3 + c IQR(X) < x ∨ x < Q1 − c IQR(X)}, onde Q1 e Q3 são o 1º e o 3º quartis amostrais do pro-
cesso X, respetivamente, c é uma constante e IQR(X) = Q3−Q1 representa a amplitude inter-quartis.
Em geral, c = 1.5 ou c = 3, sendo que, neste último caso, os outliers são designados como severos.
Uma vez que as séries temporais em estudo apresentam sazonalidade, para uma melhor deteção
de outliers, optar-se-á por não considerar os quartis das n observações anteriores, mas dividir a série
por meses semelhantes e por dias úteis, sábados e domingos. Deste modo, para verificar se uma
observação é um outlier são consideradas as n observações anteriores de meses semelhantes e do
mesmo tipo de dia da semana. De modo a perceber quais os meses semelhantes irá ser realizada
uma análise de clusters, considerando as séries das medianas das observações de cada mês em cada
instante de tempo.
Na análise de clusters, utilizar-se-á o método de Ward com a distância DTW, tal como no caso do
agrupamento de séries temporais.
Neste caso, optar-se-á por realizar a deteção de outliers para apenas uma semana, ao invés das
quatro semanas utilizadas no método Twitter, uma vez que este método utiliza as observações passa-
das apenas para detetar os efeitos da sazonalidade diária. Além disso, aquando da aplicação prática
deste método ao caso em estudo e tal como no método Twitter, este será aplicado aos dados originais,
mas também ao logaritmo dos mesmos e à sua transformação de Box-Cox. No caso da existência de
valores nulos, estes serão substituídos, tal como referido na secção 5.2.2.
Por questões de simplicidade de referência, este método será denominado por método de Tukey,
apesar de não corresponder ao método de Tukey original.
5.2.4 Método baseado na representação simbólica de séries temporais (SAX)
Devido ao elevado número de observações de algumas séries temporais, por vezes, torna-se ne-
cessário utilizar algoritmos que permitam diminuir as suas dimensões. Além disso, poderá também
ser útil utilizar uma representação simbólica das séries temporais em detrimento dos dados originais.
Deste modo, uma possível abordagem será a utilização do procedimento designado por SAX (Symbolic
Aggregate approXimation), apresentado em Lin et al. (2007).
Utilizando o SAX é possível reduzir uma série temporal de dimensão n a uma representação simbó-
lica de dimensão w, com w < n, sendo que, tipicamente, o que se pretende é que w � n. Para tal é
utilizado um alfabeto de tamanho af , onde af > 2 é um inteiro arbitrário. A primeira etapa aquando da
utilização do SAX baseia-se em transformar a série temporal numa aproximação agregada por partes
(PAA - Piecewise Aggregate Approximation), seguindo-se a representação simbólica da PAA. Assim, é
criada uma sequência discreta que representa a série temporal. A notação que será utilizada encontra-
se sumariada na tabela 5.1.
44
Tabela 5.1: Notação utilizada no SAX
Símbolo DescriçãoC Série temporal original C = c1, c2, . . . , cn.C Aproximação agregada por partes (PAA) da série temporal C = c1, c2, . . . , cw.C Representação simbólica da série temporal C = c1, c2, . . . , cw.w Número de segmentos utilizados para representar a série temporal na PAA.af Tamanho do alfabeto.
Redução da dimensão através da PAA
Uma série temporal C de tamanho n poderá ser representada num espaço de dimensão w por
C = c1, c2, . . . , cw, onde ci é dado por:
ci =w
n
nw i∑
j= nw (i−1)+1
cj , (5.31)
ou seja, a série temporal é dividida em w partes de igual tamanho, sendo que, na representação redu-
zida da série, é utilizada a média de cada uma destas frações. Por simplicidade, assume-se que w é
um divisor de n. Na figura 5.1, apresenta-se um exemplo da aplicação da PAA a uma série temporal.
0 20 40 60 80 100
2040
6080
100
120
Série temporal C
PAA da série temporal C
Figura 5.1: Exemplo da aplicação da PAA a uma série temporal.
Discretização
Para se efetuar a discretização da série, serão utilizados breakpoints, isto é, uma sequência de
pontos β1, β2, . . . , βaf−1 tal que a probabilidade empírica da própria série estar entre βi e βi+1 é igual
a 1af
e β0 e βaf são definidos como −∞ e +∞, respetivamente1.
Obtida a representação PAA da série temporal, é atribuída uma letra a cada segmento, conforme
a sua posição em relação aos breakpoints, tal como se pode visualizar na figura 5.2, onde as linhas a
tracejado representam os diferentes breakpoints.
Deste modo, uma sequência C de tamanho n pode ser representada por uma palavra de tamanho
w, C = c1, c2, . . . , cw, onde, definindo-se αj como o j-ésimo elemento do alfabeto, ou seja, α1 = a,
α2 = b, . . . , tem-se que:
ci = αj , se e só se βj−1 ≤ ci < βj . (5.32)
1Em Lin et al. (2007), os breakpoints eram definidos com base na distribuição normal, contudo, em Lin e Li (2009), é indicadaa possibilidade de estes serem obtidos com base na distribuição empírica da série temporal em estudo, sendo esta a opção quese tomou para os casos em estudo.
45
0 20 40 60 80 100
2040
6080
100
120
ba a
b
e e ed
cc
d
b
Série temporal C
PAA da série temporal C
a
b
c
d
e
Figura 5.2: Exemplo da aplicação do SAX a uma série temporal.
Assim, o resultado final da aplicação do SAX a uma série temporal é a representação obtida pela
aplicação das fórmulas (5.31) e (5.32). A série apresentada na figura 5.2, cuja dimensão inicial é
de n = 96 observações, após aplicação do SAX, seria representada por baabeeedccdb, ou seja, teria
dimensão w = 12.
O objetivo da utilização do SAX, no caso em estudo, relaciona-se com a deteção de outliers em sé-
ries de consumos de água, onde se sabe que existe sazonalidade diária e semanal, tal como estudado
em Barrela (2015). Deste modo, pretende-se utilizar este método através da construção, com obser-
vações passadas, de um padrão com o SAX para cada dia da semana de cada mês e subsequente
comparação das novas observações com o padrão correspondente.
Assim, considerando que o padrão é representado por C = c1, c2, . . . , cw, se a nova observação,
após aplicação da PAA, no instante i, i = 1, 2, . . . , w, não se encontrar entre os breakpoints βj−1 e βj ,
ou seja, não for representada pela mesma letra, então é considerada como atípica, onde j é dado por
ci = αj , tal como definido em (5.32).
De notar que, para a deteção de outliers, β0 e βaf não são definidos como −∞ e +∞, mas como
o mínimo e o máximo da série utilizada para a construção dos quantis. Além disso, se ci = βaf , então
assume-se ci = αaf .
Para a aplicação prática deste método, é necessário definir valores para af (tamanho do alfabeto
a utilizar) e w. Uma vez que os dados de que se dispõe resultam de medições diárias que começam
às 00h00 e são efetuadas a cada 15 minutos, ou seja, 96 medições por dia, e se pretende que cada
segmento da PAA possua sentido na prática, estudar-se-á a possibilidade de se utilizar w = 24 (um
segmento para cada hora), w = 48 (um segmento para cada 30 minutos) ou, no pior dos casos, w = 96
(um segmento para cada 15 minutos, ou seja, para cada observação).
Relativamente ao valor de af , foi possível perceber através de Wei et al. (2006), Lin et al. (2007),
Lin e Li (2009) e Lin et al. (2012), que este, em geral, toma valores entre 3 e 6, sendo, no máximo, 10.
Deste modo, começar-se-á por estudar as possibilidades af = 4 e af = 5, uma vez que são as mais
frequentes.
Para a construção do padrão, utilizar-se-á os clusters dos meses referidos na secção 5.2.3 de modo
a que estes dados sejam separados por dia da semana e, consequentemente, seja construído o padrão
do dia da semana e mês que se pretende estudar. Contudo, duas hipóteses foram colocadas quanto
ao modo de definir o padrão de comportamento normal: a média ou a mediana para cada instante de
tempo. Para ser possível comparar as duas abordagens, optar-se-á por utilizar os quantis dos dados
46
não agregados, já que os quantis das séries das médias e das medianas são diferentes.
Ao contrário do que anteriormente tem sido realizado, utilizar-se-á apenas um dia da semana para
analisar o desempenho deste método, ao invés de uma semana inteira, já que os padrões foram cons-
truídos para cada dia da semana.
Em geral, a aplicação deste método é efetuada às séries normalizadas ou padronizadas [Lin et al.
(2007)]. De modo a perceber se a normalização das séries tem influência na deteção de outliers tam-
bém se analisará esta possibilidade.
Existem vários procedimentos para normalizar séries temporais. Neste trabalho, começar-se-á por
utilizar a normalização min-max no intervalo [0,1], ou seja,
x′t =xt −min(x1, . . . , xN )
max(x1, . . . , xN )−min(x1, . . . , xN ), (5.33)
onde xt é a observação no instante t de um processo estocástico cujo conjunto das observações é
representado por {xt}Nt=1 e min(x1, . . . , xN ) e max(x1, . . . , xN ) representam o mínimo e máximo, res-
petivamente, dessa realização do processo.
Uma das desvantagens desta normalização é o facto de, na realidade, não se conhecer o valor
mínimo e máximo das observações de uma série futura, podendo estes ser inferiores ou superiores aos
valores mínimos e máximos, respetivamente, das séries já observadas [Ogasawara et al. (2010)]. Nesse
sentido, para a aplicação prática desta normalização, e considerando que o padrão do comportamento
normal para o dia que se pretende testar é designado por série padrão e a série do dia que se irá testar
é designada por série de teste, várias alternativas serão colocadas:
1. normalizar a série padrão e a série de teste com os mesmos mínimos e máximos, ou seja, utili-
zando o mínimo e o máximo de ambas as séries;
2. normalizar a série padrão e a série de teste separadamente, utilizando os seus respetivos mínimos
e máximos;
3. normalizar a série padrão e a série de teste com os mesmos mínimos e máximos, utilizando o
mínimo e o máximo dos dados utilizados para a construção da série padrão (ao invés do mínimo
e do máximo da série padrão) e dos dados da série de teste;
4. normalizar a série padrão e a série de teste separadamente, utilizando o respetivo mínimo e
máximo no caso da série de teste e o mínimo e o máximo dos dados utilizados para a construção
da série padrão como o mínimo e o máximo desta série.
Além da normalização min-max, considerar-se-á ainda a normalização clássica, aqui designada por
padronização, ou seja,
x′t =xt − xsX
, (5.34)
onde xt é a observação no instante t de um processo estocástico cujo conjunto de observações é
representado por {xt}Nt=1 e x e sX são a média e o desvio padrão amostrais da realização desse
processo, respetivamente. Em detrimento da média e do desvio padrão, estes serão ainda substituídos
pela mediana e pelo MAD, como uma outra alternativa.
A desvantagem desta padronização reside na questão relativa à estacionariedade da série, uma vez
que, no caso de uma série temporal não ser estacionária, a média e o desvio padrão variam ao longo
do tempo. No caso de estudo e uma vez que apenas se está a utilizar um dia, essa questão não se
colocou.
Para padronizar a série de teste serão utilizadas duas formas diferentes: em primeiro lugar, começar-
se-á por padronizar esta série com as próprias estimativas da média e do desvio padrão, sendo esta
padronização designada por padronização 1. Contudo, uma vez que a série em teste poderá possuir
47
outliers que irão influenciar as estimativas da média e do desvio padrão, optar-se-á por também fa-
zer a padronização da série em teste com as estimativas da série padrão, sendo esta designada por
padronização 2.
Após a aplicação da normalização, pretende-se encontrar um valor δ, tal que, se uma observação
for considerada outlier, num determinado instante t, mas a sua distância à série padrão for inferior a
este valor δ, então esta observação não é considerada outlier. No caso da normalização min-max no
intervalo [0,1], pretende-se encontrar um valor que seja possível de aplicar a todas as séries, enquanto
que, no caso da padronização, este valor terá de depender da própria série padrão, por exemplo,
através da sua amplitude. Para a construção deste valor, dentro de cada cluster, calcular-se-á um δ
para cada uma das séries em função dos outliers introduzidos, sendo que o valor considerado será
independente da amplitude da série de modo a que se possa calcular a sua média e a sua mediana e,
consequentemente, escolher qual a melhor opção.
Considerando {t1, . . . , tv} o conjunto dos instantes de tempo onde existem outliers numa determi-
nada série, para a construção do valor δ, começar-se-á por calcular as seguintes distâncias:
d(pti , sti) = |pti − sti |, ∀i ∈ {1, . . . , v}, (5.35)
onde pti e sti representam os valores obtidos após aplicação da PAA à série padrão e à série em teste,
respetivamente, no instante de tempo ti. Assim, no caso de se optar por utilizar a padronização usual,
definir-se-á:
δ =maxi
(d(pti , sti))
max(P )−min(P ), (5.36)
onde P é a série padrão. Definindo deste modo o valor de δ, para a sua aplicação a uma nova série,
considerar-se-á que, quando a distância entre uma observação e a série padrão nesse instante de
tempo for inferior a δ× (max(Pn)−min(Pn)), onde Pn é a nova série padrão, então a observação não
é considerada outlier, independentemente de ter ou não a mesma representação simbólica que a série
padrão naquele instante de tempo. No caso de se optar pela normalização min-max, na fórmula (5.36),
não será necessário dividir pela amplitude da série padrão P , tal como não será necessário multiplicar
por max(Pn)−min(Pn) aquando da aplicação a uma nova série.
Na aplicação deste método ao caso em estudo, analisar-se-á as três situações: os dados originais,
o seu logaritmo e a transformação de Box-Cox dos mesmos.
5.3 Medidas de avaliação de desempenho entre diferentes
métodos
No sentido de se comparar os resultados obtidos com os diferentes métodos, utilizar-se-ão algumas
medidas de desempenho. Neste caso, uma vez que se está perante um problema de classificação
binária, ou seja, uma observação apenas pode ser classificada como outlier ou não outlier, constrói-se
a matriz de confusão presente na tabela 5.2.
A matriz de confusão sumaria as seguintes quantidades:
• VP - verdadeiros positivos;
• FN - falsos negativos;
• FP - falsos positivos;
• VN - verdadeiros negativos.
48
Tabela 5.2: Matriz de confusão associada ao problema de classificação binária.
Classificação
Outlier (c+) Não Outlier (c−)
RealOutlier (c+) VP FN N+
Não Outlier (c−) FP VN N−
Total N+ N− N
Considerando φ um determinado classificador, φ(x) o resultado da classificação atribuída a x, e C
a verdadeira classificação, podem ser definidas outras medidas de avaliação de desempenho desse
classificador, nomeadamente:
• Sensibilidade (Taxa de verdadeiros positivos):
TVP = P (φ(x) = c+|C = c+) =VP
VP+FN; (5.37)
• Precisão (Taxa de preditos positivos):
TPP = P (C = c+|φ(x) = c+) =VP
VP+FP; (5.38)
• Score F1:
F1 =2 · TVP · TPPTVP + TPP
. (5.39)
Serão estas as três medidas de desempenho utilizadas para a comparação dos diferentes métodos.
Todas elas têm uma variação entre 0 e 1, onde o valor 1 significa que todos os elementos a classificar
foram corretamente classificados.
49
50
Capítulo 6
Resultados da deteção de outliers em
séries temporais de caudal
Neste capítulo, pretende-se aplicar todos os métodos de deteção de outliers apresentados anterior-
mente a casos práticos de séries de caudal reais. Nesse sentido, para a construção de intervalos de
previsão e de confiança e os intervalos combinados baseados no modelo TBATS, cujos resultados se-
rão apresentados nas secções 6.1.1, 6.1.2 e 6.1.3, serão utilizadas três séries temporais, provenientes
de sistemas de distribuição de água, relativas a três setores de rede diferentes, também designados
por zonas de medição controlada (ZMC), daqui em diante designadas por ZMC1, ZMC2 e ZMC3. Cada
uma destas séries tem por base medições do consumo de água num determinado setor, recolhidas ao
longo de um ano, em intervalos de tempo de 15 minutos, ou seja, 96 registos por dia. Alguns destes
valores poderão não constar da base de dados, devido à ocorrência de falhas no registo da respetiva
medição. Dada a elevada dimensão destas séries temporais e a complexidade computacional da es-
timação dos modelos e das simulações, apenas será utilizada uma fração das mesmas, entre três a
quatro semanas, em que não se verificam falhas nos valores.
Na secção 6.2, serão utilizadas 28 séries temporais de consumos de água recolhidas na primeira
edição do projeto iPerdas – Iniciativa Nacional para a Gestão Eficiente de Perdas, promovido pelo
Laboratório Nacional de Engenharia Civil (LNEC). Uma vez que estas se encontravam numeradas de
forma aleatória e anónima, optou-se por manter essas denominações, em detrimento da atribuição de
números às diferentes ZMC. Também estas séries correspondem a um ano de observações, a cada 15
minutos, iniciadas a 1 de janeiro. Optou-se pela utilização de séries temporais de um ano civil, iniciadas
a 1 de janeiro, uma vez que a deteção de outliers, ou seja, fugas e roturas nas redes, permite uma
melhor estimação das perdas reais de água no balanço hídrico anual que, em geral, corresponde a um
ano civil iniciado a 1 de janeiro. Assim, a estimativa das perdas reais através da deteção de outliers
poderá ser utilizada no preenchimento do balanço hídrico correspondente. Estas também serão as
séries que se utilizarão para testar o método Twitter (secção 6.3.1), o método de Tukey (secção 6.3.2),
o método baseado no SAX (secção 6.3.3) e todas as suas variantes.
Todas as análises foram efetuadas utilizando o software estatístico R (R Core Team (2015)).
51
6.1 Deteção de outliers com base no modelo TBATS
6.1.1 Intervalos de previsão
Para a construção destes intervalos, começou-se por ajustar um modelo TBATS a cada uma das sé-
ries em estudo, utilizando frações de três semanas em todos os casos, tal como sugerido em Barrela
(2015). Após a obtenção dos modelos, fizeram-se as previsões de uma semana e construiram-se os
respetivos intervalos a 95%. As observações originais que não se encontravam dentro destes limites
foram consideradas como possíveis outliers.
Os resultados obtidos relativos às três séries temporais utilizadas neste estudo encontram-se re-
presentados nos gráficos 6.1, 6.2 e 6.3. Através da sua análise, pode-se concluir que este método
produz muitos falsos alarmes, ou seja, muitas observações são identificadas como outliers, apesar de,
na realidade, poderem não o ser.
Contudo, de modo a perceber se, no caso de existirem outliers, estes são detetados, as séries
temporais utilizadas foram alteradas, introduzindo-se outliers fictícios na semana para a qual se está a
efetuar a previsão (as figuras 6.1, 6.2 e 6.3 já incluem estas modificações). Estas observações atípicas
foram introduzidas de forma consecutiva de modo a simular uma potencial fuga de água, ou seja,
foram introduzidas 20 observações atípicas nas ZMC1 e ZMC3 e 21 na ZMC2, o que corresponde a 4
horas e 4 horas e 15 minutos, respetivamente. A opção pela utilização deste número de horas tem por
base o tempo necessário, em geral, para que as roturas sejam reparadas. Em relação à ZMC1, estas
observações foram introduzidas nos instantes de 584 a 603 (madrugada), tendo-se utilizado os valores
originais multiplicados por 1.6. No caso da ZMC2, o mesmo fator multiplicativo foi utilizado, mas, neste
caso, os instantes de tempo cujas observações foram alteradas são de 103 a 123 (madrugada). Na série
temporal ZMC3, alteraram-se as observações dos instantes de tempo de 27 a 46 (manhã), utilizando-se
um fator multiplicativo de 2. Os valores dos fatores multiplicativos foram definidos em função das séries,
de modo a que se verifica-se uma diferença de comportamento nesse período de tempo. Esta análise
permitiu concluir que, nos três casos, todos os outliers introduzidos foram detetados, tal como se pode
verificar pelos valores obtidos em termos de sensibilidade na tabela 6.1. Contudo, verifica-se que os
valores de precisão são muito baixos, o que se reflete nos scores F1 inferiores a 0.5 para as 3 ZMC.
Tabela 6.1: Medidas de desempenho nas 3 ZMC, utilizandoos intervalos de previsão como método de deteção de outliers.
Medidas de desempenho ZMC1 ZMC2 ZMC3Sensibilidade 1 1 1Precisão 0.32 0.22 0.19Score F1 0.49 0.37 0.32
6.1.2 Intervalos de confiança
Mais uma vez, começou-se por ajustar um modelo TBATS a cada uma das frações das séries temporais,
constituídas por três semanas cada. Após a obtenção dos modelos, foram realizadas simulações tal
como descrito na secção 5.1.3 e construídos intervalos de confiança para as séries temporais utilizando
um grau de confiança de 95%. De seguida, foram identificadas as observações consideradas como
outliers.
Quanto ao número de simulações a realizar de modo a obter-se uma boa estimativa para a variância
dos valores ajustados pelo modelo, analisaram-se os resultados obtidos com 500, 750 e 1000 simula-
ções para a primeira semana das três frações das séries temporais em estudo, ou seja, t = 1, . . . , 96×7.
52
0 500 1000 1500 2000 2500
2040
6080
100
120
140
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Valores ajustados pelo modelo
Previsões do modelo
Observações originais
Intervalos de previsão
Outliers
Figura 6.1: Intervalos de previsão para uma semana da série temporal ZMC1.
0 500 1000 1500 2000 2500
510
1520
2530
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Valores ajustados pelo modelo
Previsões do modelo
Observações originais
Intervalos de previsão
Outliers
Figura 6.2: Intervalos de previsão para uma semana da série temporal ZMC2.
0 500 1000 1500 2000 2500
020
4060
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Valores ajustados pelo modelo
Previsões do modelo
Observações originais
Intervalos de previsão
Outliers
Figura 6.3: Intervalos de previsão para uma semana da série temporal ZMC3.
53
0 100 200 300 400 500 600
0.5
0.6
0.7
0.8
0.9
1.0
Tempo (em intervalos de 15−min)
Des
vio
padr
ão d
as s
imul
açõe
s Y
tλ
500 simulações
750 simulações
1000 simulações
Figura 6.4: Desvio padrão simulado para uma semana da série temporal ZMC1.
0 100 200 300 400 500 600
0.07
0.08
0.09
0.10
0.11
0.12
0.13
Tempo (em intervalos de 15−min)
Des
vio
padr
ão d
as s
imul
açõe
s Y
tλ
500 simulações
750 simulações
1000 simulações
Figura 6.5: Desvio padrão simulado para uma semana da série temporal ZMC2.
0 100 200 300 400 500 600
23
45
67
8
Tempo (em intervalos de 15−min)
Des
vio
padr
ão d
as s
imul
açõe
s Y
tλ
500 simulações
750 simulações
1000 simulações
Figura 6.6: Desvio padrão simulado para uma semana da série temporal ZMC3.
54
Em cada um dos gráficos 6.4, 6.5 e 6.61, relativos a cada uma das ZMC, encontram-se os resultados
obtidos para os valores do desvio padrão em cada instante de tempo t, t = 1, . . . , 96× 7, utilizando 500,
750 e 1000 simulações. Analisando estes gráficos, pode verificar-se que as linhas a preto, correspon-
dentes aos resultados com 500 simulações, apresentam alguns picos em sentido oposto aos resultados
com 750 e 1000 simulações, sendo estes um pouco mais evidentes nos gráficos relativos à ZMC1 e à
ZMC3. Apesar da existência de algumas diferenças entre os resultados com 750 e 1000 simulações,
por questões computacionais, e, dada a relativa semelhança, optou-se por utilizar os resultados obtidos
com 750 simulações.
Nos gráficos 6.7, 6.8 e 6.9, apresentam-se os resultados obtidos para as ZMC1, ZMC2 e ZMC3,
respetivamente, sendo que ainda se encontram representadas as observações consideradas outliers.
Analisando estes gráficos, pode-se concluir que não parecem existir falsos alarmes, em oposição
ao que ocorria ao utilizar-se intervalos de previsão. Contudo, o número de outliers detetados revela-se
muito baixo, tal como se pode observar pelos valores de sensibilidade, presentes na tabela 6.2. No
caso da ZMC3, não foi possível calcular o score F1, uma vez que a sensibilidade e a precisão são
nulas2. Contudo, mesmo nas ZMC 1 e 2, verificam-se valores desta medida de desempenho muito
baixos, sendo, inclusive, mais baixos dos que os resultantes da aplicação dos intervalos de previsão.
Tabela 6.2: Medidas de desempenho nas 3 ZMC, utilizandoos intervalos de confiança como método de deteção de outliers.
Medidas de desempenho ZMC1 ZMC2 ZMC3Sensibilidade 0.15 0.05 0.00Precisão 0.50 0.14 0.00Score F1 0.23 0.07 NA
6.1.3 Intervalos de previsão e de confiança combinados
Uma vez que os intervalos de confiança não estão a detetar os outliers ao contrário dos intervalos de
previsão e estes últimos detetam muitos falsos alarmes, construiu-se um novo método que engloba os
dois intervalos e que permite fazer deteção de outliers em tempo real.
Os intervalos de confiança e de previsão para as séries temporais ZMC1, ZMC2 e ZMC3 foram
construídos utilizando m = 96 × 7 × 3 e N = 96 × 7 e seguindo o descrito na secção 5.1.4, ou seja,
os intervalos de previsão para uma semana foram construídos com base num modelo ajustado para
as observações das três semanas anteriores e os intervalos de confiança foram construídos com base
num modelo ajustado para as últimas três semanas (incluindo a semana utilizada para testar o método).
Nos gráficos 6.10, 6.11 e 6.12, encontram-se representados os intervalos combinados obtidos atra-
vés dos intervalos de previsão e de confiança e as observações consideradas outliers com base nos
mesmos. Neste caso, tal como nos intervalos de previsão e nos intervalos de confiança, foram também
considerados os outliers fictícios introduzidos na semana para a qual se está a efetuar a previsão, ou
seja, na semana representada nos gráficos 6.10, 6.11 e 6.12.
Pela análise do gráfico 6.10, pode-se observar que, pelo menos, alguns dos outliers introduzidos
foram detetados, tal como acontece nos gráficos 6.11 e 6.12. Contudo, comparando os valores de
sensibilidade e de precisão, o que poderá ser analisado utilizando o score F1 (tabela 6.3), verifica-
se que este, embora apresente valores mais elevados nas ZMC 1 e 3 do que nos casos em que os
intervalos são aplicados separadamente, não toma valores superiores a 0.8, o que indica que este
também não será ainda um bom método de deteção de outliers.1O gráfico dos valores simulados para o desvio padrão da ZMC3 apresenta um comportamento diferente relativamente aos
das ZMC1 e ZMC2, decorrente das diferenças verificadas na amplitude do eixo vertical.2Apesar de existir um falso alarme na série temporal relativa à ZMC3, dado o elevado número de observações desta série
(3× 7× 96 = 2016 observações), a precisão é considerada nula com o arredondamento a duas casas decimais.
55
0 500 1000 1500 2000
2040
6080
100
120
140
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Observações originais
Valores ajustados pelo modelo
Intervalos de confiança
Outliers
Figura 6.7: Intervalos de confiança na série temporal ZMC1.
0 500 1000 1500 2000
510
1520
2530
35
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Observações originais
Valores ajustados pelo modelo
Intervalos de confiança
Outliers
Figura 6.8: Intervalos de confiança na série temporal ZMC2.
0 500 1000 1500 2000
−20
020
4060
80
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Observações originais
Valores ajustados pelo modelo
Intervalos de confiança
Outliers
Figura 6.9: Intervalos de confiança na série temporal ZMC3.
56
0 100 200 300 400 500 600
2040
6080
100
120
140
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Observações originais
Intervalos Combinados
Outliers
Figura 6.10: Intervalos de previsão e de confiança combinados na série temporal ZMC1.
0 100 200 300 400 500 600
510
1520
2530
35
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Observações originais
Intervalos Combinados
Outliers
Figura 6.11: Intervalos de previsão e de confiança combinados na série temporal ZMC2.
0 100 200 300 400 500 600
020
4060
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Observações originais
Intervalos Combinados
Outliers
Figura 6.12: Intervalos de previsão e de confiança combinados na série temporal ZMC3.
57
Tabela 6.3: Medidas de desempenho nas 3 ZMC, utilizando osintervalos de previsão e de confiança combinados como método de deteção de outliers.
Medidas de desempenho ZMC 1 ZMC 2 ZMC 3Sensibilidade 0.80 0.29 0.40Precisão 0.64 0.32 0.80Score F1 0.71 0.30 0.53
6.2 Agrupamento e classificação de séries temporais de
consumos de água
Como referido no capítulo anterior, uma vez que as séries temporais de caudal apresentam compor-
tamentos e tendências diferentes entre si, considerou-se que se deveria fazer uma análise de clusters
para as mesmas de modo a estudar-se o melhor método de deteção de outliers para cada tipo de série.
Para a realização desta análise, foram utilizadas 28 séries, numeradas aleatoriamente desde série 1759
a série 6278. Estas bases de dados correspondem a medições iniciadas a 1 de janeiro e realizadas a
cada 15 minutos, ao longo de um ano civil. Uma vez que, na maioria das séries temporais utilizadas,
existiam valores omissos em alguns instantes de tempo e a aplicação da distância DTW não é possível
nestas circunstâncias, foi necessário reconstruí-las. Para tal, recorreu-se à modificação da abordagem
de Quevedo et al. (2010), tal como apresentada em Barrela (2015).
Dadas as diferentes magnitudes de valores das séries temporais em estudo, para a análise de
clusters, procedeu-se à sua padronização utilizando a média e o desvio padrão. Contudo, pela análise
detalhada das séries, concluiu-se que os possíveis padrões das mesmas, tais como sazonalidades
anuais, poderiam estar a ser dissimulados pela quantidade de valores existentes (35 040 instantes de
tempo). Deste modo, optou-se por realizar a análise de clusters com as séries resultantes das medianas
diárias dos consumos após padronização com a média e o desvio padrão.
Na figura 6.13, encontra-se representado o dendrograma obtido pela aplicação do método Ward à
matriz de dissemelhanças DTW das séries temporais das medianas diárias padronizadas. Pela análise
detalhada dos gráficos das séries em estudo, concluiu-se que a partição em 3 clusters é a mais ade-
quada. Além disso, com esta partição é possível ter-se uma série temporal da qual se conhecem os
outliers em cada um dos clusters considerados, isto porque os outliers das séries 6023, 6150 e 6278
são conhecidos. Deste modo, a partição em 3 clusters será a considerada para as análises subsequen-
tes, sendo que se considera que o cluster do lado esquerdo do dendrograma representa o cluster 3,
enquanto do lado direito se tem o cluster 2.
Observando os gráficos presentes nas figuras 6.14, 6.15 e 6.16, que representam a mediana diária
de algumas das séries padronizadas de cada um dos clusters, verifica-se que estas apresentam com-
portamentos e sazonalidades diferentes. No caso do cluster 1 (figura 6.14), verifica-se que as séries
nele incluídas apresentam, além da sazonalidade diária e semanal, uma sazonalidade relativa às es-
tações do ano, enquanto que, nas séries do cluster 2 (figura 6.15), tal já não se verifica. No cluster 3
(figura 6.16), estão incluídas séries que, aparentemente, não apresentam um padrão definido, podendo
resultar de ruídos nas leituras, ou seja, poderão ser outliers relativamente às restantes séries temporais
de caudal. Apesar disso, serão também analisadas no que diz respeito à deteção de outliers.
Tal como descrito na secção 5.2.1, após a realização da partição em clusters, procedeu-se à repre-
sentação das séries temporais em duas dimensões, o que foi possível recorrendo ao MDS métrico e
utilizando as dissemelhanças DTW já calculadas. A representação obtida encontra-se na figura 6.17,
onde se pode verificar que existe uma separação espacial entre os três clusters considerados. No
caso do cluster 1, verifica-se que este está associado a séries com ambas as coordenadas negati-
vas, enquanto que as séries do cluster 2, apresentam, em geral, valores na coordenada 2 positivos.
58
série
510
9
série
486
7
série
615
0
série
176
5
série
215
0
série
282
3
série
388
2
série
276
4
série
175
9
série
209
1
série
388
1
série
627
8
série
216
6
série
456
2
série
386
3
série
274
3
série
280
2
série
228
9
série
272
2
série
274
1 série
272
5
série
201
4
série
280
4
série
512
4
série
602
3
série
208
2
série
176
6
série
216
3
05
1015
20
DT
W
Figura 6.13: Dendrograma das séries temporais padronizadas das medianas diárias dos consumos de águaobtido pelo método Ward com a dissemelhança DTW.
Tempo (em dias)
série
175
9
0 100 200 300
−0.
50.
00.
51.
0
Tempo (em dias)
série
627
8
0 100 200 300
−0.
50.
51.
0
Figura 6.14: Medianas diárias de duas das séries temporais de consumos de água padronizados do cluster 1.
Relativamente ao cluster 3, pode-se verificar que estas três séries se encontram relativamente afasta-
das, o que é explicado pelo facto de estas não possuírem um padrão definido e, portanto, não serem
muito semelhantes. Contudo, estas conclusões são bastante coincidentes com o dendrograma obtido.
Quanto à classificação de uma nova série, tal como descrito na secção 5.2.1, procedeu-se à apli-
cação do classificador kNN, utilizando a matriz de dissemelhanças DTW das séries temporais das
medianas diárias dos consumos padronizados. Para a completa aplicação deste método, é necessário
definir o valor de k, ou seja, do número de vizinhos mais próximos a considerar. Para tal, começou-
se por dividir o conjunto das séries temporais em dois conjuntos: de treino (75%) e de teste (25%).
59
Tempo (em dias)
série
216
3
0 100 200 300−
0.5
0.0
0.5
1.0
Tempo (em dias)
série
228
9
0 100 200 300
01
23
Figura 6.15: Medianas diárias de duas das séries temporais de consumos de água padronizados do cluster 2.
Tempo (em dias)
série
510
9
0 100 200 300
−0.
50.
51.
5
Tempo (em dias)
série
615
0
0 100 200 300
−1.
00.
01.
0
Figura 6.16: Medianas diárias de duas das séries temporais de consumos de água padronizados do cluster 3.
Deste modo, utilizando o conjunto de treino procedeu-se à classificação do conjunto de teste, de modo
a escolher para k o valor cujo erro de má classificação (estimado) associado fosse o mais baixo. A
representação gráfica do erro de má classificação estimado em função do número de vizinhos mais
próximos, k, encontra-se na figura 6.18. Tal como se pode verificar, para k = 1, obtém-se o menor erro
de má classificação estimado possível, 0.14, o que significa que 14% das séries foram mal classifica-
das. De modo a confirmar estes valores, procedeu-se à realização da validação por leave-one-out. Esta
validação consiste na retirada de uma série do conjunto total de séries em estudo e a realização da sua
classificação com base nas restantes séries temporais, repetindo-se este procedimento para todas as
séries temporais. Esta validação permitiu obter um valor de accuracy de 0.75, ou seja, 75% das séries
foram bem classificadas. De realçar que, dadas as diferenças entre as séries do cluster 3 e a inexistên-
cia de um padrão nas mesmas, não foi possível classificar corretamente nenhuma destas séries tendo
60
por base as restantes. Deste modo, como se considera que estas séries poderão ser outliers entre as
séries temporais de caudal, procedeu-se à aplicação do kNN sem estas séries. Neste caso, obteve-se
igualmente k = 1, tendo sido nulo o erro de má classificação (estimado) associado a este valor de k,
por validação cruzada. No caso da validação por leave-one-out, obteve-se um valor de accuracy de
0.84.
−10 −5 0 5 10
−6
−4
−2
02
46
Coordenada 1
Coo
rden
ada
2
série 1759
série 1765
série 1766
série 2014
série 2091série 2166
série 2289
série 2764
série 3863
série 3881
série 3882
série 4562
série 4867
série 2082
série 2163
série 2150
série 2722
série 2725
série 2741série 2743
série 2802
série 2804
série 2823
série 5109
série 5124 série 6150série 6023
série 6278
Cluster 1
Cluster 2
Cluster 3
Figura 6.17: Representação das séries temporais em duas dimensões com base no MDS métrico.
2 4 6 8 10
0.2
0.3
0.4
0.5
k
Err
o de
má
clas
sific
ação
est
imad
o
Figura 6.18: Gráfico do erro de má classificação estimado do kNN em função de k,utilizando a validação cruzada.
61
Para a aplicação dos métodos que se irão testar de seguida, começou-se por selecionar quatro
semanas de cada uma das séries e, naquelas que não são conhecidos a priori os outliers, foram
introduzidos alguns fictícios num dos dias da última semana. A opção pela introdução de 20 outliers em
cada uma das séries, o que corresponde a 4 horas, tem por base o tempo necessário, em geral, para
se proceder à respetiva reparação, como se tinha já referido. Nas tabelas B.1, B.2 e B.3 da secção B
dos Anexos, encontram-se indicadas as semanas que foram consideradas para a análise, tal como os
instantes de tempo da última semana em que se introduziram os outliers. Além disso, é ainda indicada
a forma como estes foram criados, ou seja, se se utilizou a multiplicação por um fator ou a soma de
uma constante às medições registadas nesses instantes de tempo. Tanto o fator como a constante são
dependentes das séries, sendo que foram definidos de modo a que se verificasse uma alteração no
comportamento da série naquele período de tempo. Recordar que as séries para as quais se conhece
as observações atípicas são as séries 6023, 6150 e 6278.
6.3 Métodos para a deteção de outliers baseados nas
características das séries temporais de caudal
6.3.1 Método Twitter
Considerando os três clusters que se obtiveram na secção 6.2, pretende-se aplicar as variantes do
método Twitter apresentadas na secção 5.2.2 às séries de cada um dos grupos. Para tal, começou
por se definir o valor de r como o mais elevado possível, ou seja, 49% das observações da série, uma
vez que se supõe não existir nenhum conhecimento quanto ao número de outliers existentes. Como
nos clusters 1 e 2 existem séries temporais com valores nulos e, portanto, não seria possível aplicar
o logaritmo e a transformação de Box-Cox nestes casos, optou-se por atribuir a estes instantes um
valor de consumo mínimo não nulo, inferior ao mínimo não nulo das próprias séries3. Na prática, esta
transformação das séries traduziu-se na substituição dos valores nulos por 0.01, uma vez que o mínimo
não nulo de todas as séries em que se verificou a ocorrência de zeros era de 0.57, no cluster 1, e de
0.042, no cluster 2.
Os resultados em termos de sensibilidade, precisão e score F14, encontram-se nas tabelas 6.7, 6.8
e 6.9, respetivamente, para o grupo 1, e nas tabelas 6.10, 6.11 e 6.12, respetivamente, para o grupo
3, nas colunas “Twitter MM”, “Twitter HQ”, “Twitter MM Logaritmo”, “Twitter HQ Logaritmo”, “Twitter MM
Box-Cox” e “Twitter HQ Box-Cox”, onde “logaritmo” e “box-cox” indicam qual a transformação aplicada
aos dados, sendo que a ausência de indicação indica que nenhuma transformação foi aplicada, e “MM”
e “HQ” indicam qual a variante do método Twitter utilizada. De referir que o método MM diz respeito à
utilização da mediana e do MAD como estimadores de localização e de dispersão, respetivamente, e o
método HQ utiliza o estimador de localização de Huber e o estimador de dispersão Qn, em detrimento
da média e do desvio padrão. Nas últimas linhas indicam-se os valores das medianas e médias globais
e os números de séries cujo valor na respetiva medida de desempenho foi superior ou igual a 0.85 e
inferior a 0.6. As tabelas com os resultados para o grupo 2 (B.4, B.5 e B.6) encontram-se nos Anexos,
uma vez que estes foram relativamente semelhantes aos do cluster 1, sendo que as tabelas relativas
aos resultados do cluster 3 são apresentadas devido às diferenças já mencionadas entre as séries
deste cluster.
Analisando os resultados obtidos, verificou-se que, em geral, a precisão aumentou ou manteve-se
3A substituição dos valores nulos por valores mínimos não é irreal, uma vez que, em geral, estes estão associados a problemasnas medições e, portanto, não correspondem efetivamente à inexistência de consumo.
4Para alguns métodos, não foi possível calcular os valores do score F1, uma vez que a sensibilidade e a precisão eramsimultaneamente nulas. Deste modo, estas séries não foram consideradas aquando da comparação desses métodos.
62
quando se utilizou o método HQ, em comparação com o MM, o que indica que o primeiro, em geral,
deteta menos falsos alarmes. Contudo, no caso da sensibilidade, verificou-se a tendência contrária,
ou seja, o método MM apresentou, em geral, valores iguais ou mais elevados nesta medida de de-
sempenho do que o método HQ. Balanceando estas duas medidas de desempenho através do score
F1, concluiu-se que, em geral, este melhora com a utilização do método HQ. Estas conclusões foram
transversais aos três clusters.
No caso do método MM, verificou-se que, no cluster 1, em termos de sensibilidade, os melhores
resultados foram obtidos quando se utilizou os dados originais. Contudo, em termos de precisão, não
foi possível retirar conclusões muito claras, tal como no caso do score F1. Apesar de as conclusões
serem idênticas em termos de sensibilidade, no caso do cluster 2, verificou-se que, em termos de
precisão e do score F1, a transformação do logaritmo deu origem a melhores resultados.
No caso do cluster 3, com a análise das tabelas 6.10, 6.11 e 6.12, não foi possível retirar conclusões
claras relativamente às transformações, dado o baixo número de séries.
No caso do método HQ, no cluster 1, verificou-se que, em termos de sensibilidade, os melhores
resultados foram obtidos quando se utilizou os dados originais, tal como acontecia com o método MM.
Além disso, também neste caso, não existiu uma distinção entre o logaritmo e a transformação de Box-
Cox. Contudo, foi com esta última transformação que se obteve os melhores resultados em termos de
precisão. Na figura 6.19, é possível observar um exemplo de uma série do cluster 1, com a identificação
dos outliers introduzidos e detetados com o método Twitter HQ, sem transformações nos dados. Tal
como se pode observar, apesar de os outliers introduzidos serem detetados, também se verifica que
existe um elevado número de falsos alarmes.
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
0 500 1000 1500 2000 2500
1020
3040
5060
Outliers introduzidos
Outliers detetados
Figura 6.19: Deteção de outliers na série 1759, do cluster 1,com recurso ao método Twitter HQ sem transformações.
No cluster 2, a comparação do método HQ com os dados introduzidos em diferentes formatos,
permitiu retirar as mesmas conclusões, em termos de precisão e do score F1, que com o método MM,
apesar de, em termos de sensibilidade, se concluir que os dados originais, em geral, deram origem a
melhores resultados.
Quanto ao cluster 3, tal como no caso do método MM, também com o método HQ não foi possível
retirar conclusões claras sobre qual a melhor transformação.
Deste modo, concluiu-se que, em geral, tanto no método MM como no HQ, os melhores resultados
de sensibilidade e precisão não são coincidentes no que diz respeito à transformação dos dados. Este
facto refletiu-se nos baixos valores obtidos nos scores F1, o que levou a que se concluísse que este
não é um bom método de deteção de outliers nas séries em estudo.
63
6.3.2 Método de Tukey
De modo a aplicar-se o método de Tukey, tal como descrito na secção 5.2.3, é necessário começar
por estudar quais os meses do ano que são semelhantes. Uma vez que existem 3 clusters de séries
temporais de caudal, será necessário realizar uma análise para cada um dos clusters.
Para a realização destas análises, é essencial definir quais as séries temporais que se irão utilizar
para a construção da matriz de dissemelhanças, ou seja, é necessário que cada série temporal de
consumos anuais dê origem a 12 séries, cada uma relativa a um mês do ano. Para tal, optou-se
por dividir a série temporal anual por meses e, para cada mês, calcular a mediana das observações
em cada instante de tempo, obtendo-se uma série de comprimento 96 para cada mês do ano. Por
exemplo, no caso da série do mês de janeiro, a primeira observação corresponde à mediana de todas
as medições efetuadas às 00h00 dos 31 dias de janeiro daquele ano.
Após a construção das séries necessárias para a análise, procedeu-se ao cálculo da matriz de
dissemelhanças, utilizando a distância DTW. Para a análise de clusters, optou-se, mais uma vez, por
utilizar o método de Ward5.
Uma vez que estas análises são realizadas para cada série temporal de forma individual, após a
sua realização, comparou-se os resultados obtidos com todas as séries temporais de cada cluster, de
modo a estudar a possível existência de padrões comuns entre as séries de cada um destes grupos.
Uma vez que nem sempre todas as séries apresentaram exatamente o mesmo padrão, a escolha dos
clusters teve por base os padrões existentes na maioria das séries. No caso da existência de meses em
que as diferenças entre séries eram relativamente elevadas, separou-se esses objetos e verificou-se,
para cada série, em que variáveis eram coincidentes, construindo deste modo novos clusters.
Nas figuras 6.20, 6.21 e 6.22, encontram-se os dendrogramas obtidos na análise dos meses para
uma série de cada um dos clusters. Tal como se pode observar, em todos os casos, a partição em
dois clusters parece ser a indicada. No caso do cluster 1, esta partição era coincidente para a maioria
das séries e, portanto, foi considerada como a partição final (tabela 6.4). Nos casos dos clusters 2 e
3, tal não se verificou e, portanto, foi necessário proceder a algumas divisões, obtendo-se os clusters
presentes nas tabelas 6.5 e 6.6.
Tabela 6.4: Clusters relativos aos meses, no cluster 1.
Cluster Meses do anoCluster 1 Janeiro; Fevereiro; Março; Abril; Outubro; Novembro; DezembroCluster 2 Maio; Junho; Julho, Agosto; Setembro
Tabela 6.5: Clusters relativos aos meses,no cluster 2.
Cluster Meses do anoCluster 1 Janeiro; AbrilCluster 2 Fevereiro; MarçoCluster 3 Maio; JunhoCluster 4 Julho; Agosto; SetembroCluster 5 OutubroCluster 6 Novembro; Dezembro
Tabela 6.6: Clusters relativos aos meses,no cluster 3.
Cluster Meses do anoCluster 1 Janeiro; Fevereiro; Março; AbrilCluster 2 Maio; NovembroCluster 3 Junho; Julho; AgostoCluster 4 Setembro; OutubroCluster 5 Dezembro
De modo a verificar a necessidade de dividir os dias da semana em dias úteis, sábados e domin-
gos, nas figuras B.1, B.2, B.3 e B.4 dos Anexos, encontram-se representados os boxplots relativos às
medianas dos consumos diários por dia da semana, nos três clusters. Tal como se pode observar,
nos clusters 1 e 2, as medianas de consumos diários são semelhantes para todos os dias úteis, ao
5Além do método Ward, foi ainda utilizado o método complete, com o qual se obtiveram os mesmos resultados.
64
Mar
ço
Abr
il
Jane
iro
Fev
erei
ro
Out
ubro
Nov
embr
o
Dez
embr
o Mai
o
Junh
o
Julh
o
Ago
sto
Set
embr
o020
040
060
080
012
00
DT
W
Figura 6.20: Dendrograma relativo à análise de clusters dos meses do ano da série 1759, do cluster 1.
Set
embr
o
Julh
o
Ago
sto
Fev
erei
ro
Mar
ço
Jane
iro
Abr
il
Out
ubro
Nov
embr
o
Dez
embr
o
Mai
o
Junh
o
050
100
150
200
250
300
DT
W
Figura 6.21: Dendrograma relativo à análise de clusters dos meses do ano da série 2289, do cluster 2.
Jane
iro
Fev
erei
ro Abr
il
Mar
ço Julh
o
Ago
sto
Nov
embr
o
Dez
embr
o
Set
embr
o
Out
ubro
Mai
o
Junh
o
010
020
030
0
DT
W
Figura 6.22: Dendrograma relativo à análise de clusters dos meses do ano da série 4867, do cluster 3.
65
contrário do que acontece em relação ao sábado e ao domingo, em que os padrões de consumo se
diferenciam. Contudo, no caso do cluster 3, não se verifica uma semelhança tão elevada entre os dias
úteis e, portanto, neste caso, não será feito qualquer agrupamento. Além disso, verificou-se que os
feriados nacionais apresentavam um comportamento semelhante ao de domingo, tendo, por isso, estes
dias sido considerados como domingo.
Assim, após a definição dos meses semelhantes e a divisão dos dias da semana, aplicou-se o
método de Tukey com c = 3 à última semana das porções das séries escolhidas, considerando como
dados de referência algumas das semanas anteriores.
Os resultados obtidos, em termos de sensibilidade, precisão e score F1, encontram-se nas tabelas
6.7, 6.8 e 6.9, respetivamente, para o grupo 1, e nas tabelas 6.10, 6.11 e 6.12, respetivamente, para o
grupo 3, nas colunas denotadas por “Tukey”, “Tukey Logaritmo” e “Tukey Box-Cox”, onde “logaritmo” e
“box-cox” indicam as transformações efetuadas aos dados. Os resultados para o grupo 2 encontram-se
nas tabelas B.4, B.5 e B.6 dos Anexos, uma vez que, mais uma vez, os resultados obtidos para este
grupo e para o grupo 1 foram semelhantes.
Em termos de sensibilidade, verificou-se que a utilização do logaritmo levou aos piores resultados,
em qualquer um dos clusters, tendo sido os melhores resultados obtidos quando nenhuma transfor-
mação foi utilizada. Em termos de precisão, no cluster 1, os resultados permitiram retirar as mesmas
conclusões que no caso da sensibilidade, enquanto que, no cluster 2, não foi possível obter conclu-
sões tão claras, apesar de se verificar que a transformação de Box-Cox foi a que levou aos melhores
resultados gerais. Também no caso do cluster 3, os resultados obtidos e o baixo número de séries
não permitiram retirar conclusões quanto às transformações utilizadas. Contudo, balanceando os re-
sultados de sensibilidade e de precisão através do score F1, concluiu-se que, apesar de os resultados
de algumas transformações serem melhores, não se obtiveram resultados satisfatórios com nenhuma
delas, em qualquer um dos clusters6. Na figura 6.23, encontra-se representada uma semana de um
exemplo de uma série do cluster 1, à qual se aplicou o método de Tukey sem transformações nos da-
dos. Neste caso, pode-se verificar que apenas alguns dos outliers introduzidos foram detetados, além
de se verificar a existência de muitos falsos alarmes.
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
0 100 200 300 400 500 600
020
4060
8010
012
0
Outliers introduzidos
Outliers detetados
Figura 6.23: Deteção de outliers na série 2166, do cluster 1,com recurso ao método de Tukey sem transformações.
6Em algumas séries, não foi possível calcular o score F1, uma vez que a sensibilidade e a precisão se revelaram simultanea-mente nulas.
66
Tabela 6.7: Sensibilidade do método Twitter e do método de Tukey no grupo 1.
Twitt
erM
M
Twitt
erH
Q
Twitt
erM
MLo
garit
mo
Twitt
erH
QLo
garit
mo
Twitt
erM
MB
ox-C
ox
Twitt
erH
QB
ox-C
ox
Tuke
y
Tuke
yLo
garit
mo
Tuke
yB
ox-C
ox
série 1759 1 1 0.85 0.7 0.85 0.8 0.95 0.8 0.8série 1765 1 0.7 1 0.95 1 1 0.7 0.15 0.35série 2091 1 1 1 1 1 1 0.95 0.85 0.95série 2150 0.05 0.05 0 0 0 0 0.4 0.25 0.4série 2166 0.95 0.95 0.6 0.6 0.65 0.5 0.75 0.75 0.75série 2764 0.4 0.25 0 0 0 0 0.15 0 0.05série 2823 0.2 0.2 0.2 0.2 0.2 0.2 0.65 0.25 0.45série 3881 0 0 0.2 0.1 0.1 0.05 0 0.05 0.05série 3882 0 0 0 0 0 0 0 0 0série 4562 1 1 0.95 0.85 0.95 0.85 0.95 0.9 0.9série 6278 0.38 0.38 0.52 0.42 0.52 0.48 0.53 0.33 0.5
Mediana 0.40 0.38 0.52 0.42 0.52 0.48 0.65 0.25 0.45Média 0.54 0.50 0.48 0.44 0.48 0.44 0.55 0.39 0.47≥0.85 5 4 4 3 4 3 3 2 2<0.6 6 6 6 6 6 7 5 7 7
Tabela 6.8: Precisão do método Twitter e do método de Tukey no grupo 1.
Twitt
erM
M
Twitt
erH
Q
Twitt
erM
MLo
garit
mo
Twitt
erH
QLo
garit
mo
Twitt
erM
MB
ox-C
ox
Twitt
erH
QB
ox-C
ox
Tuke
y
Tuke
yLo
garit
mo
Tuke
yB
ox-C
ox
série 1759 0.16 0.2 0.25 0.26 0.29 0.31 0.76 0.73 0.73série 1765 0.14 0.12 0.16 0.17 0.18 0.19 0.7 0.38 0.58série 2091 0.12 0.18 0.27 0.29 0.27 0.29 0.9 0.89 0.9série 2150 0 0 0 0 0 0 0.19 0.31 0.27série 2166 0.13 0.13 0.04 0.04 0.1 0.11 0.13 0.13 0.13série 2764 0.05 0.05 0 0 0 0 0.17 0 0.17série 2823 0.01 0.01 0.01 0.02 0.01 0.01 0.19 0.1 0.16série 3881 0 0 0.1 0.08 0.05 0.05 0 0.14 0.11série 3882 0 0 0 0 0 0 0 0 0série 4562 0.16 0.2 0.13 0.17 0.08 0.15 0.18 0.15 0.15série 6278 0.2 0.24 0.31 0.29 0.41 0.41 0.84 0.76 0.81
Mediana 0.12 0.12 0.10 0.08 0.08 0.11 0.19 0.15 0.17Média 0.09 0.10 0.12 0.12 0.13 0.14 0.37 0.33 0.36≥0.85 0 0 0 0 0 0 1 1 1<0.6 11 11 11 11 11 11 7 8 8
67
Tabela 6.9: Score F1 do método Twitter e do método de Tukey no grupo 1.
Twitt
erM
M
Twitt
erH
Q
Twitt
erM
MLo
garit
mo
Twitt
erH
QLo
garit
mo
Twitt
erM
MB
ox-C
ox
Twitt
erH
QB
ox-C
ox
Tuke
y
Tuke
yLo
garit
mo
Tuke
yB
ox-C
ox
série 1759 0.27 0.34 0.39 0.38 0.43 0.45 0.84 0.76 0.76série 1765 0.25 0.2 0.28 0.29 0.31 0.31 0.7 0.21 0.44série 2091 0.22 0.3 0.42 0.45 0.42 0.45 0.93 0.87 0.93série 2150 0.01 0.01 NA NA NA NA 0.26 0.28 0.32série 2166 0.23 0.23 0.08 0.08 0.17 0.19 0.23 0.23 0.22série 2764 0.09 0.08 NA NA NA NA 0.16 NA 0.08série 2823 0.03 0.03 0.03 0.04 0.03 0.03 0.3 0.15 0.23série 3881 NA NA 0.14 0.09 0.07 0.05 NA 0.07 0.07série 3882 NA NA NA NA NA NA NA NA NAsérie 4562 0.28 0.33 0.22 0.28 0.15 0.25 0.3 0.26 0.26série 6278 0.26 0.3 0.39 0.35 0.46 0.44 0.65 0.46 0.62
Mediana 0.23 0.23 0.25 0.29 0.24 0.28 0.30 0.26 0.29Média 0.18 0.20 0.24 0.25 0.26 0.27 0.49 0.37 0.39≥0.85 0 0 0 0 0 0 1 1 1<0.6 9 9 8 8 8 8 5 7 7
Tabela 6.10: Sensibilidade do método Twitter e do método de Tukey no grupo 3.
Twitt
erM
M
Twitt
erH
Q
Twitt
erM
MLo
garit
mo
Twitt
erH
QLo
garit
mo
Twitt
erM
MB
ox-C
ox
Twitt
erH
QB
ox-C
ox
Tuke
y
Tuke
yLo
garit
mo
Tuke
yB
ox-C
ox
série 4867 1 1 0.9 0.8 0 0 0.55 0.55 0.55série 5109 0 0 0 0 0 0 0 0 0série 6150 0.13 0.13 0.08 0.08 0.14 0.13 0.24 0.17 0.23
Mediana 0.13 0.13 0.08 0.08 0.00 0.00 0.24 0.17 0.23Média 0.38 0.38 0.33 0.29 0.05 0.04 0.26 0.24 0.26≥0.85 1 1 1 0 0 0 0 0 0<0.6 2 2 2 2 3 3 3 3 3
Tabela 6.11: Precisão do método Twitter e do método de Tukey no grupo 3.
Twitt
erM
M
Twitt
erH
Q
Twitt
erM
MLo
garit
mo
Twitt
erH
QLo
garit
mo
Twitt
erM
MB
ox-C
ox
Twitt
erH
QB
ox-C
ox
Tuke
y
Tuke
yLo
garit
mo
Tuke
yB
ox-C
ox
série 4867 0.07 0.08 0.2 0.21 0 0 0.11 0.12 0.12série 5109 0 0 0 0 0 0 0 0 0série 6150 0.05 0.06 0.03 0.03 0.06 0.05 0.27 0.22 0.26
Mediana 0.05 0.06 0.03 0.03 0 0 0.11 0.12 0.12Média 0.04 0.05 0.08 0.08 0.02 0.02 0.13 0.11 0.13≥0.85 0 0 0 0 0 0 0 0 0<0.6 3 3 3 3 3 3 3 3 3
68
Tabela 6.12: Score F1 do método Twitter e do método de Tukey no grupo 3.
Twitt
erM
M
Twitt
erH
Q
Twitt
erM
MLo
garit
mo
Twitt
erH
QLo
garit
mo
Twitt
erM
MB
ox-C
ox
Twitt
erH
QB
ox-C
ox
Tuke
y
Tuke
yLo
garit
mo
Tuke
yB
ox-C
ox
série 4867 0.14 0.16 0.33 0.34 NA NA 0.18 0.2 0.19série 5109 NA NA NA NA NA NA NA NA NAsérie 6150 0.08 0.08 0.04 0.04 0.08 0.08 0.26 0.19 0.24
Mediana 0.11 0.12 0.19 0.19 0.08 0.08 0.22 0.20 0.22Média 0.11 0.12 0.19 0.19 0.08 0.08 0.22 0.20 0.22≥0.85 0 0 0 0 0 0 0 0 0<0.6 2 2 2 2 1 1 2 2 2
6.3.3 Método baseado na representação simbólica de séries temporais (SAX)
Nos gráficos apresentados de seguida, relativos à aplicação do SAX a séries temporais de caudal,
as linhas tracejadas horizontais representam os quantis utilizados para a análise, sendo que a linha
tracejada inferior e a superior representam o mínimo e o máximo dos dados utilizados para a definição
dos quantis. Além disso, daqui em diante, o padrão traduzirá o comportamento diário típico dos dados
históricos com comportamento semelhante ao do dia em teste e a série em teste denota a série que se
está a utilizar para testar o método e, portanto, na qual se pretende detetar outliers.
Tal como descrito na secção 5.2.4, para a aplicação deste método, é necessário definir os parâme-
tros af e w, ou seja, o tamanho do alfabeto e o número de segmentos a utilizar para representar a série
temporal na PAA, respetivamente, e ainda qual o estimador a utilizar para a construção da série padrão,
a média ou a mediana. De referir que, após a definição do dia da semana e do mês das observações
da série em teste, para a construção da série padrão, são considerados os dados do mesmo dia da
semana dos meses semelhantes, conforme a análise de clusters realizada na secção 6.3.2. De modo
a definir todos estes parâmetros, foram realizados os vários testes/comparações descritos de seguida.
Escolha do valor de w
Os gráficos 6.24 e 6.25 ilustram um exemplo de um dia de uma série, ao qual se aplicou o SAX com
w = 24, w = 48 e w = 96, considerando duas possibilidades para af (af = 4 e af = 5). Em ambos os
casos, é possível observar que, no período de tempo entre 80 e 96, tal como em outros momentos, se
observam algumas diferenças entre os valores atribuídos com w = 24 e w = 48, o que já não acontece
entre w = 48 e w = 96. Deste modo, a escolha de w recaiu sobre 48 segmentos, ou seja, na prática,
cada segmento representa 30 minutos do consumo diário de água.
Construção da série padrão
Nas figuras 6.26 e 6.27, apresentam-se os gráficos com a representação de padrões de uma série
temporal de consumos construídos utilizando a média e a mediana dos dados em cada instante e
considerando, mais uma vez, as duas opções para o tamanho do alfabeto (af = 4 e af = 5). Uma vez
que as diferenças verificadas entre os dois padrões se devem às próprias diferenças entre a média e a
mediana das séries, optou-se por utilizar a última, dada a sua maior robustez.
Depois de escolhidos o valor de w e o modo de construção do padrão do comportamento normal, é
agora necessário verificar qual o valor de af que melhor se adequa aos casos em estudo.
69
0 20 40 60 80 100
510
1520
b
aa a a a
a
c
dd
c
d c c c
b bb
b c
dd
c
bb
a
aa a a a a a a a a
a a
b
dd
dd
dc c
d dc c c c c c
c
bc
b b bb b b
cc
d d dc
b b
b
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Série
PAA w=24
PAA w=48
Figura 6.24: Comparação do SAX com w = 24, w = 48 e w = 96 considerando af = 4.
0 20 40 60 80 100
510
1520
b
aa a a a
a
c
ee
d
dd d d
c cb
c c
de
c
bb
b
aa a a a a a a a a
a a
b
ee
ee
d
d dd e
d d d d d dc
cc
c b cc c c
cd
e e e
d
c c
b
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Série
PAA w=24
PAA w=48
Figura 6.25: Comparação do SAX com w = 24, w = 48 e w = 96 considerando af = 5.
0 20 40 60 80 100
510
1520
2530
ba
a a a a a a a a a aa a
b
d d d dd
c cc
dd d c c c c
cb
b b b b b c cc
c
d dd
c
b b
bba
a a a a a a a a a a a a
b
d dd d
dc c
d d c c c c c cc
bc
b b b b b bc
cd d d
c
b bb
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Média
Mediana
PAA w=48 Média
PAA w=48 Mediana
Figura 6.26: Comparação do SAX com o padrão construído com a média e a mediana, considerando w = 48 eaf = 4.
70
0 20 40 60 80 100
510
1520
2530
bb
a a a a a a a a a aa a
b
e e e ed
d dd
ed d d d d d
cb
c c c c c c cd
d
e ee
d
c c
bbb
a a a a a a a a a a a a
b
e ee e
dd d
d ed d d d d d
cc
c c b c c c cc
d
e e ed
c c
b
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Média
Mediana
PAA w=48 Média
PAA w=48 Mediana
Figura 6.27: Comparação do SAX com o padrão construído com a média e a mediana, considerando w = 48 eaf = 5.
Escolha do valor de af
Nas figuras 6.28 e 6.29, encontram-se ilustrados padrões construídos para um exemplo de uma
série temporal de consumos, considerando a mediana como modo de construção e w = 48. Em
relação ao primeiro gráfico, este representa o resultado obtido com af = 4, enquanto que o segundo
ilustra o caso af = 5. Uma vez que, deste modo, não foi possível concluir qual a melhor opção,
nos gráficos 6.30 e 6.31, apresenta-se uma aplicação prática de deteção de outliers. Neste caso, foi
utilizado um exemplo de outra série temporal de caudal, sendo que as linhas pretas representam os
padrões construídos para o dia da semana dos meses semelhantes da série em teste, representada a
vermelho. As linhas vermelhas carregadas representam os segmentos que são considerados outliers,
ou seja, que não se encontram entre os breakpoints correspondentes ao padrão. Analisando os dois
gráficos, pode-se observar que aumenta o número de observações atípicas quando se considera af =
5. Além disso, analisando mais detalhadamente, observa-se que muitas das observações consideradas
outliers aquando da utilização de af = 5 são falsos alarmes, uma vez que a distância ao padrão não
é elevada. Algumas destas observações também já eram consideradas outliers com a utilização de
af = 4, contudo apareciam em menor número. Assim, uma vez que se pretende detetar o maior
número possível de outliers e o menor de falsos alarmes, concluiu-se que a escolha de af = 4 seria a
mais adequada nos casos em estudo, sendo, por isso, a opção que será utilizada.
Uma vez que foi possível retirar as mesmas conclusões em vários exemplos de diferentes séries
temporais de caudal, tomou-se estas escolhas como as finais, a utilizar nos casos em estudo.
Normalização min-max
Quanto à normalização min-max enunciada na secção 5.2.4, onde se apresentaram quatro alter-
nativas para esta aplicação, começou-se por analisar dois exemplos. Nos casos das normalizações
descritas nas alternativas 1 e 3 dessa mesma secção, foi utilizada uma série à qual foram introduzidos
outliers fictícios no período entre 25 e 40. Já no caso das normalizações das alternativas 2 e 4, foi
utilizada uma outra série, sendo que, na primeira alternativa, foram introduzidos outliers no período
de tempo entre 61 e 74 e, na segunda, utilizou-se a série original. A opção por diferentes séries e a
introdução de outliers em apenas algumas delas, deveu-se ao facto de, na prática, existirem séries com
comportamentos diferentes e nem sempre ocorrerem outliers. Nas figuras de 6.32 a 6.35, encontram-se
representados os resultados obtidos para estes exemplos.
71
0 20 40 60 80 100
510
1520
b
a
aa a a a a a a a a
a a
b
dd
dd
dc c
d dc c c c c c
c
bc
b b bb b b
cc
d d dc
b b
b
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Série
SAX
Figura 6.28: Aplicação do SAX com af = 4, considerando o padrão construído com a mediana e w = 48.
0 20 40 60 80 100
510
1520
b
b
aa a a a a a a a a
a a
b
ee
ee
d
d dd e
d d d d d dc
cc
c b cc c c
cd
e e e
d
c c
b
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Série
SAX
Figura 6.29: Aplicação do SAX com af = 5, considerando o padrão construído com a mediana e w = 48.
0 20 40 60 80 100
05
1015
2025
ba b
a
a
aa
aa
aa a
a
b
b b b
c
d d dc
d
cd
dd
d d d
c
c
bb
c cc
cd
c d c
c
b bb
bb
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Série em teste
Padrão
Outliers
Figura 6.30: Identificação dos outliers obtidos aquando da aplicação do SAX com af = 4 a um exemplo,considerando o padrão construído com a mediana e w = 48.
72
0 20 40 60 80 100
05
1015
2025
bb b
a
a
aa
aa
aa a
b
b
c c c
c
e e ed
e
dd
ee
e e e
c
c
bc
c dc
de
d d dc
c cb
bb
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
Série em teste
Padrão
Outliers
Figura 6.31: Identificação dos outliers obtidos aquando da aplicação do SAX com af = 5 a um exemplo,considerando o padrão construído com a mediana e w = 48.
Tal como se pode verificar, esta normalização, independentemente da alternativa utilizada, altera o
formato das séries temporais de forma bastante significativa, o que levou a que não fosse considerada
para a deteção de outliers.
Padronização: média e desvio padrão vs. mediana e MAD
Em relação à padronização usual, encontram-se nas figuras 6.36 e 6.37 os gráficos relativos à
aplicação do SAX a uma série padronizada com a média e o desvio padrão e com a mediana e o MAD,
respetivamente. A série utilizada nos dois casos é a mesma, sendo que não lhe foram introduzidos
outliers. Tal como se pode observar, a utilização da mediana e do MAD levou à ocorrência de um maior
número de falsos alarmes, em especial, nos instantes de tempo com um menor consumo. Este mesmo
facto foi verificado aquando da realização desta mesma comparação com outros exemplos de séries
temporais de caudal, tendo-se, por isso, optado por utilizar a média e o desvio padrão.
Através da análise de alguns dos gráficos mencionados anteriormente, relativos à aplicação do
SAX para deteção de outliers, nomeadamente o gráfico presente na figura 6.36, pode-se verificar que
existem observações que, apesar de se encontrarem muito próximas dos valores padrão e, portanto,
não serem observações atípicas, como não se encontram entre os mesmos quantis eram consideradas
como outliers. Este facto justifica a necessidade de cálculo de um valor δ, tal como descrito na secção
5.2.4.
73
0 20 40 60 80 100
−0.
20.
00.
20.
40.
60.
81.
0
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a no
rmal
izad
o
ba a
aa
a a a a a a a a
b
b
c
d d d dc c
d dd d d c c
c cc c
bb
b bc c
cc
dc
c
b b
b b
Padrão
Série em teste
Figura 6.32: Representação de uma série após a normalização min-max segundo a alternativa 1.
0 20 40 60 80 100
−0.
20.
00.
20.
40.
60.
81.
0
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a no
rmal
izad
o
b
ba
aa a a a a a a
a aa
b
dd
cc
bb
c c cc
dd d d d
c
b bc b b c b
c
dd
dd
d d
c
b
b
Padrão
Série em teste
Figura 6.33: Representação de uma série após a normalização min-max segundo a alternativa 2.
0 20 40 60 80 100
−0.
20.
00.
20.
40.
60.
81.
0
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a no
rmal
izad
o
ba a
aa
a a a a a a a a
b
b
c
d d d dc c
d dd d d c c
c cc c
bb b b
c cc
cd
c
c
b b
b b
Padrão
Série em teste
Figura 6.34: Representação de uma série após a normalização min-max segundo a alternativa 3.
74
0 20 40 60 80 100
−0.
20.
00.
20.
40.
60.
81.
0
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a no
rmal
izad
o
b
ba
a a a a a a a a a aa
b
d dc
cb b
c c c cd d d d d
c
b b c b b c bc
d dd
d d d
c
b
b
Padrão
Série em teste
Figura 6.35: Representação de uma série após a normalização min-max segundo a alternativa 4.
0 20 40 60 80 100
−2
−1
01
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a pa
dron
izad
o
b
ba
aa a a a a a a
a aa
b
dd
cc
bb
c c cc
dd d d d
c
b bc b b c b
c
dd
dd
d d
c
b
b
Série em teste
Padrão
Outliers
Figura 6.36: Representação de uma série após a padronização com a média e o desvio padrão.
0 20 40 60 80 100
−3
−2
−1
01
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a pa
dron
izad
o
b
ba
aa a a a a a a
a aa
b
dd
cc
b b
c c cc
dd d d d
c
b bc b b c b
c
d dd
dd d
c
b
b
Série em teste
Padrão
Outliers
Figura 6.37: Representação de uma série após a padronização com a mediana e o MAD.
75
Aplicação do método baseado no SAX às séries dos clusters
De seguida, apresentam-se os resultados obtidos na aplicação do método baseado no SAX às sé-
ries dos três clusters, sendo este método denominado, por simplicidade, de SAX. Em primeiro lugar,
começou-se por aplicar o SAX sem qualquer padronização a todas as séries de cada cluster, sendo,
posteriormente, utilizada a padronização com a média e o desvio padrão. Neste caso, para a série
padrão e para a série em teste, utilizou-se a média e o desvio padrão amostrais, sendo esta padroni-
zação designada, daqui em diante, por padronização 1. Na prática, como as séries de teste poderão
possuir outliers, as suas estimativas da média e do desvio padrão poderão ser enviesadas, pelo que
se considerou a possibilidade de utilizar as estimativas da média e do desvio padrão da série padrão
para padronizar as séries em teste, ao invés das suas próprias estimativas. Esta padronização será
designada, daqui em diante, por padronização 2.
Os resultados obtidos, em termos de medidas de desempenho (sensibilidade, precisão e score F17),
na aplicação destes três métodos na deteção de outliers, encontram-se nas tabelas 6.13, 6.14 e 6.15,
respetivamente, para o grupo 1, e nas tabelas 6.16, 6.17 e 6.18, respetivamente, para o grupo 3. Cada
um destes métodos foi avaliado utilizando os dados originais, o seu logaritmo e a transformação de
Box-Cox dos mesmos, sendo essa referência feita através da indicação de “logaritmo” e “box-cox” nas
várias colunas destas tabelas. Os resultados para o cluster 2 encontram-se nas tabelas B.7, B.8 e B.9
dos Anexos.
Em relação ao cluster 1, pela análise da sensibilidade, concluiu-se que esta é igual com o SAX e
com o SAX com a padronização 2, enquanto que, quando se comparou com a padronização 1, verificou-
se que esta última apresentou, em geral, valores inferiores nesta medida de desempenho. Inclusive,
analisando os valores gerais, verificou-se que, com a padronização 1, nenhuma ou apenas uma série,
conforme o formato dos dados utilizado, apresentou sensibilidade igual ou superior a 0.85, enquanto
que, nos outros casos, foi possível obter 7 ou 8 séries com estes valores nesta medida de desempenho.
Em termos de precisão, verificou-se que os valores obtidos aquando da aplicação do método com o SAX
e com o SAX com a padronização 2 foram muito semelhantes, tal como aconteceu com a sensibilidade.
Além disso, mais uma vez, a padronização 1 teve tendência a dar resultados mais baixos. Contudo,
apenas com os dados sem qualquer transformação foi possível obter uma série com valor de precisão
acima de 0.85. Também os valores dos scores F1 foram, em geral, inferiores a 0.85, sendo que, com
a padronização 1, não se obteve nenhum valor igual ou acima de 0.85. Para a construção do valor δ,
torna-se necessário definir qual a melhor padronização e formato dos dados. Pela análise apresentada,
concluiu-se que a padronização 2 permite a obtenção de melhores resultados do que a padronização 1,
sendo, por isso, essa que será tida em consideração para o cálculo do valor δ. Quanto à transformação
dos dados a utilizar, avaliando as medidas gerais presentes nas tabelas 6.13, 6.14 e 6.15, concluiu-se
que, em termos de sensibilidade, os resultados foram muito semelhantes, apesar de a transformação
de Box-Cox se revelar ligeiramente superior. Quanto à precisão e ao score F1 verificou-se que foram os
dados sem qualquer transformação que deram origem aos melhores resultados, apesar de, mais uma
vez, estes não se terem revelado muito diferentes. Deste modo, a avaliação do SAX com a padronização
2 e com o δ será realizada com os dados sem transformações e com a transformação de Box-Cox. De
notar que os outliers da série 6278 são conhecidos e, portanto, foi dada especial atenção aos resultados
desta série.
Na figura 6.38, encontra-se representado um dia de uma série do cluster 1, com os outliers detetados
identificados. Uma vez que, neste caso, foi utilizado o método baseado no SAX com a transformação
de Box-Cox, são apresentados os dados após a aplicação desta transformação. Os outliers introduzi-
dos encontram-se no período de tempo entre 38 e 57 e pode verificar-se que estes são corretamente
7Em algumas séries, os valores do score F1 são indicados como NA, uma vez que estes não foram possíveis de calculardados os valores nulos de sensibilidade e precisão obtidos nestes métodos.
76
detetados, apesar de também ser detetado um elevado número de falsos alarmes.
0 20 40 60 80 100
12
34
5
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
bb
b
a aa a a a a a
a
a
aa
b
b
b
cd
dd d d d d d d d d
d cc
c c b c c c c c c c c
bb b
b
Série em teste
Padrão
Outliers
Figura 6.38: Deteção de outliers na série 1759, do cluster 1, com recurso aométodo baseado no SAX e a transformação de Box-Cox.
No caso do cluster 2, retiraram-se conclusões análogas às do cluster 1. Em termos de transforma-
ção dos dados, verificou-se que os resultados são semelhantes entre as três hipóteses e, por isso, para
a construção do valor δ e a sua consequente aplicação, utilizar-se-á os dados nos três formatos: sem
transformação, com o logaritmo e com a transformação de Box-Cox.
Quanto ao cluster 3, em termos de sensibilidade, retiraram-se as mesmas conclusões que no caso
dos clusters anteriores. No que diz respeito à precisão, verificou-se que os valores resultantes da padro-
nização 1 têm tendência a ser ligeiramente superiores aos restantes, contudo, continuam a ser valores
muito baixos, não existindo nenhum caso com valores iguais ou superiores a 0.85. Estas mesmas
conclusões podem ser retiradas analisando os scores F1. Uma vez que a sensibilidade obtida com o
método baseado no SAX com um valor δ mantém-se ou diminui, então, para a aplicação deste método,
optar-se-á pela utilização da padronização 2, dados os seus valores superiores nesta medida de de-
sempenho. Quanto à melhor transformação, pela análise geral dos dados, concluiu-se que o logaritmo
dá origem a melhores resultados. Deste modo, no cluster 3, para a aplicação do método baseado no
SAX com a padronização 2 e com o δ, será utilizado o logaritmo dos dados.
Assim, conclui-se que, em qualquer um dos clusters, este método deteta relativamente bem os
outliers. Contudo, também se verificou que o número de falsos alarmes em todos os casos é bastante
elevado, tal como indicado pelos baixos valores de precisão. Justifica-se então que se invista numa
proposta de construção de um valor δ, que permita classificar uma observação como outlier sem ser
baseado apenas na sua posição relativamente ao intervalo de breakpoints da série padrão.
Aplicação do método baseado no SAX com o valor δ às séries dos clusters
Uma vez que se optou pela padronização usual, com a média e o desvio padrão, para a construção
do valor δ em qualquer um dos clusters, então δ não poderá ser independente da própria série e, por
isso, será utilizada a fórmula (5.36). Deste modo, os valores δ construídos irão depender da amplitude
da série padrão e dos outliers introduzidos ou conhecidos de cada uma das séries em teste. Deste
modo, utilizando os resultados da aplicação com o SAX e a padronização 2, que se revelaram bastante
semelhantes aos obtidos com os dados não padronizados e que permitem que todas as séries estejam
numa escala mais próxima, foram construídos valores δ para cada uma das séries de cada cluster. Os
valores δ obtidos encontram-se presentes nas tabelas B.10, B.11 e B.12 dos Anexos, sendo que, nas
77
últimas duas linhas, são ainda indicadas a média e a mediana de todos os valores obtidos. Analisando
estes valores globais, verifica-se que estes são semelhantes no caso dos clusters 1 e 2. Já no cluster 3,
verifica-se que existe uma diferença um pouco mais elevada resultante da existência de poucas séries.
Deste modo, para definir o δ para cada um dos clusters, procedeu-se à avaliação dos métodos com as
duas possibilidades (média e mediana) nos casos em que a diferença era mais significativa. Uma vez
que os resultados se revelaram melhores com a utilização da média, será este o valor que será utilizado
para a avaliação deste método de deteção de outliers.
Os resultados obtidos com este método em termos de medidas de desempenho (sensibilidade, pre-
cisão e score F18) encontram-se nas tabelas 6.13, 6.14 e 6.15, respetivamente, para o grupo 1, e
nas tabelas 6.16, 6.17 e 6.18, respetivamente, para o grupo 3. Conforme o grupo, estes resultados
encontram-se nas colunas designadas por “SAX Padronização 2 com δ”, “SAX Padronização 2 Loga-
ritmo com δ” e “SAX Padronização 2 Box-Cox com δ”. No caso do cluster 2, os resultados encontram-se
nas tabelas B.7, B.8 e B.9 dos Anexos.
Pela análise das tabelas relativas à sensibilidade, verificou-se que existem diminuições nesta medida
de desempenho, ou seja, o número de outliers detetados diminui, tal como serie expectável dado o
modo de construção deste método. Contudo, em termos de precisão, verificou-se que, nos clusters 1
e 2, este foi o método com o qual se obtiveram mais séries com valores superiores a 0.85, ou seja, o
número de falsos alarmes detetados por este método foi muito inferior a todos os restantes métodos
estudados. Também no caso dos scores F1, que traduzem uma média harmónica entre a precisão e
a sensibilidade, se concluiu que este foi o único método com o qual se obtiveram valores superiores a
0.85, nos clusters 1 e 2. Relativamente ao melhor formato para os dados, verificou-se que, no cluster
1, os resultados são ligeiramente superiores com a utilização da transformação de Box-Cox. A figura
6.39 representa o mesmo dia da mesma série da figura 6.38, contudo, neste caso, procedeu-se à
padronização da série, após a aplicação da transformação de Box-Cox. Pela sua análise, verifica-se
que os falsos alarmes que existiam antes da utilização do valor δ não são identificados, continuando a
maioria dos outliers introduzidos a ser detetados.
0 20 40 60 80 100
−2
−1
01
Tempo (em intervalos de 15−min)
Con
sum
o de
águ
a (e
m m
3 /15m
in)
bb
b
a aa a a a a a
a
a
aa
b
b
b
cd
dd d d d d d d d d
d cc
c c b c c c c c c c c
bb b
b
Série em teste
Padrão
Outliers
Figura 6.39: Deteção de outliers na série 1759, do cluster 1, com recurso ao método baseado no SAX, com atransformação de Box-Cox e com a utilização do valor δ.
No cluster 2, em termos de sensibilidade e de precisão, as conclusões foram contraditórias. En-
quanto que os dados sem transformações foram os que resultaram em melhores valores de sensibili-
dade, no caso da precisão, o logaritmo levou a melhores resultados. Deste modo, analisando os scores
8Mais uma vez, não foi possível calcular alguns dos valores desta medida de desempenho, dados os valores nulos de sensi-bilidade e precisão.
78
F1, que representam uma média harmónica entre a sensibilidade e a precisão, percebeu-se que não
existe uma evidência clara sobre qual a melhor transformação, podendo, deste modo, optar-se pela não
utilização de transformações para a aplicação deste método a séries deste cluster.
Quanto ao cluster 3, verificou-se que os resultados não foram satisfatórios, uma vez que não existiu
nenhuma série que admita valores de precisão ou de scores F1 superiores ou iguais a 0.85. Contudo,
o mesmo tinha acontecido com todos os métodos testados anteriormente neste cluster, o que levou a
concluir que, para séries que não apresentem um padrão relativamente definido, estes métodos não
são os mais adequados. Apesar disso, é de realçar que os métodos baseados no SAX permitiram
resultados melhores no caso da série 5109, uma vez que, tanto no método Twitter como no método de
Tukey, os valores de sensibilidade e precisão foram sempre nulos.
6.4 Conclusões
Relativamente à deteção de eventos anómalos em séries temporais de caudal, começou-se por con-
siderar o modelo TBATS e tentar detetar estes outliers recorrendo aos intervalos de previsão e de
confiança. Contudo, além dos resultados não terem sido satisfatórios, concluiu-se ainda que este mo-
delo é muito dispendioso computacionalmente, o que dificulta a sua utilização em séries temporais de
caudal, com observações a cada 15 minutos.
Deste modo, dadas as diferenças que se verificaram entre as séries temporais utilizadas no que diz
respeito a tendências e sazonalidades anuais, considerou-se que era necessário agrupá-las conforme
as suas características. Esta análise resultou na criação de três grupos de séries: o primeiro grupo
caracteriza-se pela sazonalidade anual das séries, onde os consumos relativos aos meses mais quen-
tes são mais elevados, enquanto que, no segundo, foram agrupadas as séries que não apresentam
nenhuma tendência ao longo do ano, ou seja, as medianas diárias dos consumos são relativamente
constantes ao longo do ano. Contudo, houve 3 séries de entre as 28 utilizadas que não foram agrupa-
das em nenhum destes grupos, pertencendo a um terceiro cluster. Estas séries caracterizam-se pela
inexistência de um padrão definido para as medianas diárias do consumo.
Relativamente ao primeiro grupo, onde foram classificadas as séries de caudal em que se verifica um
aumento do consumo nos meses quentes, concluiu-se que o melhor método para deteção de outliers
tem por base o SAX. Contudo, neste caso, em primeiro lugar é aplicada a transformação de Box-Cox
às séries padrão e em teste e, de seguida, são ambas padronizadas com a média e o desvio padrão
amostrais da série padrão, ou seja, da série que é construída com base nas observações passadas e
que serve de referência.
Já no caso do segundo grupo, verificou-se que também o método baseado no SAX era o melhor,
contudo não há necessidade de se aplicar a transformação de Box-Cox nem nenhuma outra transfor-
mação às séries, pelo que, neste caso, procede-se de igual forma como no caso do primeiro cluster,
excluindo a aplicação da transformação.
No caso do cluster 3, onde se encontram as séries temporais de caudal que não apresentam um
padrão definido, nenhum dos métodos testados permitiu detetar corretamente os outliers. Devido aos
resultados obtidos e à inexistência de um padrão definido nestas séries, as características das zonas
a que estão associadas foram verificadas. No caso da série 4867, relativa a uma rede muito pequena,
com um comprimento de 5.6km, presume-se que possam existir problemas operacionais, tais como,
por exemplo, manobras de válvulas ou problemas nas leituras e aquisição dos dados, o que poderá ter
influenciado o comportamento da série. Já nos casos das séries 5109 e 6150, verificou-se que estas
estão associadas a redes cujo consumo é condicionado sobretudo pelo enchimento de um reservatório,
o que dissimula todos os restantes padrões que possam existir.
79
Tabela 6.13: Sensibilidade do método baseado no SAX no grupo 1.
SA
X
SA
XLo
garit
mo
SA
XB
ox-C
ox
SA
XP
adro
niza
ção
1 SA
XP
adro
niza
ção
1Lo
garit
mo
SA
XP
adro
niza
ção
1B
ox-C
ox
SA
XP
adro
niza
ção
2 SA
XP
adro
niza
ção
2Lo
garit
mo
SA
XP
adro
niza
ção
2B
ox-C
ox
SA
XP
adro
niza
ção
2co
mδ
SA
XP
adro
niza
ção
2B
ox-C
oxco
mδ
série 1759 1 1 1 0.82 0.82 0.82 1 1 1 0.82 0.82série 1765 1 1 1 0.7 0.5 0.7 1 1 1 0.7 1série 2091 1 1 1 0.55 0.73 0.73 1 1 1 0.82 0.82série 2150 1 1 1 0.45 0.45 0.45 1 1 1 1 1série 2166 1 1 1 0.27 0.18 0.27 1 1 1 0.91 0.73série 2764 1 0.91 0.91 0.45 0.55 0.45 1 0.91 0.91 0.64 0.55série 2823 0.82 0.82 0.82 0.55 0.45 0.45 0.82 0.82 0.82 0.64 0.82série 3881 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.3 0.3série 3882 0.18 0.18 0.18 0.36 0.18 0.18 0.18 0.18 0.18 0.09 0.18série 4562 1 1 1 0.36 0.55 0.55 1 1 1 1 0.91série 6278 0.82 0.82 0.91 0.73 0.82 0.91 0.82 0.82 0.91 0.82 0.91
Mediana 1.00 1.00 1.00 0.45 0.50 0.45 1.00 1.00 1.00 0.82 0.82Média 0.84 0.83 0.84 0.51 0.51 0.54 0.84 0.83 0.84 0.70 0.73≥0.85 7 7 8 0 0 1 7 7 8 3 4<0.6 2 2 2 8 8 7 2 2 2 2 3
Tabela 6.14: Precisão do método baseado no SAX no grupo 1.
SA
X
SA
XLo
garit
mo
SA
XB
ox-C
ox
SA
XP
adro
niza
ção
1 SA
XP
adro
niza
ção
1Lo
garit
mo
SA
XP
adro
niza
ção
1B
ox-C
ox
SA
XP
adro
niza
ção
2 SA
XP
adro
niza
ção
2Lo
garit
mo
SA
XP
adro
niza
ção
2B
ox-C
ox
SA
XP
adro
niza
ção
2co
mδ
SA
XP
adro
niza
ção
2B
ox-C
oxco
mδ
série 1759 0.52 0.52 0.52 0.33 0.43 0.43 0.52 0.52 0.52 1 1série 1765 0.56 0.59 0.59 0.29 0.19 0.28 0.56 0.59 0.59 0.88 0.91série 2091 0.58 0.58 0.58 0.32 0.42 0.4 0.58 0.58 0.58 1 1série 2150 0.31 0.31 0.31 0.19 0.21 0.2 0.31 0.31 0.31 0.38 0.37série 2166 0.44 0.44 0.44 0.38 0.25 0.33 0.44 0.44 0.44 0.53 0.53série 2764 0.39 0.36 0.36 0.26 0.3 0.26 0.39 0.36 0.36 0.54 0.46série 2823 0.27 0.27 0.27 0.18 0.15 0.15 0.27 0.27 0.27 0.33 0.35série 3881 0.16 0.16 0.15 0.22 0.24 0.24 0.16 0.16 0.15 0.33 0.3série 3882 0.13 0.13 0.13 0.27 0.18 0.17 0.13 0.13 0.13 1 1série 4562 0.85 0.69 0.69 0.2 0.3 0.3 0.85 0.69 0.69 1 0.91série 6278 0.53 0.53 0.53 0.3 0.32 0.34 0.53 0.53 0.53 1 1
Mediana 0.44 0.44 0.44 0.27 0.25 0.28 0.44 0.44 0.44 0.88 0.91Média 0.43 0.42 0.42 0.27 0.27 0.28 0.43 0.42 0.42 0.73 0.71≥0.85 1 0 0 0 0 0 1 0 0 6 6<0.6 10 10 10 11 11 11 10 10 10 5 5
80
Tabela 6.15: Score F1 do método baseado no SAX no grupo 1.
SA
X
SA
XLo
garit
mo
SA
XB
ox-C
ox
SA
XP
adro
niza
ção
1 SA
XP
adro
niza
ção
1Lo
garit
mo
SA
XP
adro
niza
ção
1B
ox-C
ox
SA
XP
adro
niza
ção
2 SA
XP
adro
niza
ção
2Lo
garit
mo
SA
XP
adro
niza
ção
2B
ox-C
ox
SA
XP
adro
niza
ção
2co
mδ
SA
XP
adro
niza
ção
2B
ox-C
oxco
mδ
série 1759 0.69 0.69 0.69 0.47 0.56 0.56 0.69 0.69 0.69 0.9 0.9série 1765 0.71 0.74 0.74 0.41 0.28 0.4 0.71 0.74 0.74 0.78 0.95série 2091 0.73 0.73 0.73 0.4 0.53 0.52 0.73 0.73 0.73 0.9 0.9série 2150 0.48 0.48 0.48 0.26 0.29 0.28 0.48 0.48 0.48 0.55 0.54série 2166 0.61 0.61 0.61 0.32 0.21 0.3 0.61 0.61 0.61 0.67 0.62série 2764 0.56 0.51 0.51 0.33 0.39 0.33 0.56 0.51 0.51 0.58 0.5série 2823 0.41 0.41 0.41 0.27 0.22 0.23 0.41 0.41 0.41 0.44 0.49série 3881 0.23 0.23 0.22 0.29 0.3 0.3 0.23 0.23 0.22 0.32 0.3série 3882 0.15 0.15 0.15 0.31 0.18 0.17 0.15 0.15 0.15 0.17 0.31série 4562 0.92 0.81 0.81 0.26 0.39 0.39 0.92 0.81 0.81 1 0.91série 6278 0.64 0.64 0.67 0.42 0.46 0.5 0.64 0.64 0.67 0.9 0.95
Mediana 0.61 0.61 0.61 0.32 0.30 0.33 0.61 0.61 0.61 0.67 0.62Média 0.56 0.55 0.55 0.34 0.35 0.36 0.56 0.55 0.55 0.66 0.67≥0.85 1 0 0 0 0 0 1 0 0 4 5<0.6 5 5 5 11 11 11 5 5 5 5 5
Tabela 6.16: Sensibilidade do método baseado no SAX no grupo 3.
SA
X
SA
XLo
garit
mo
SA
XB
ox-C
ox
SA
XP
adro
niza
ção
1 SA
XP
adro
niza
ção
1Lo
garit
mo
SA
XP
adro
niza
ção
1B
ox-C
ox
SA
XP
adro
niza
ção
2 SA
XP
adro
niza
ção
2Lo
garit
mo
SA
XP
adro
niza
ção
2B
ox-C
ox
SA
XP
adro
niza
ção
2Lo
garit
mo
comδ
série 4867 1 1 1 0.27 0.36 0.36 1 1 1 1série 5109 0.36 0.45 0.36 0.36 0.36 0.4 0.36 0.45 0.36 0.3série 6150 0.3 0.3 0.3 0.2 0.4 0.18 0.3 0.3 0.3 0
Mediana 0.36 0.45 0.36 0.27 0.36 0.36 0.36 0.45 0.36 0.30Média 0.55 0.58 0.55 0.28 0.37 0.31 0.55 0.58 0.55 0.43≥0.85 1 1 1 0 0 0 1 1 1 1<0.6 2 2 2 3 3 3 2 2 2 2
Tabela 6.17: Precisão do método baseado no SAX no grupo 3.
SA
X
SA
XLo
garit
mo
SA
XB
ox-C
ox
SA
XP
adro
niza
ção
1 SA
XP
adro
niza
ção
1Lo
garit
mo
SA
XP
adro
niza
ção
1B
ox-C
ox
SA
XP
adro
niza
ção
2 SA
XP
adro
niza
ção
2Lo
garit
mo
SA
XP
adro
niza
ção
2B
ox-C
ox
SA
XP
adro
niza
ção
2Lo
garit
mo
comδ
série 4867 0.37 0.38 0.38 0.2 0.31 0.29 0.37 0.38 0.38 0.55série 5109 0.13 0.16 0.13 0.17 0.17 0.17 0.13 0.16 0.13 0.19série 6150 0.11 0.11 0.11 0.11 0.17 0.1 0.11 0.11 0.11 0
Mediana 0.13 0.16 0.13 0.17 0.17 0.17 0.13 0.16 0.13 0.19Média 0.20 0.22 0.21 0.16 0.22 0.19 0.20 0.22 0.21 0.25≥0.85 0 0 0 0 0 0 0 0 0 0<0.6 3 3 3 3 3 3 3 3 3 3
81
Tabela 6.18: Score F1 do método baseado no SAX no grupo 3.
SA
X
SA
XLo
garit
mo
SA
XB
ox-C
ox
SA
XP
adro
niza
ção
1 SA
XP
adro
niza
ção
1Lo
garit
mo
SA
XP
adro
niza
ção
1B
ox-C
ox
SA
XP
adro
niza
ção
2 SA
XP
adro
niza
ção
2Lo
garit
mo
SA
XP
adro
niza
ção
2B
ox-C
ox
SA
XP
adro
niza
ção
2Lo
garit
mo
comδ
série 4867 0.54 0.55 0.55 0.23 0.33 0.32 0.54 0.55 0.55 0.71série 5109 0.2 0.24 0.2 0.24 0.24 0.24 0.2 0.24 0.2 0.23série 6150 0.16 0.16 0.16 0.14 0.24 0.13 0.16 0.16 0.16 NA
Mediana 0.20 0.24 0.20 0.23 0.24 0.24 0.20 0.24 0.20 0.47Média 0.30 0.32 0.30 0.20 0.27 0.23 0.30 0.32 0.30 0.47≥0.85 0 0 0 0 0 0 0 0 0 0<0.6 3 3 3 3 3 3 3 3 3 1
82
Capítulo 7
Conclusões gerais
7.1 Síntese
Neste capítulo, pretende-se apresentar as principais conclusões retiradas após a realização dos estu-
dos apresentados anteriormente.
Nesta dissertação, dois principais estudos foram realizados: o estudo da propagação da incerteza
no cálculo do balanço hídrico e o estudo relativo à deteção de outliers em séries temporais de caudal.
Em ambos os casos, vários métodos foram propostos, alguns dos quais modificações de outros já
existentes, sendo que, para realizar as necessárias comparações, recorreu-se a alguns dados, tanto
fictícios como reais.
A análise da propagação de incertezas no cálculo do balanço hídrico dividiu-se em duas análises:
na primeira, as incertezas foram introduzidas num formato de bandas, ou seja, com um limite mínimo e
máximo para a incerteza; na segunda análise, as incertezas foram calculadas tendo por base os valores
mínimos e máximos atribuídos a cada uma das componentes do balanço hídrico. Em ambos os casos,
foram propostos diversos métodos, tendo sido realizadas comparações entre os resultados obtidos.
No seguimento das análises efetuadas e através do contacto direto com algumas entidades ges-
toras de sistemas de abastecimento de água, foi possível concluir que estas consideram não possuir
meios nem conhecimentos suficientes para a indicação de valores mínimos e máximos para as diver-
sas componentes do balanço hídrico. Deste modo, apesar de ter sido realizada uma comparação entre
os diferentes métodos propostos para este caso – método Delta e método de Monte Carlo – não se
procedeu à escolha do melhor método. Por oposição, a indicação da incerteza através de uma banda
foi considerada pelas entidades gestoras como a mais indicada. Neste caso, três métodos foram pro-
postos: método Delta, intervalos de confiança e método de Monte Carlo. Relativamente a este último,
foi possível verificar que a distribuição geralmente utilizada, a distribuição normal, não modela corre-
tamente as diversas componentes do balanço hídrico, tendo-se verificado que a distribuição gama se
revela uma melhor opção para este efeito.
De modo a proceder-se à escolha do melhor método, compararam-se os resultados obtidos para
três casos, dois dos quais reais. Em todos estes foi possível concluir que, nos casos em que se
verificam diferenças mais significativas entre os diferentes métodos, as bandas de incerteza com menor
amplitude resultam da aplicação dos intervalos de confiança. Além disso, o grau de confiança que é
possível associar às bandas de incerteza obtidas por este método e o seu menor peso computacional,
comparado com o método de Monte Carlo, são outras das suas vantagens. Neste sentido, concluiu-
se que o melhor método para o estudo da propagação de incertezas no balaço hídrico anual são os
intervalos de confiança.
83
Relativamente à deteção de outliers em séries temporais de caudal, começou-se por considerar o
modelo TBATS e os intervalos de confiança e de previsão obtidos a partir do mesmo. Contudo, dado
o seu elevado peso computacional e os resultados não satisfatórios, optou-se por não seguir em frente
com os métodos baseados neste modelo.
Uma vez que se verificam diferenças estruturais entre as séries temporais, realizou-se uma aná-
lise de clusters, considerando as séries temporais das medianas diárias de consumo padronizadas, de
modo a obterem-se grupos semelhantes, tendo esta análise resultado em três clusters. Dois destes
consistem em grupos de séries com características definidas, sendo que, no terceiro cluster, são agru-
padas as séries que não revelam um padrão definido, apresentando, por isso, diferenças entre si. As
séries deste último cluster podem ser consideradas como outliers relativamente às restantes. Devido a
esta característica deste cluster e ao baixo número de séries temporais nele presentes, não foi possível
construir um método que permita detetar corretamente o maior número de outliers existentes e o menor
número de falsos alarmes. Quanto aos dois outros clusters, concluiu-se que, com o método baseado
no SAX após a criação de um valor δ que permite diminuir o número de falsos alarmes, o número de
outliers detetados foi elevado, em oposição ao número de falsos alarmes que, efetivamente, reduziu
com a utilização do valor δ, tal como desejado. Além disso, a aplicação da transformação de Box-Cox
melhorou os resultados obtidos no caso do primeiro cluster, sendo que, no segundo, tanto os dados
originais como o logaritmo dos mesmos deram origem a resultados muito semelhantes, optando-se,
portanto, por utilizar os dados originais para a deteção de outliers neste cluster. De salientar que este
método permite a deteção de outliers em tempo real, ou seja, utilizando os dados observados nos ins-
tantes anteriores (meses ou anos), é possível construir um padrão para o dia pretendido, podendo-se
realizar instantaneamente a comparação com os dados que estão a ser recolhidos.
7.2 Trabalho futuro
Relativamente a trabalho futuro a realizar no âmbito na propagação de incertezas, poder-se-á consi-
derar a aplicação dos intervalos de confiança a outros balanços anuais, tal como o balanço energético
também realizado pelas entidades gestoras de sistemas de abastecimento de água. Poderá ainda ser
interessante aplicar os mesmos métodos aos casos de distribuições de eletricidade ou de gás natural,
caso seja aplicável.
A classificação das séries temporais de caudal também poderá ser ainda melhorada, de modo a
verificar-se como se poderá classificar mais precisamente as séries que não apresentam padrões evi-
dentes nas medianas dos consumos diários, além da sua identificação a priori através da visualização
do seu gráfico. Ainda no seguimento destas séries, dada a ineficácia na deteção de outliers de qual-
quer um dos métodos construídos nestas séries, outros métodos poderão ainda ser testados com este
objetivo.
Relativamente ao método escolhido para a deteção de outliers em séries temporais de caudal, ba-
seado no SAX e com a construção de um valor δ, poderá ainda ser útil estudar-se a possibilidade de se
proceder à atualização do valor δ para cada série à medida que vão sendo detetados outliers e estes
vão sendo verificados e classificados como sendo reais ou falsos alarmes.
Mais uma vez, dadas as presumíveis semelhanças entre as séries temporais de caudal e as relativas
a consumos de eletricidade ou de gás, também os métodos de deteção de outliers aqui estudados
poderão ser aplicados a estas.
84
Bibliografia
Akaike, H. (1998). Information theory and an extension of the maximum likelihood principle. Selected
Papers of Hirotugu Akaike, págs. 199–213. Springer.
Alegre, H., Coelho, S. T., Almeida, M. d. C., e Vieira, P. (2005). Controlo de perdas de água em sistemas
públicos de adução e distribuição. Série Guias Técnicos, 3.
Alegre, H., Hirner, W., Baptista, J., e Parena, R. (2004). Indicadores de desempenho para serviços de
água, Manual de boa prática,(versão portuguesa). IRAR e LNEC, Lisboa.
Alvisi, S., Franchini, M., e Marinelli, A. (2007). A short-term, pattern-based model for water-demand
forecasting. Journal of Hydroinformatics, 9(1):39–50.
Ash, R. B., e Doléans-Dade, C. A. (1999). Probability & Measure Theory, 2ª edição, pág. 307. Academic
Press, New York.
Babic, B., Stanic, M., Prodanovic, D., Džodanovic, B., e Ðukic, A. (2014). Reducing uncertainty of
infrastructure leakage index – a case study. Procedia Engineering 89:1577–1584.
Bai, J. (1997). Estimation of a change point in multiple regression models. Review of Economics and
Statistics, 79(4): 551–563.
Bai, J., e Perron, P. (2003). Computation and analysis of multiple structural change models. Journal of
Applied Econometrics, 18(1): 1–22.
Baptista, J., Alegre, H., Matos, R., Neves, E., Pássaro, D., Cardoso, A., Escudeiro, M., Santos, R.,
Nunes, M., Ribeiro, A., et al. (2005). Guia de avaliação de desempenho dos operadores de serviços
de águas e resíduos. IRAR & LNEC, Lisboa.
Barrela, R. (2015). Data reconstruction of flow time series in water distribution networks. Tese de
mestrado, Instituto Superior Técnico, Lisboa.
Bell, S. (2001). Measurement good practice guide no. 11 (issue 2). A Beginner’s Guide to Uncertainty
of Measurement. National Physical Laboratory, Teddington.
Berndt, D. J., e Clifford, J. (1994). Using dynamic time warping to find patterns in time series. KDD
Workshop, volume 10, págs. 359–370. Seattle, WA.
BIPM, IEC, IFCC, ILAC, ISO, IUPAC, IUPAP e OIML (2008). Evaluation of measurement dataguide to
the expression of uncertainty in measurement. Joint Committee for Guides in Metrology (JCGM 100:
2008, GUM 1995 with minor corrections).
BIPM, IEC, IFCC, ILAC, ISO, IUPAC, IUPAP e OIML (2008). Evaluation of measurement data – Supple-
ment 1 to the "Guide to the expression of uncertainty in measurement” – Propagation of distributions
using a Monte Carlo method.
85
Cleveland, R. B., Cleveland, W. S., McRae, J. E., e Terpenning, I. (1990). Stl: A seasonal-trend decom-
position procedure based on loess. Journal of Official Statistics, 6(1):3–73.
Chen, C., e Liu, L. (1993). Joint estimation of model parameters and outlier effects in time series. Journal
of the American Statistical Association, 88(421):284-297.
Coleman, H. W., e Steele, W. G. (2009). Experimentation, validation, and uncertainty analysis for engi-
neers. John Wiley & Sons.
European Accreditation Laboratory Committee. (2013). EA-4/02 Evaluation of the uncertainty of measu-
rement in calibration.
Cox, M., Dainton, M. P., e Harris, P. (2001). Software support for metrology best practice guide no. 6.
Uncertainty and Statistical Modelling. National Physical Laboratory, Teddington.
Cox, T. F., e Cox, M. A. (2000). Multidimensional scaling, 2ª edição. CRC Press.
De Livera, A. M., Hyndman, R. J., e Snyder, R. D. (2011). Forecasting time series with complex
seasonal patterns using exponential smoothing. Journal of the American Statistical Association,
106(496):1513–1527.
Farley, M., e Trow, S. (2003). Losses in water distribution networks. A practitioner’s guide to assessment,
monitoring and control. IWA Publishing.
Grubbs, F. E. (1950). Sample criteria for testing outlying observations. Annals of Mathematical Statistics,
21(1):27—58.
Henriques, J. D., Palma, J., e Ribeiro, A. (2006). Medição de caudal em sistemas de abastecimento de
água e de saneamento de águas residuais urbanas. Série “Guias Técnicos” do IRAR, 9.
Huber, P. J., e Ronchetti, E. M. (1981). Robust statistics. John Wiley & Sons.
Hyndman, R. J., Koehler, A. B., Ord, J. K., e Snyder, R. D. (2005). Prediction intervals for exponential
smoothing using two new classes of state space models. Journal of Forecasting, 24(1):17–37.
Hyndman, R. J. (2015). forecast: Forecasting functions for time series and linear models. R package
version 6.2.
Kaiser, R., e Maravall, A. (1999). Seasonal outliers in time series. Imprenta del Banco de Espana,
Espanha.
Lambert, A. (2010). Assessing non-revenue water and its components: a practical approach. IWA
Publishing.
Lee, Y. W., Bogardi, I., e Kim, J. H. (2000). Decision of water supply line under uncertainty. Water
Reasearch, 34(13):3371–3379.
Li, Z., Shao, Q., Xu, Z., e Xu, C. Y. (2013). Uncertainty issues of a conceptual water balance model for
a semi-arid watershed in north-west of China. Hydrological Processes, 27(2):304–312.
Liemberger, R., e McKenzie, R. (2003). Aqualibre™ – A new innovative water balance software. Em
IWA and AWWA Conference on Efficient Management of Urban Water Supply.
Lin, J., Keogh, E., Wei, L., e Lonardi, S. (2007). Experiencing SAX: A novel symbolic representation of
time series. Data Mining and Knowledge Discovery, 15(2):107–144.
86
Lin, J., e Li, Y. (2009). Finding structural similarity in time series data using bag-of-patterns representa-
tion. Scientific and Statistical Database Management, págs. 461–477. Springer.
Lin, J., Khade, R., e Li, Y. (2012). Rotation-invariant similarity in time series using bag-of-patterns
representation. Journal of Intelligent Information Systems, 39(2):287–315.
Loureiro, D. (2010). Consumption analysis methodologies for the efficient management of water distri-
bution systems. Universidade Técnica de Lisboa, Lisboa.
Loureiro, D., Amado, C., Martins, A., Vitorino, D., Mamade, A., e Coelho, S. T. (2016). Water distribution
systems flow monitoring and anomalous event detection: A pratical approach. Urban Water Journal,
13(3):242–252.
Mamade, A. (2013). Profiling consumption patterns using extensive measurements. Tese de mestrado,
Instituto Superior Técnico, Lisboa.
Marek, L. (2014). Outliers in time series. Em The 8th International Days of Statistics and Economics
Montero, P., e Vilar, J. A. (2014). Tsclust: An R package for time series clustering. Journal of Statistical
Software, 62(1).
Ogasawara, E., Martinez, L. C., De Oliveira, D., Zimbrão, G., Pappa, G. L., e Mattoso, M. (2010).
Adaptive normalization: A novel data normalization approach for non-stationary time series. Em The
2010 International Joint Conference on Neural Networks (IJCNN), págs. 1–8. IEEE.
Puust, R., Kapelan, Z., Savic, D., e Koppel, T. (2010). A review of methods for leakage management in
pipe networks. Urban Water Journal, 7(1):25–45.
Quevedo, J., Puig, V., Cembrano, G., Blanch, J., Aguilar, J., Saporta, D., Benito, G., Hedo, M., e Molina,
A. (2010). Validation and reconstruction of flow meter data in the Barcelona water distribution network.
Control Engineering Practice, 18(6):640–651.
R Core Team (2015). R: A language and environment for statistical computing. R Foundation for Statis-
tical Computing, Vienna, Austria. http://www.R-project.org/.
Refsgaard, J. C., van der Sluijs, J. P., Højberg, A. L., e Vanrolleghem, P. A. (2007). Uncertainty in the
environmental modelling process – a framework and guidance. Environmental Modelling & Software,
22(11):1543–1556.
Rosner, B. (1983). Percentage points for a generalized ESD many-outlier procedure. Technometrics,
25(2):165–172.
Rousseeuw, P. J., e Croux, C. (1993). Alternatives to the median absolute deviation. Journal of the
American Statistical Association, 88(424):1273–1283.
Sattary, J., Boam, D., Judeh, W., e Warren, S. (2002). The impact of measurement uncertainty on the
water balance. Water and Environment Journal, 16(3):218–222.
Tan, P. N., Steinbach, M., e Kumar, V. (2006). Introduction to data mining, volume 1. Pearson Addison
Wesley Boston.
Taylor, R., Lambert, A., e McKenzie D. R. (2008). Benchmarking of water losses in New Zealand Manual
(Incorporating the user manual for the 2008 update of the BenchlossNZ Software: Version 2a). New
Zealand Water and Wastes Association; Water Services Managers Group.
87
Thornton, J., Sturm, R., e Kunkel, G. (2008). Water loss control. McGraw Hill Professional.
Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley Publishing Company.
Vallis, O., Hochenbaum, J., e Kejariwal, A. (2014). A novel technique for long-term anomaly detection in
the cloud. Em 6th USENIX Workshop on Hot Topics in Cloud Computing (HotCloud 14).
Verbesselt, J., Hyndman, R., Newnham, G,. e Culvenor, D. (2010). Detecting trend and seasonal chan-
ges in satellite image time series. Remote Sensing of Environment, 114(1):106–115.
Verbesselt, J., Hyndman, R., Zeileis, A., e Culvenor, D. (2010). Phenological change detection while ac-
counting for abrupt and gradual trends in satellite image time series. Remote Sensing of Environment,
114(12):2970–2980.
Ward, J. H. Jr. (1963). Hierarchical grouping to optimize an objective function. Journal of the American
Statistical Association, 58(301):236–244.
Wei, L., Keogh, E., e Xi, X. (2006). Saxually explicit images: finding unusual shapes. Sixth International
Conference on Data Mining (ICDM’06), págs. 711–720. IEEE.
Wu, X., Kumar, V., Quinlan, J. R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G. J., Ng, A., Liu, B.,
Philip, S. Y., et al. (2008). Top 10 algorithms in data mining. Knowledge and information systems,
14(1):1–37.
Yegnan, A., Williamson, D., e Graettinger, A. (2002). Uncertainty analysis in air dispersion modeling.
Environmental Modelling & Software, 17 (7):639–649.
Zeileis, A., Kleiber, C., Krämer, W., e Hornik, K. (2003). Testing and dating of structural changes in
practice. Computational Statistics & Data Analysis, 44(1):109–123.
88
Apêndice A
Propagação de incertezas no balanço
hídrico e nos indicadores de perdas
de água
De modo a exemplificar o modo de cálculo das diversas componentes do balanço hídrico presentes nas
tabelas A.1 e A.2, de seguida apresenta-se o procedimento efetuado no caso da secção 2. das tabelas,
ou seja, do consumo autorizado faturado:
1. a distribuição direta (2.1.1.) resulta da soma dos consumos doméstico, de comércio e de serviços,
público, industrial e de outros consumos faturados medidos;
2. a água exportada (tratada ou não tratada) faturada (2.1.2.) resulta da soma da água transferida
para outros sistemas da mesma entidade e da água vendida a outras entidades gestoras;
3. o consumo faturado medido (2.1.) resulta da soma da distribuição direta (2.1.1.) e da água
exportada (tratada ou não tratada) faturada (2.1.2.);
4. o consumo autorizado faturado (2.) resulta da soma dos consumos faturados medido (2.1.) e não
medido (2.2.).
No caso do exemplo presente nestas tabelas, obtém-se:
Distribuição direta (2.1.1.) = 3 575 458 + 421 056 + 34 953 + 0 + 10 920 = 4 042 387;
Água exportada faturada (2.1.2.) = 0 + 0 = 0;
Consumo faturado medido (2.1.) = 4 042 387 + 0 = 4 042 387;
Consumo faturado não medido (2.2) = 2 737.5 + 2 400 + 0 + 0 + 2 602 = 7 739.5;
Consumo autorizado faturado (2.) = 4 042 387 + 7 739.5 = 4 050 126.5.
No caso das restantes secções, os cálculos efetuam-se de forma análoga, exceto no caso do con-
sumo para lavagem de ruas e do consumo para serviço de combate a incêndio como parte do consumo
não faturado não medido, em que resultam da multiplicação das três componentes apresentadas abaixo
de cada um. Já para o preenchimento da tabela 3.1, onde se sumariam as principais componentes do
balanço hídrico, procede-se tal como descrito de seguida [Alegre et al. (2005)]:
1. Calcular o volume de água entrada no sistema, corrigido dos erros sistemáticos, através do pro-
cedimento descrito anteriormente para as tabelas A.1 e A.2, e introduzi-lo na 1ª coluna;
89
2. Calcular o consumo faturado medido e o consumo faturado não medido, utilizando o procedimento
anterior, e introduzir os respetivos valores na 4ª coluna; calcular o total destes e introduzir como
consumo autorizado faturado (na 3ª coluna) e como água faturada (na 5ª coluna);
3. Calcular o volume de água não faturada (5ª coluna) subtraindo a água faturada (5ª coluna) à água
entrada no sistema corrigida dos erros sistemáticos, presente na 1ª coluna;
4. Preencher os campos dos consumos não faturados medido e não medido (4ª coluna) e o seu total
(consumo autorizado não faturado - 3ª coluna), utilizando os valores obtidos na tabela A.2;
5. Calcular o consumo autorizado da 2ª coluna como o total dos consumos autorizados faturado e
não faturado, presentes na 3ª coluna;
6. Calcular as perdas de água (2ª coluna) como a diferença entre a água entrada no sistema corrigida
dos erros sistemáticos (1ª coluna) e o consumo autorizado (2ª coluna);
7. Preencher os campos do uso não autorizado e dos erros de medição (4ª coluna), utilizando a
tabela A.2, tal como o campo das perdas aparentes (3ª coluna);
8. Calcular as perdas reais (3ª coluna) subtraindo as perdas aparentes às perdas de água (ambas
na 3ª coluna)1;
9. Calcular os valores dos campos relativos às perdas reais da 4ª coluna, somá-los2 tal como na
tabela A.2 e compará-lo com o resultado das perdas reais (3ª coluna) obtido pelo passo anterior.
Deste modo, seguindo estes passos, é possível preencher todos os campos do quadro presente
na tabela 3.1. Além disso, é possível verificar quais as componentes resultantes de somas e quais as
resultantes de subtrações.
1Ao valor obtido de perdas reais por este cálculo dá-se o nome de perdas reais (1).2Ao valor obtido de perdas reais por este cálculo dá-se o nome de perdas reais (2).
90
Tabela A.1: Componentes do balanço hídrico com o exemplo do município de Vila Faia.
Nome Valor Unidades Fiabilidade Incerteza1. Água entrada no sistema (corrigida dos erros sistemáticos)
1.1.Água entradaÁgua captada 823 838 m3/ano ? ? ? 0-5%Água importada (tratada ou não tratada) fatu-rada por terceiros
4 835 650 m3/ano ? ? ? 0-5%
Água importada (tratada ou não tratada) nãofaturada por terceiros
0 m3/ano ? ? ? 0-5%
1.2.Estimativa dos erros sistemáticos da água entrada no sistemaEstimativa do erro sistemático da água cap-tada
0 m3/ano
Estimativa do erro sistemático da água impor-tada faturada por terceiros
0 m3/ano
Estimativa do erro sistemático da água impor-tada não faturada por terceiros
0 m3/ano
2. Consumo autorizado faturado
2.1.Consumo faturado medido
2.1.1.Distribuição diretaConsumo doméstico 3 575 458 m3/ano ? ? ? 0-5%Consumo de comércio e de serviços 421 056 m3/ano ? ? ? 0-5%Consumo público 34 953 m3/ano ?? 21-50%Consumo industrial 0 m3/ano ? ? ? 0-5%Outros consumos faturados medidos 10 920 m3/ano ?? 6-20%
2.1.2.Água exportada (tratada ou não tratada) faturadaÁgua transferida para outros sistemas damesma entidade
0 m3/ano
Água vendida a outras entidades gestoras 0 m3/ano
2.2.Consumo faturado não medidoConsumo doméstico, comercial e de serviços(clientes sem contador)
2 737.5 m3/ano ?? 6-20%
Consumo para rega de espaços verdes 2 400 m3/ano ?? 21-50%Consumo para lavagem de ruas 0 m3/anoConsumo em marcos e bocas de incêndio 0 m3/anoOutros consumos faturados não medidos 2 602 m3/ano ?? 51-100%
91
Tabela A.2: Continuação das componentes do balanço hídrico com o exemplo do município de Vila Faia.
Nome Valor Unidades Fiabilidade Incerteza3. Consumo autorizado não faturado
3.1.Consumo não faturado medido
3.1.1.Distribuição diretaConsumo público 0 m3/anoConsumo próprio da entidade 0 m3/anoCombate a incêndio 11 885 m3/ano ? 6-20%
3.1.2.Água exportada (tratada ou não tratada) não faturadaÁgua transferida para outros sistemas damesma entidade
0 m3/ano
Água transferida para outras entidades gesto-ras
0 m3/ano
3.2.Consumo não faturado não medido
3.2.1.Consumo próprioConsumo de processo no tratamento 0 m3/anoLavagem de condutas e reservatórios 5 400 m3/ano ? ? ? 51-100%Consumo nas instalações e espaços verdes daentidade
2 500 m3/ano ? ? ? 51-100%
Estimativa de consumo doméstico, comercial ede serviços de clientes sem contador
0 m3/ano
Consumo para rega de espaços verdes 0 m3/anoConsumo para lavagem de ruas 7500 m3/ano
Nº de enchimentos de autotanques por dia 15 nº/dia ?? 6-20%Capacidade média de cada autotanque 5 m3 ? ? ? 0-5%Nº de dias de utilização por ano 100 dias/ano ?? 21-50%
Consumo para serviço de combate a incêndio 22 500 m3/anoNº de enchimentos de autotanque por dia 25 nº/dia ?? 6-20%Capacidade média de cada autotanque 30 m3 ? ? ? 0-5%Nº de dias de utilização por ano 30 dias/ano ?? 6-20%
Outros consumos autorizados não faturadosnão medidos
0 m3/ano
4. Perdas aparentes
4.1.Uso não autorizadoConsumo relativo a utilização fraudulenta demarcos, bocas de incêndio e de rega
4 800 m3/ano ? 101-300%
Consumo relativo a ligações ilícitas 46 400 m3/ano ? 101-300%
4.2.Erros do consumo autorizadoEstimativa do erro sistemático da micro-medição
310 713 m3/ano ? 21-50%
Estimativa do erro sistemático da água autori-zada não medida
0 m3/ano
5. Perdas reaisFugas e extravasamentos nos reservatórios deadução e/ou distribuição
12 775 m3/ano ? 51-100%
Fugas nos ramais 7 300 m3/ano ? 51-100%Perdas reais nas condutas de água bruta e nasestações de tratamento de água
0 m3/ano
Fugas nas condutas de adução e/ou distribui-ção
657 000 m3/ano ?? 21-50%
92
Apêndice B
Deteção de Outliers em Séries
Temporais de Caudal
Tabela B.1: Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de deteção deoutliers, no cluster 1.
Série Semanas OutliersFator multiplicativo Soma de uma parcelaX Fator X Parcela
série 1759 6 a 9 422 a 441 X 1.5série 1765 45 a 48 103 a 122 X 9série 2091 5 a 8 422 a 441 X 7série 2150 29 a 32 200 a 219 X 20série 2166 7 a 10 426 a 445 X 18série 2764 26 a 29 350 a 369 X 1.5série 2823 12 a 15 196 a 215 X 1.6série 3881 28 a 31 585 a 604 X 1.7série 3882 39 a 42 490 a 509 X 2série 4562 10 a 13 334 a 353 X 23série 6278 7 a 10 Conhecidos
Tabela B.2: Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de deteção deoutliers, no cluster 2.
Série Semanas OutliersFator multiplicativo Soma de uma parcelaX Fator X Parcela
série 1766 6 a 9 422 a 441 X 1.4série 2014 4 a 7 235 a 254 X 7série 2082 34 a 37 364 a 383 X 12série 2163 45 a 48 555 a 574 X 25série 2289 29 a 32 510 a 529 X 1.5série 2722 9 a 12 445 a 464 X 7série 2725 49 a 52 230 a 249 X 1.5série 2741 29 a 32 30 a 49 X 26série 2743 11 a 14 450 a 469 X 1.5série 2802 19 a 22 385 a 404 X 7série 2804 20 a 23 25 a 44 X 1.6série 3863 12 a 15 440 a 459 X 1.6série 5124 12 a 15 610 a 629 X 9série 6023 11 a 14 Conhecidos
93
Tabela B.3: Porções das séries utilizadas e outliers introduzidos para a aplicação dos métodos de deteção deoutliers, no cluster 3.
Série Semanas OutliersFator multiplicativo Soma de uma parcelaX Fator X Parcela
série 4867 25 a 28 422 a 441 X 5série 5109 6 a 9 640 a 659 X 1.9série 6150 27 a 30 Conhecidossérie2166 18 a 22 330 a 349 X 1.7série2168 21 a 25 585 a 604 X 1.7série2533 26 a 30 55 a 74 X 30série2680 31 a 35 392 a 411 X 25série4562 40 a 44 5 a 24 X 16série2163 41 a 45 490 a 509 X 2
Tabela B.4: Sensibilidade do método Twitter e do método de Tukey no grupo 2.
Twitt
erM
M
Twitt
erH
Q
Twitt
erM
MLo
garit
mo
Twitt
erH
QLo
garit
mo
Twitt
erM
MB
ox-C
ox
Twitt
erH
QB
ox-C
ox
Tuke
y
Tuke
yLo
garit
mo
Tuke
yB
ox-C
ox
série 1766 1 1 0.95 0.95 0.95 0.95 0.8 0.75 0.75série 2014 0 0 0 0 0 0 0 0 0série 2082 0.65 0.65 0.35 0.1 0.5 0.4 0.5 0.1 0.4série 2163 1 1 1 1 1 1 0.9 0.85 0.9série 2289 0.85 0.8 0.6 0.5 0.5 0.45 0.4 0.3 0.35série 2722 1 1 0.85 0.75 0.55 0.5 0.75 0.5 0.5série 2725 1 1 1 1 1 1 0.95 0.8 0.85série 2741 1 1 1 1 1 0.95 0.95 0.75 0.75série 2743 0.7 0.7 0.55 0.5 0.45 0.35 0.4 0.35 0.35série 2802 1 1 1 1 1 1 1 0.8 0.8série 2804 1 1 1 1 0.8 0.75 1 0.9 1série 3863 0.15 0.15 0 0 0 0 0 0 0série 5124 1 1 0.9 0.9 0.9 0.85 1 0.85 0.85série 6023 0.96 0.96 0.8 0.8 0.96 0.96 0.84 0.8 0.84
Mediana 1.00 1.00 0.88 0.85 0.85 0.80 0.82 0.75 0.75Média 0.81 0.80 0.71 0.68 0.69 0.65 0.68 0.55 0.60≥0.85 10 9 8 7 7 7 6 3 4<0.6 2 2 4 5 6 6 5 6 6
94
Tabela B.5: Precisão do método Twitter e do método de Tukey no grupo 2.
Twitt
erM
M
Twitt
erH
Q
Twitt
erM
MLo
garit
mo
Twitt
erH
QLo
garit
mo
Twitt
erM
MB
ox-C
ox
Twitt
erH
QB
ox-C
ox
Tuke
y
Tuke
yLo
garit
mo
Tuke
yB
ox-C
ox
série 1766 0.07 0.08 0.19 0.23 0.2 0.23 0.48 0.47 0.47série 2014 0 0 0 0 0 0 0 0 0série 2082 0.59 0.76 0.03 0.01 0.59 0.62 0.5 0.17 0.8série 2163 0.27 0.34 0.19 0.21 0.29 0.34 0.45 0.52 0.47série 2289 0.07 0.09 0.16 0.17 0.14 0.16 0.27 0.3 0.32série 2722 0.07 0.1 0.23 0.29 0.13 0.16 0.65 0.77 0.77série 2725 0.08 0.11 0.17 0.18 0.16 0.18 0.25 0.19 0.19série 2741 0.12 0.17 0.5 0.53 0.47 0.48 0.42 0.44 0.44série 2743 0.05 0.05 0.06 0.09 0.05 0.06 0.33 0.33 0.32série 2802 0.14 0.19 0.42 0.47 0.42 0.51 0.38 0.52 0.52série 2804 0.07 0.09 0.36 0.5 0.36 0.34 0.5 0.4 0.5série 3863 0.01 0.01 0 0 0 0 0 0 0série 5124 0.07 0.12 0.5 0.53 0.41 0.47 0.28 0.34 0.36série 6023 0.19 0.24 0.2 0.22 0.21 0.26 0.23 0.24 0.24
Mediana 0.07 0.11 0.19 0.22 0.21 0.25 0.36 0.34 0.40Média 0.13 0.17 0.22 0.25 0.25 0.27 0.34 0.34 0.39≥0.85 0 0 0 0 0 0 0 0 0<0.6 14 13 14 14 14 13 13 13 12
Tabela B.6: Score F1 do método Twitter e do método de Tukey no grupo 2.
Twitt
erM
M
Twitt
erH
Q
Twitt
erM
MLo
garit
mo
Twitt
erH
QLo
garit
mo
Twitt
erM
MB
ox-C
ox
Twitt
erH
QB
ox-C
ox
Tuke
y
Tuke
yLo
garit
mo
Tuke
yB
ox-C
ox
série 1766 0.14 0.15 0.32 0.37 0.33 0.37 0.6 0.58 0.58série 2014 NA NA NA NA NA NA NA NA NAsérie 2082 0.62 0.7 0.06 0.02 0.54 0.48 0.5 0.12 0.53série 2163 0.43 0.51 0.32 0.34 0.44 0.51 0.6 0.64 0.62série 2289 0.13 0.16 0.25 0.26 0.22 0.23 0.32 0.3 0.33série 2722 0.14 0.18 0.36 0.42 0.22 0.24 0.7 0.61 0.61série 2725 0.16 0.19 0.28 0.3 0.27 0.3 0.39 0.3 0.31série 2741 0.22 0.29 0.67 0.69 0.63 0.63 0.58 0.56 0.56série 2743 0.1 0.1 0.11 0.16 0.08 0.11 0.36 0.34 0.33série 2802 0.25 0.31 0.59 0.63 0.59 0.68 0.55 0.63 0.63série 2804 0.14 0.16 0.53 0.67 0.49 0.47 0.67 0.55 0.67série 3863 0.02 0.02 NA NA NA NA NA NA NAsérie 5124 0.14 0.21 0.64 0.67 0.56 0.61 0.43 0.49 0.51série 6023 0.31 0.38 0.32 0.34 0.35 0.41 0.36 0.37 0.38
Mediana 0.14 0.19 0.32 0.36 0.40 0.44 0.53 0.52 0.55Média 0.22 0.26 0.37 0.41 0.39 0.42 0.51 0.46 0.51≥0.85 0 0 0 0 0 0 0 0 0<0.6 12 12 10 8 11 9 8 9 8
95
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
−2.
0−
1.0
0.0
0.5
1.0
1.5
Seg Ter Qua Qui Sex Sab Dom
−2.
0−
1.0
0.0
0.5
1.0
1.5
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
−1.
0−
0.5
0.0
0.5
1.0
Seg Ter Qua Qui Sex Sab Dom
−1.
0−
0.5
0.0
0.5
1.0
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
−1.
0−
0.5
0.0
0.5
1.0
Seg Ter Qua Qui Sex Sab Dom
−1.
0−
0.5
0.0
0.5
1.0
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
−0.
50.
00.
51.
01.
5
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
01.
5
−1.
0−
0.5
0.0
0.5
1.0
1.5
Seg Ter Qua Qui Sex Sab Dom
−1.
0−
0.5
0.0
0.5
1.0
1.5
−1.
0−
0.5
0.0
0.5
1.0
Seg Ter Qua Qui Sex Sab Dom
−1.
0−
0.5
0.0
0.5
1.0
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
Figura B.1: Boxplots das medianas dos consumos diários, no cluster 1.
96
−0.
6−
0.2
0.0
0.2
0.4
0.6
0.8
Seg Ter Qua Qui Sex Sab Dom
−0.
6−
0.2
0.0
0.2
0.4
0.6
0.8
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
−0.
50.
00.
5
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
5
−1.
0−
0.5
0.0
0.5
1.0
Seg Ter Qua Qui Sex Sab Dom
−1.
0−
0.5
0.0
0.5
1.0
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
−0.
4−
0.2
0.0
0.2
0.4
Seg Ter Qua Qui Sex Sab Dom
−0.
4−
0.2
0.0
0.2
0.4
−0.
50.
00.
51.
01.
52.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
01.
52.
0
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
−0.
50.
00.
51.
01.
5
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
01.
5
−1.
0−
0.5
0.0
0.5
1.0
Seg Ter Qua Qui Sex Sab Dom
−1.
0−
0.5
0.0
0.5
1.0
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
0.0
0.5
1.0
Seg Ter Qua Qui Sex Sab Dom
0.0
0.5
1.0
Figura B.2: Boxplots das medianas dos consumos diários, no cluster 2.
97
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
−0.
50.
00.
51.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
0
Figura B.3: Boxplots das medianas dos consumos diários, no cluster 2 (continuação).
−1.
0−
0.5
0.0
0.5
1.0
1.5
Seg Ter Qua Qui Sex Sab Dom
−1.
0−
0.5
0.0
0.5
1.0
1.5
−0.
50.
00.
51.
01.
52.
0
Seg Ter Qua Qui Sex Sab Dom
−0.
50.
00.
51.
01.
52.
0
−1.
0−
0.5
0.0
0.5
1.0
Seg Ter Qua Qui Sex Sab Dom
−1.
0−
0.5
0.0
0.5
1.0
Figura B.4: Boxplots das medianas dos consumos diários, no cluster 3.
98
Tabela B.7: Sensibilidade do método baseado no SAX no grupo 2.
SA
X
SA
XLo
garit
mo
SA
XB
ox-C
ox
SA
XP
adro
niza
ção
1 SA
XP
adro
niza
ção
1Lo
garit
mo
SA
XP
adro
niza
ção
1B
ox-C
ox
SA
XP
adro
niza
ção
2 SA
XP
adro
niza
ção
2Lo
garit
mo
SA
XP
adro
niza
ção
2B
ox-C
ox
SA
XP
adro
niza
ção
2co
mδ
SA
XP
adro
niza
ção
2Lo
garit
mo
comδ
SA
XP
adro
niza
ção
2B
ox-C
oxco
mδ
série 1766 1 1 1 0.55 0.73 0.73 1 1 1 0.73 0 0.45série 2014 0.5 0.5 0.5 0.4 0.4 0.4 0.5 0.5 0.5 0 0 0.2série 2082 1 1 1 0.64 0.64 0.64 1 1 1 1 0.18 1série 2163 1 1 1 0.9 0.9 0.9 1 1 1 1 0.6 1série 2289 0.82 0.82 0.82 0.55 0.55 0.55 0.82 0.82 0.82 0.82 0.73 0.73série 2722 1 1 1 0.9 1 1 1 1 1 1 1 1série 2725 1 1 1 0.82 0.82 0.82 1 1 1 1 0.82 0.91série 2741 1 0.91 0.91 0.82 0.73 0.73 1 0.91 0.91 0.91 0.91 0.91série 2743 0.73 0.73 0.73 0.73 0.73 0.73 0.73 0.73 0.73 0.55 0.27 0série 2802 1 1 1 0.8 0.9 0.9 1 1 1 1 1 1série 2804 1 1 1 0.8 0.8 0.8 1 1 1 1 1 1série 3863 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0.36 0 0 0série 5124 1 1 1 0.73 0.73 0.73 1 1 1 0.91 0.82 0.82série 6023 1 1 1 1 1 1 1 1 1 1 1 1
Mediana 1.00 1.00 1.00 0.77 0.73 0.73 1.00 1.00 1.00 1.00 1.00 1.00Média 0.89 0.88 0.88 0.71 0.74 0.74 0.89 0.88 0.88 0.78 0.57 0.75≥0.85 10 10 10 3 4 4 10 10 10 7 4 6<0.6 2 2 2 4 3 3 2 2 2 2 3 2
Tabela B.8: Precisão do método baseado no SAX no grupo 2.
SA
X
SA
XLo
garit
mo
SA
XB
ox-C
ox
SA
XP
adro
niza
ção
1 SA
XP
adro
niza
ção
1Lo
garit
mo
SA
XP
adro
niza
ção
1B
ox-C
ox
SA
XP
adro
niza
ção
2 SA
XP
adro
niza
ção
2Lo
garit
mo
SA
XP
adro
niza
ção
2B
ox-C
ox
SA
XP
adro
niza
ção
2co
mδ
SA
XP
adro
niza
ção
2Lo
garit
mo
comδ
SA
XP
adro
niza
ção
2B
ox-C
oxco
mδ
série 1766 0.69 0.69 0.69 0.29 0.4 0.4 0.69 0.69 0.69 1 NA 1série 2014 0.28 0.28 0.28 0.31 0.31 0.31 0.28 0.28 0.28 0 NA 0.4série 2082 0.44 0.44 0.44 0.29 0.29 0.3 0.44 0.44 0.44 1 0.67 0.85série 2163 0.56 0.56 0.56 0.56 0.56 0.56 0.56 0.56 0.56 1 1 1série 2289 0.41 0.43 0.43 0.27 0.26 0.26 0.41 0.43 0.43 0.82 0.8 0.73série 2722 0.4 0.4 0.4 0.38 0.42 0.42 0.4 0.4 0.4 1 1 1série 2725 0.42 0.42 0.42 0.33 0.36 0.36 0.42 0.42 0.42 0.92 0.9 0.91série 2741 0.5 0.48 0.48 0.45 0.5 0.5 0.5 0.48 0.48 1 1 1série 2743 0.53 0.53 0.53 0.57 0.53 0.53 0.53 0.53 0.53 0.86 1 NAsérie 2802 0.36 0.36 0.36 0.25 0.31 0.31 0.36 0.36 0.36 0.77 1 1série 2804 0.29 0.3 0.29 0.38 0.4 0.38 0.29 0.3 0.29 0.56 0.67 0.53série 3863 0.29 0.27 0.29 0.29 0.29 0.29 0.29 0.27 0.29 0 0 0série 5124 0.3 0.3 0.3 0.44 0.47 0.47 0.3 0.3 0.3 0.5 0.9 1série 6023 0.17 0.18 0.18 0.24 0.26 0.23 0.17 0.18 0.18 0.38 0.75 0.32
Mediana 0.41 0.41 0.41 0.32 0.38 0.37 0.41 0.41 0.41 0.84 0.90 0.91Média 0.40 0.40 0.40 0.36 0.38 0.38 0.40 0.40 0.40 0.70 0.81 0.75≥0.85 0 0 0 0 0 0 0 0 0 7 7 8<0.6 13 13 13 14 14 14 13 13 13 5 1 4
99
Tabela B.9: Score F1 do método baseado no SAX no grupo 2.
SA
X
SA
XLo
garit
mo
SA
XB
ox-C
ox
SA
XP
adro
niza
ção
1 SA
XP
adro
niza
ção
1Lo
garit
mo
SA
XP
adro
niza
ção
1B
ox-C
ox
SA
XP
adro
niza
ção
2 SA
XP
adro
niza
ção
2Lo
garit
mo
SA
XP
adro
niza
ção
2B
ox-C
ox
SA
XP
adro
niza
ção
2co
mδ
SA
XP
adro
niza
ção
2Lo
garit
mo
comδ
SA
XP
adro
niza
ção
2B
ox-C
oxco
mδ
série 1766 0.81 0.81 0.81 0.37 0.52 0.52 0.81 0.81 0.81 0.84 NA 0.62série 2014 0.36 0.36 0.36 0.35 0.35 0.35 0.36 0.36 0.36 NA NA 0.27série 2082 0.61 0.61 0.61 0.4 0.4 0.41 0.61 0.61 0.61 1 0.29 0.92série 2163 0.71 0.71 0.71 0.69 0.69 0.69 0.71 0.71 0.71 1 0.75 1série 2289 0.55 0.56 0.56 0.36 0.35 0.35 0.55 0.56 0.56 0.82 0.76 0.73série 2722 0.57 0.57 0.57 0.53 0.59 0.59 0.57 0.57 0.57 1 1 1série 2725 0.59 0.59 0.59 0.47 0.5 0.5 0.59 0.59 0.59 0.96 0.86 0.91série 2741 0.67 0.62 0.62 0.58 0.59 0.59 0.67 0.62 0.62 0.95 0.95 0.95série 2743 0.62 0.62 0.62 0.64 0.62 0.62 0.62 0.62 0.62 0.67 0.43 NAsérie 2802 0.53 0.53 0.53 0.38 0.46 0.46 0.53 0.53 0.53 0.87 1 1série 2804 0.45 0.47 0.45 0.52 0.53 0.52 0.45 0.47 0.45 0.71 0.8 0.69série 3863 0.32 0.31 0.32 0.32 0.32 0.32 0.32 0.31 0.32 NA NA NAsérie 5124 0.46 0.46 0.46 0.55 0.57 0.57 0.46 0.46 0.46 0.65 0.86 0.9série 6023 0.29 0.3 0.3 0.39 0.41 0.38 0.29 0.3 0.3 0.55 0.86 0.48
Mediana 0.56 0.57 0.57 0.44 0.51 0.51 0.56 0.57 0.57 0.86 0.86 0.91Média 0.54 0.54 0.54 0.47 0.49 0.49 0.54 0.54 0.54 0.84 0.78 0.79≥0.85 0 0 0 0 0 0 0 0 0 6 6 7<0.6 9 9 9 12 12 12 9 9 9 1 2 2
Tabela B.10: Valores δ na aplicaçãodo método SAX com a
padronização 2 ao cluster 1.
Série δ δ Box-Coxsérie 1759 0.17 0.08série 1765 0.21 0.25série 2091 0.13 0.09série 2150 0.6 0.42série 2166 0.13 0.07série 2764 0.04 0.04série 2823 0.2 0.26série 3881 0.09 0.12série 3882 0.21 0.24série 4562 0.32 0.16série 6278 0.43 0.26
Média 0.23 0.18Mediana 0.2 0.16
Tabela B.11: Valores δ na aplicaçãodo método SAX com a
padronização 2 ao cluster 2.
Série δ δ Logaritmo δ Box-Coxsérie 1766 0.18 0.08 0.11série 2014 0.01 0 0.01série 2082 0.36 0.16 0.32série 2163 0.33 0.22 0.29série 2289 0.46 0.21 0.24série 2722 0.59 0.25 0.25série 2725 0.32 0.16 0.19série 2741 0.24 0.3 0.29série 2743 0.29 0.13 0.09série 2802 0.4 0.45 0.45série 2804 0.32 0.4 0.32série 3863 0.1 0.09 0.08série 5124 0.27 0.13 0.11série 6023 0.34 0.64 0.41
Média 0.3 0.23 0.22Mediana 0.32 0.18 0.24
Tabela B.12: Valores δ na aplicaçãodo método SAX com a
padronização 2 ao cluster 3.
Série δ Logaritmosérie 4867 0.4série 5109 0.12série 6150 0.12
Média 0.21Mediana 0.12
100