modelação da digestão anaeróbia da etar de vila franca de ... · conselhos que sempre me deu e...

Modelação da digestão anaeróbia da ETAR de Vila

Franca de Xira com Redes Neuronais Artificiais

Ana Raquel Correia Pires

Dissertação para obtenção do Grau de Mestre em

Orientadores: Professora

Doutora Diana Figueiredo

Presidente: Professor

Orientador: Professora Doutora

Vogal: Doutora



Ana Raquel Correia Pires


Engenharia Biológica

Professora Doutora Helena Maria Rodrigues Vasconcelos Pinheiro

Diana Figueiredo

Júri

Professor Doutor Arsénio do Carmo Sales Mendes Fialho

Doutora Helena Maria Rodrigues Vasconcelos Pinheiro

Doutora Nídia Dana Mariano Lourenço de Almeida

Novembro 2014




Vasconcelos Pinheiro

Arsénio do Carmo Sales Mendes Fialho

Helena Maria Rodrigues Vasconcelos Pinheiro

Nídia Dana Mariano Lourenço de Almeida

i

Agradecimentos

Este espaço é dedicado àqueles que deram a sua contribuição para que esta dissertação

fosse realizada. É com muita satisfação que a todos eles deixo aqui o meu sincero agradecimento.

Em primeiro lugar, agradeço à Águas de Portugal e ao Eng. Nuno Brôco, pela oportunidade

de realizar este estágio, do qual ganhei uma experiência bastante positiva. A todas as pessoas com

quem tive contacto na SIMTEJO, por prontamente se oferecerem para me ajudar e por me facultarem

informação para o caso de estudo, em especial à Diana Figueiredo, por toda a disponibilidade, pelos

conselhos que sempre me deu e pelo esclarecimento de dúvidas.

Gostaria também de agradecer aos meus orientadores. À Professora Helena Pinheiro pela

sua dedicação a este projecto desde o primeiro dia, por todo o apoio, recomendações e paciência,

que me ajudaram imenso durante este meu processo de aprendizagem e sem os quais nunca poderia

fazer um balanço tão positivo. Ao Professor José Cardoso Menezes, pelo esclarecimento de pontos

fulcrais à realização deste trabalho.

À minha família e amigos que estiveram sempre ao meu lado e nunca me deixaram

desanimar, o meu mais sincero agradecimento. Um agradecimento especial à Inês Graça, ao Bruno

Oliveira, à Elsa Requeixa e ao Pedro Ramos, por tornarem esta minha história bem mais

enriquecedora. À Estelle e à Thayná, por serem pessoas tão especiais e também à Maura por me

acompanhar há tantos anos. Bem como a todos os restantes amigos que ganhei ao longo do curso,

pelos inúmeros bons momentos de descontração que são essenciais.

Quero também dedicar um agradecimento muito especial à minha melhor amiga, Andreia,

que sempre me compreendeu e apoiou, tendo sempre as palavras certas na hora certa, para me

encher de motivação.

Ao meu irmão, que me incentivou na minha entrada para o Técnico e que nunca deixou de

me ajudar; e à Joana, que já faz parte da família. Por último, os mais importantes, agradeço aos

meus pais, pelo seu apoio incondicional, incentivo e por toda a compreensão que sempre tiveram

comigo, ajudando-me a superar todos os obstáculos que foram surgindo ao longo deste percurso. Do

fundo do meu coração, dedico-lhes este trabalho!

"Ninguém escapa ao sonho de voar, de ultrapassar os limites do espaço onde nasceu, de ver novos lugares e novas gentes. Mas saber ver em cada coisa, em cada pessoa, aquele algo que a define como especial, um objecto singular, um amigo - é fundamental. Navegar é preciso, reconhecer o valor das coisas e das pessoas, é mais preciso ainda!"

Antoine de Saint-Exupéry.

A todos, muito obrigada!

iii

Resumo

O biogás produzido a partir da digestão anaeróbia de lamas produzidas nas Estações de

Tratamento de Águas Residuais (ETAR) é uma fonte de energia renovável, motivo pelo qual este

processo ganhou importância, num contexto onde cada vez mais as empresas pretendem ser

auto-sustentáveis.

Como tal, a optimização do processo de digestão anaeróbia é imprescindível para o aumento

da produção de biogás, que é convertido em energia eléctrica através de motores de combustão

interna, onde a energia química contida no biogás é convertida em energia mecânica.

O processo de digestão anaeróbia das lamas é bastante complexo, dificultando a sua

optimização. No entanto, através da utilização de Redes Neuronais Artificiais (RNAs) foi possível

construir um modelo que se ajustasse aos dados do processo. Este estudo foi desenvolvido na ETAR

de Vila Franca de Xira e a variável a modelar foi a potência eléctrica produzida (kWh/dia).

Previamente à construção dos modelos, foram seleccionadas as variáveis com maior impacto

no processo, através de análise de correlações: carga de sólidos totais alimentada, alcalinidade e

sólidos totais nas lamas à saída da digestão, caudal alimentado e teor em sólidos totais nas lamas

alimentadas ao digestor. Com estas variáveis foram testados modelos lineares, aplicando a análise

de mínimos quadrados parciais (PLS) e não lineares, aplicando as RNAs.

Através dos resultados, foi possível perceber que a não linearidade é importante no processo

modelado. Para o melhor modelo linear, o valor de RMSE (raiz do erro médio quadrático) foi de

158 kWh/dia, que corresponde a um erro de 15% da gama de valores medidos. Para o melhor

modelo não linear (RNA) o valor de RMSE foi de 27 kWh/dia, que corresponde a um erro de 2,5%.

Assim, a modelação com RNA apresentou uma boa capacidade de previsão da produção energética

do processo anaeróbio.

O modelo não linear foi conseguido com uma rede do tipo Perceptrão de Múltiplas Camadas,

com o algoritmo de treino Levenberg-Marquardt, tendo sido a melhor rede obtida com 25 nós na

camada oculta e com a função de activação logística do tipo sigmóide. Para este estudo, foi utilizado

o Neural Network Toolbox™ através do software de cálculo numérico, MATLAB.

Palavras-Chave: Digestão Anaeróbia, Energia do Biogás, Análise Multivariada de Dados,

Redes Neuronais Artificiais, Modelação.

v

Abstract

Biogas, produced from the anaerobic digestion of sludge in wastewater treatment plants, is a

renewable energy source, which is why this process has gained importance in a context where more

and more companies want to be self sustainable.

Thus, the optimization of the anaerobic digestion process is essential for increasing biogas

production, which is converted into electrical energy by internal combustion engines, where the

chemical energy contained in the biogas is converted into mechanical energy.

The process of anaerobic digestion of sludge is complex, hindering optimization. However,

through the use of Artificial Neural Networks (ANNs) it was possible to build a model that fits the

process data. This study was developed with data from the wastewater treatment plant of Vila Franca

de Xira and the modeled variable was the electrical power output (kWh/day).

Prior to the construction of prediction models, the variables with the greatest impact on the

process were selected using correlation analysis. These variables were: load of total solids fed to the

digester, alkaliniy and total solids measured in the output sludge stream, flow rate and total solids level

in the sludge stream fed to the digester. Linear models were tested with these variables, using partial

least squares (PLS) and nonlinear models using ANNs.

Analyzing the results, it was concluded that the nonlinearity is important in the modeled

process. For the best linear model, the RMSE (root mean square error) value was 158 kWh/day,

which corresponds to an error of 15%. For the best non-linear model (ANN), the RMSE value was

27 kWh/day, corresponding to an error of 2.5%. Thus, modeling with ANN showed a good ability to

represent the anaerobic process.

The non-linear model was built from a multilayer perceptron type neural network with the

Levenberg Marquardt training algorithm. The best network was obtained with 25 nodes in the hidden

layer and the log-sigmoid transfer function. For this study, the Neural Network Toolbox ™ was

employed under the numerical computing environment MATLAB.

Keywords: Anaerobic Digestion, Energy from Biogas, Multivariate Data Analysis, Artificial Neural

Networks, Modeling.

vii

Índice Agradecimentos .........................................................................................................................................i

Resumo ................................................................................................................................................... iii

Abstract.....................................................................................................................................................v

Índice ...................................................................................................................................................... vii

Lista de Tabelas ...................................................................................................................................... xi

Lista de Figuras ..................................................................................................................................... xiii

I - Introdução ...................................................................................................................................... 1

1 Enquadramento geral ................................................................................................................... 1

1.1 – Descrição geral e objectivos ................................................................................................ 1

1.2 - Grupo Águas de Portugal ..................................................................................................... 1

2 Tratamento de águas.................................................................................................................... 2

2.1- Tratamento da fase líquida .................................................................................................... 2

2.2 - Tratamento e valorização de lamas ...................................................................................... 3

2.3 - Digestão anaeróbia e produção de biogás ........................................................................... 4

2.4 – Produção de Biogás e o seu uso ......................................................................................... 8

3 Métodos de Pré-Tratamento de Dados ........................................................................................... 9

3.1 – Histogramas ......................................................................................................................... 9

3.2 – Mapa de correlações .......................................................................................................... 10

3.3 – Análise multivariada de dados ........................................................................................... 10

3.3.1 - Análise de Componentes Principais (PCA) ..................................................................... 11

3.3.1.1 – Descrição da metodologia ....................................................................................... 11

3.3.1.2 - Componentes principais ........................................................................................... 13

3.3.1.3 - Como interpretar um score plot e um loading plot ................................................... 14

3.3.2 - Número de componentes principais ................................................................................ 15

3.3.3 - Validação cruzada ........................................................................................................... 16

3.3.4 – Análise de Mínimos Quadrados Parciais (PLS) ............................................................. 17

3.3.4.1 – Descrição da metodologia ....................................................................................... 17

3.3.4.2 – A geometria do modelo PLS, no caso de uma resposta (M = 1) ............................. 18

3.3.4.3 – Componentes principais .......................................................................................... 19

3.3.4.4 – Uso do modelo PLS: Previsões ............................................................................... 22

4 Redes Neuronais Artificiais ......................................................................................................... 23

4.1 - Evolução histórica ............................................................................................................... 23

4.2 - Princípios das RNAs ........................................................................................................... 25

4.2.1 – Conceitos gerais ............................................................................................................. 25

4.2.2 - Paralelismo com o sistema biológico .............................................................................. 26

4.2.3 - Elementos de Processamento ........................................................................................ 29

viii

4.2.4 - Funções de Activação ..................................................................................................... 29

4.2.4.1 - Função linear ............................................................................................................ 29

4.2.4.2 - Função em degrau .................................................................................................... 30

4.2.4.3 - Função em rampa ..................................................................................................... 31

4.2.4.4 - Função sigmóide ...................................................................................................... 31

4.3 - Etapas de modelação de uma RNA.................................................................................... 32

4.3.1 – Etapas de modelação ..................................................................................................... 32

4.3.2 - Tipos de arquitectura neuronal: redes recorrentes e redes não recorrentes .................. 32

4.3.3 - Tipos de treino: supervisionado e não supervisionado ................................................... 33

4.3.3.1 – Treino supervisionado .............................................................................................. 34

4.3.3.2 – Treino não supervisionado ....................................................................................... 34

4.4 - Perceptrão ........................................................................................................................... 37

4.5 - PMC (redes de múltiplas camadas) e o algoritmo de retropropagação ............................ 38

4.6 - Neural Network Toolbox ..................................................................................................... 40

4.6.1 – Selecção do software ..................................................................................................... 40

4.6.2 - Definição da arquitectura da rede ................................................................................... 40

4.6.3 – Algoritmos de treino ........................................................................................................ 40

4.6.4 - Selecção dos grupos de treino, validação e teste........................................................... 43

4.6.5 - Avaliação do modelo ....................................................................................................... 43

II - Caso de Estudo ........................................................................................................................... 45

1 Enquadramento do estudo .......................................................................................................... 45

2 A ETAR de Vila Franca de Xira .................................................................................................. 45

2.1 – Descrição da ETAR ............................................................................................................ 45

2.2 - Digestão anaeróbia e produção de biogás ......................................................................... 48

2.2.1 – Processo de digestão anaeróbia .................................................................................... 48

2.2.2 - Recuperação energética a partir do biogás produzido a partir de cogeração ................ 49

III - Materiais e Métodos .................................................................................................................... 51

1 Dados disponibilizados ................................................................................................................ 51

2 Métodos de tratamento de dados ................................................................................................ 53

2.1 – Histogramas ....................................................................................................................... 53

2.2 – Mapa de correlações .......................................................................................................... 54

2.3 – Análise multivariada de dados ........................................................................................... 54

2.4 - Neural Network Toolbox ..................................................................................................... 54

2.4.1 - Definição da arquitectura da rede ................................................................................... 54

2.4.1.1 - Inputs e Outputs ....................................................................................................... 54

2.4.1.2 - Funções de activação ............................................................................................... 54

2.4.1.3 - Número de nós na camada oculta ............................................................................ 55

2.4.2 - Escolha do algoritmo de treino ........................................................................................ 55

ix

2.4.3 - Selecção dos grupos de treino, validação e teste........................................................... 55

2.4.4 - Avaliação do modelo ....................................................................................................... 55

IV - Resultados e Discussão .............................................................................................................. 57

1 Histogramas ................................................................................................................................ 57

2 Mapa de Correlações .................................................................................................................... 57

3 Análise de Componentes Principais .............................................................................................. 58

3.1 – Ajuste do modelo................................................................................................................ 59

3.2 – Score plot ........................................................................................................................... 59

3.3 – Loading plot ........................................................................................................................ 60

4 Análise de Mínimos Quadrados Parciais ...................................................................................... 61

4.1 – Análise do modelo .............................................................................................................. 61

4.2 – Calibração .......................................................................................................................... 63

4.3 – Validação ............................................................................................................................ 64

5 Redes Neuronais Artificiais ........................................................................................................... 65

5.1 – 5 inputs e 56 Conjuntos de dados...................................................................................... 65



V - Conclusões e trabalho futuro ....................................................................................................... 75

Referências ........................................................................................................................................... 77

Anexos ...................................................................................................................................................... I

Anexo I - Dimensionameno de digestores anaeróbios ...................................................................... III

Anexo II - Histogramas ...................................................................................................................... VII

Anexo III – Análise Multivariada ......................................................................................................... IX

III – 1 Análise de Componentes Principais ................................................................................. IX

III – 2 Análise de Mínimos Quadrados Parciais ........................................................................... IX

3.1 - PLS correspondente aos dados de Verão .......................................................................... IX

3.1.1 – Calibração ..................................................................................................................... X

3.1.2 – Validação ...................................................................................................................... X

3.2 - PLS correspondente aos dados de Inverno ........................................................................ XI

3.2.1 – Calibração .................................................................................................................... XI

3.2.2 – Validação .................................................................................................................... XII

3.3 - PLS correspondente ao caso univariável Carga ST vs kWh/dia ...................................... XIII

3.3.1 – Calibração .................................................................................................................. XIII

3.3.2 – Validação ...................................................................................................................XIV

Anexo IV – Redes Neuronais Artificiais .............................................................................................XV

IV – 1 5 inputs e 56 Conjuntos de dados ..................................................................................XV

IV – 2 5 inputs e 72 Conjuntos de dados ................................................................................XVII

IV – 3 3 inputs e 72 Conjuntos de dados .................................................................................XIX

xi

Lista de Tabelas

Tabela I.1 - Características de uma lama bruta e digerida. .................................................................... 4 Tabela I.2 – Lista dos algoritmos de treino disponíveis na ferramenta Neural Network Toolbox.

(Demuth, H. et al. 2014) ........................................................................................................................ 41 Tabela I.3 - Parâmetros de treino para o algoritmo Levenberg-Marquardt. ............................... 41

Tabela IV.1 - Comparação entre as várias regressões. ........................................................................ 65 Tabela IV.2 - Comparação entre os vários modelos de predição. ........................................................ 74

xiii

Lista de Figuras

Figura I.1 - Esquema geral para o processo de tratamento de águas residuais em ETAR. .................. 2 Figura I.2 - Esquema do processo de digestão anaeróbia. .................................................................... 5 Figura I.3- Esquema representativo de um digestor anaeróbio de fase única. ...................................... 7 Figura I.4 - O primeiro passo deste tipo de análise é transformar dados em massa numa tabela de dados. (Adaptado de Eriksson, et al., 2006 ) ........................................................................................ 11 Figura I.5 - Representação da matriz de dados X, com N observações e K variáveis. (Adaptado de Eriksson, et al., 2006) ............................................................................................................................ 11 Figura I.6 - O PCA deriva de um modelo que se ajusta aos dados. ..................................................... 12 Figura I.7 - Ajuste na construção do modelo de PCA. A. Dispersão dos pontos obtidos através da matriz X. B. O ponto vermelho corresponde à média das variâncias. C. Reposicionamento do sistema de coordenadas. .................................................................................................................................... 12 Figura I.8 - Representação por matrizes, de como uma tabela de dados X é modelada por PCA. ..... 13 Figura I.9 – Representação da construção dos componentes principais PC1 e PC2. ......................... 13 Figura I.10 - Representação geométrica dos loadings num modelo de PCA. ...................................... 14 Figura I.11 - Compromisso entre a qualidade de ajuste (R2X) e a capacidade de previsão (Q2X). O eixo vertical corresponde ao valor da variância explicada ou prevista, e o eixo horizontal mostra a complexidade do modelo (A). (Eriksson, et al., 2006) .......................................................................... 15 Figura I.12 - O método dos mínimos quadrados parciais (PLS) é utilizado para ligar a informação de dois blocos de variáveis, X e Y, um ao outro. ....................................................................................... 17 Figura I.13 - Decomposição em variáveis latentes das matrizes X e Y para modelos PLS. ................ 18 Figura I.14 - Um exemplo de regressão, com K=3 Variáveis-X, N observações e M=1 Variável-y. .... 18 Figura I.15 - Ilustração da distribuição dos pontos, quando K = 3 e M = 1. .......................................... 19 Figura I.16 - Com uma única variável-y, o espaço-Y reduz-se a um vector unidimensional. As projecções das observações sobre a linha no espaço-X dão origem aos scores para cada uma das observações. �(�) corresponde a uma estimativa do modelo para a variável y. (Eriksson, et al., 2006) ............................................................................................................................................................... 19 Figura I.17 - Ilustração dos resíduos de y, que permanecem após o primeiro componente PLS. f1 corresponde ao vector residual. (Eriksson, et al., 2006) ....................................................................... 20 Figura I.18 - Representação dos dados num modelo com duas variáveis latentes, sendo que a segunda é ortogonal à primeira. (Eriksson, et al., 2006) ...................................................................... 20 Figura I.19 - Estimativa da variável-y num modelo com dois componentes: �(�). .............................. 21 Figura I.20 - Ilustração esquemática do poder explicativo de um modelo PLS. ................................... 21 Figura I.21 – Ilustração do processo de previsão com um modelo PLS. .............................................. 22 Figura I.22 - Função XOR: uma representação gráfica. ....................................................................... 24 Figura I.23 – Modelo artificial do k-ésimo neurónio biológico. .............................................................. 25 Figura I.24 - O sistema nervoso: representação geral e simplificada. .................................................. 27 Figura I.25 – Representação esquemática de um neurónio. ................................................................ 27 Figura I.26 - Representação do córtex humano. ................................................................................... 28 Figura I.27 - Função de transferência linear. ........................................................................................ 30 Figura I.28 - Exemplo do efeito de saturação. ...................................................................................... 30 Figura I.29 - Função de transferência em degrau. ................................................................................ 30 Figura I.30 - Função de transferência em rampa. ................................................................................. 31 Figura I.31 - Função de transferência sigmóide. ................................................................................... 31 Figura I.32 - Opções de ligação numa rede neuronal: A) Ligação não recorrente (intracamada e interamada); B) Ligação recorrente. (Adaptado de Baughman & Liu) ................................................. 33 Figura I.33 - Modelo considerado adequado para o problema analisado. ............................................ 36 Figura I.34 - Modelo com excesso de capacidade para o problema analisado. ................................... 36

xiv

Figura I.35 – Modelo com falta de capacidade para o problema analisado. ........................................ 36 Figura I.36 – Representação do modelo do tipo Perceptrão. ............................................................... 37 Figura I.37 - Representação de classes não linearmente separáveis e linearmente separáveis, respectivamente. (Adaptado de Haykin, 1999) ..................................................................................... 38 Figura I.38 - Representação do modelo do tipo Perceptrão de Múltiplas Camadas. ........................... 38 Figura I.39 - Representação da propagação de sinais quando utilizado o algoritmo de retropropagação de erro. (Adaptado de Castro & Zuben) .................................................................... 39 Figura I.40 – Janela de treino. ............................................................................................................... 42 Figura I.41 – Gráfico de desempenho, obtido através da ferramenta Neural Network Toolbox. .......... 43 Figura I.42 - Gráfico com as várias regressões (Treino, Validação e Teste), obtido através da ferramenta Neural Network Toolbox. (Demuth, H. et al. 2014) ............................................................. 44 Figura II.1 - Diagrama quantitativo da ETAR de Vila Franca de Xira ................................................... 47 Figura II.2 - Esquema do circuito de lamas. .......................................................................................... 48 Figura III.1- Representação dos dados disponibilizados. ..................................................................... 51 Figura III.2 - Diagrama das operações unitárias da ETAR em estudo. ................................................ 52 Figura III.3 – Procedimentos para a construção do modelo da Rede Neuronal Artificial. .................... 53 Figura III.4 - Fluxograma do treino da rede neural artificial. ................................................................. 56 Figura IV.1 - Histograma referente à distribuição dos dados para a variável kWh/dia. ........................ 57 Figura IV.2 - Mapa de correlções referente às variáveis em estudo..................................................... 58 Figura IV.3 - Capacidade de ajuste do modelo, para cada um dos componentes principais. .............. 59 Figura IV.4 - Score plot correspondente aos dados em análise. .......................................................... 59 Figura IV.5 - Loading plot correspondente aos dados em análise. ....................................................... 60 Figura IV.6 - Capacidade de ajuste e capacidade de previsão para cada um dos componentes principais do modelo. ............................................................................................................................. 61 Figura IV.7 - Importância de cada uma das variáveis para a projecção, em relação ao Componente 1. ............................................................................................................................................................... 62 Figura IV.8 - Score plot correspondente ao modelo de PLS.A verde estão representados os dados de calibração e a vermelho os de validação. ............................................................................................. 62 Figura IV.9 - Calibração para o modelo de PLS. .................................................................................. 63 Figura IV.10 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à calibração do modelo de PLS. ..................................................................................................................................... 63 Figura IV.11 - Validação para o modelo de PLS. .................................................................................. 64 Figura IV.12 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à validação do modelo de PLS ...................................................................................................................................... 64 Figura IV.13 – Variação do erro quadrático médio para cada número de nós na camada oculta e para cada função de activação, para o caso com 5 inputs e 56 conjuntos de dados. .................................. 66 Figura IV.14 - Correlação entre os valores da variável kWh/dia experimentais e previstos pela rede, para o caso com 5 inputs e 56 conjuntos de dados. ............................................................................. 66 Figura IV.15 – Comparação entre os valores da variável kWh/dia experimentais (a azul) e previstos pela rede (a verde), para o caso com 5 inputs e 56 conjuntos de dados. ............................................ 67 Figura IV.16 - Correlação entre os valores da variável kWh/dia experimentais e previstos pela rede, para a mesma rede, com os 16 novos conjuntos de dados.................................................................. 67 Figura IV.17 - Resultado obtido para a mesma rede, com os 16 novos conjuntos de dados. Estando os valores da variável kWh/dia experimentais representados a azul e os previstos pela rede representados a verde. .......................................................................................................................... 68 Figura IV.18 - Variação do erro quadrático médio para cada número de nós na camada oculta e para cada função de activação, para o caso com 5 inputs e 72 conjuntos de dados. .................................. 68 Figura IV.19 - Correlação entre os valores da variável kWh/dia experimentais e previstos pela rede, para o caso com 5 inputs e 72 conjuntos de dados. ............................................................................. 69 Figura IV.20 - Comparação entre os valores da variável kWh/dia experimentais (a azul) e previstos pela rede (a verde), para o caso com 5 inputs e 72 conjuntos de dados. ............................................ 69 Figura IV.21 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela rede (a azul), para o conjunto de treino, para o caso com 5 inputs e 72 conjuntos de dados...... 70

xv

Figura IV.22 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela rede (a verde), para o conjunto de validação, para o caso com 5 inputs e 72 conjuntos de dados. ............................................................................................................................................................... 70 Figura IV.23 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela rede (a vermelho), para o conjunto de teste, para o caso com 5 inputs e 72 conjuntos de dados. ............................................................................................................................................................... 70 Figura IV.24 - Resíduos para os dados obtidos pelo modelo da rede construída, para o caso com 5 inputs e 72 conjuntos de dados. ............................................................................................................ 71 Figura IV.25 - Variação do erro quadrático médio para cada número de nós na camada oculta e para cada função de activação, para o caso com 3 inputs e 72 conjuntos de dados. .................................. 71 Figura IV.26 - Correlação entre os valores da variável kWh/dia experimentais e previstos pela rede, para o caso com 3 inputs e 72 conjuntos de dados. ............................................................................. 72 Figura IV.27 - Comparação entre os valores da variável kWh/dia experimentais (a azul) e previstos pela rede (a verde) , para o caso com 3 inputs e 72 conjuntos de dados. ........................................... 72 Figura IV.28 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela rede (a azul), para o conjunto de treino, para o caso com 3 inputs e 72 conjuntos de dados...... 73 Figura IV.29 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela rede (a verde), para o conjunto de validação, para o caso com 3 inputs e 72 conjuntos de dados. ............................................................................................................................................................... 73 Figura IV.30 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela rede (a vermelho), para o conjunto de teste, para o caso com 3 inputs e 72 conjuntos de dados. ............................................................................................................................................................... 73 Figura IV.31 - Resíduos para os dados obtidos pelo modelo da rede construída, para o caso com 3 inputs e 72 conjuntos de dados. ............................................................................................................ 74

Anexos

Figura 1 - Histograma referente à variável ST LM. .............................................................................. VII Figura 2 - Histograma referente à variável SV LM. .............................................................................. VII Figura 3 - Histograma referente à variável ST LD. .............................................................................. VII Figura 4 - Histograma referente à variável SV LD. .............................................................................. VII Figura 5 - Histograma referente à variável Q LM. ................................................................................ VII Figura 6 - Histograma referente à variável Q LD. ................................................................................ VII Figura 7 - Histograma referente à variável Carga ST. ........................................................................ VIII Figura 8 - Histograma referente à variável Carga SV. ........................................................................ VIII

Figura 9 - Histograma referente à variável SV/ST LM. ....................................................................... VIII Figura 10 - Histograma referente à variável SV/ST LD. ...................................................................... VIII Figura 11 - Histograma referente à variável ALC LD. ......................................................................... VIII Figura 12 - Histograma referente à variável AGV. .............................................................................. VIII Figura 13 - Histograma referente à variável AGV/ALC. ...................................................................... VIII Figura 14 - Histograma referente à variável pH. ................................................................................. VIII Figura 15 - Score plot para os componentes t[1] vs t[3]. ...................................................................... IX Figura 16 - Score plot para os componentes t[2] vs t[3]. ...................................................................... IX Figura 17 - Score plot com a selecção dos dados de calibração (a verde) e de validação (a vermelho). ............................................................................................................................................... IX Figura 18 - Calibração para o modelo de PLS, correspondente aos dados de Verão. ......................... X Figura 19 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à calibração do modelo de PLS, correspondente aos dados de verão. ........................................................................... X Figura 20 - Validação para o modelo de PLS, correspondente aos dados de Verão. ........................... X Figura 21 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à validação do modelo de PLS, correspondente aos dados de verão. .......................................................................... XI

xvi

Figura 22 - Score plot com a selecção dos dados de calibração (a verde) e de validação (a vermelho). ............................................................................................................................................... XI Figura 23 - Calibração para o modelo de PLS, correspondente aos dados de Inverno. ...................... XI Figura 24 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à calibração do modelo de PLS, correspondente aos dados de Inverno. ...................................................................... XII Figura 25 - Validação para o modelo de PLS, correspondente aos dados de Inverno ....................... XII Figura 26 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à validação do modelo de PLS, correspondente aos dados de Inverno. ...................................................................... XII Figura 27 - Score plot com a selecção dos dados de calibração (a vermelho) e de validação (a azul). .............................................................................................................................................................. XIII Figura 28 - Calibração para o modelo de PLS univariável. ................................................................. XIII Figura 29 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à calibração do modelo de PLS univariável. .................................................................................................................. XIII Figura 30 - Validação para o modelo de PLS univariável. ..................................................................XIV Figura 31 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à validação do modelo de PLS univariável. ..................................................................................................................XIV Figura 32 – Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 5 inputs e 56 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação logarítmica sigmóide. ............................................................................................................XV Figura 33 - Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 5 inputs e 56 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação tangente hiperbólica. ............................................................................................................XVI Figura 34 - Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 5 inputs e 72 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação logarítmica sigmóide. ..........................................................................................................XVII Figura 35 - Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 5 inputs e 72 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação tangente hiperbólica. ......................................................................................................... XVIII Figura 36 - Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 3 inputs e 72 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação logarítmica sigmóide. ...........................................................................................................XIX Figura 37 - Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 3 inputs e 72 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação tangente hiperbólica. .............................................................................................................XX

1

I - Introdução 1 Enquadramento geral

1.1 – Descrição geral e objectivos

Este trabalho surgiu com o objectivo de realizar um estudo com recurso à modelação com redes

neuronais artificiais (RNAs), para optimização da gestão do processo de digestão anaeróbia de lamas

produzidas nas Estações de Tratamento de Águas Residuais (ETAR), fundamental para o aumento

da produção de biogás. O biogás produzido é convertido em energia eléctrica e térmica, essenciais

para a sustentabilidade da exploração de ETAR.

O biogás, mais especificamente o biometano, é natutalmente produzido quando se dá a

decomposição de matéria orgânica por acção de bactérias, na ausência de oxigénio e em meio

húmido. É uma mistura gasosa maioritariamente constituída por gás metano (CH4) e dióxido de

carbono (CO2), com pequenas quantidades de gás sulfídrico (H2S). O biogás é produzido com pouca

ou nenhuma dependência de combustíveis fósseis, e o processo de digestão aneróbia pode reduzir

os volumes de resíduos orgânicos biodegradáveis depositados em aterros sanitários, com

consequente redução da produção de gases e lixiviados, que são prejudiciais para a qualidade da

água e do ar.

A produção de energia eléctrica por biogás, é feita através de motores de combustão interna,

onde a energia química contida no biogás é convertida em energia mecânica e posteriormente em

energia eléctrica. Por ser uma fonte de energia renovável, este processo ganhou a sua importância,

num contexto onde cada vez mais as empresas fazem por ser auto-sustentáveis. Também a queima

de combustíveis fósseis continua a afectar o equilíbrio ecológico e climático e a economia da Terra.

1.2 - Grupo Águas de Portugal

Com a sua prioridade direccionada para o desenvolvimento dos sistemas multimunicipais de

abastecimento de água e de saneamento de águas residuais, o grupo Águas de Portugal (AdP) foi

constituído em 1993.

Em 2000 surge uma nova unidade de negócios do grupo, a Empresa Geral do Fomento

(EGF), destinada ao tratamento e valorização de resíduos sólidos urbanos. Com isto, a AdP

considerou ter as condições necessárias para implementar a sua missão relacionada com a melhoria

das condições ambientais e de saúde pública.

Actualmente, o Grupo AdP integra mais de 40 empresas que operam nos domínios do

abastecimento de água, do saneamento de águas residuais, do tratamento e valorização de resíduos,

na área das energias renováveis, em serviços partilhados e em mercados internacionais.

O Grupo AdP assume como valores fundamentais: “A sustentabilidade na utilização dos

recursos naturais e a preservação da água enquanto recurso estratégico essencial à vida, o equilíbrio

e melhoria da qualidade ambiental, a equidade no acesso aos serviços básicos e a promoção do

bem-estar através da melhoria da qualidade de vida das pessoas” (AdP).

2

2 Tratamento de águas residuais

2.1 - Tratamento da fase líquida

As águas residuais podem ser provenientes de zonas residenciais, zonas de serviço ou de

instalações comerciais. Entre as fontes que mais contribuem para o caudal de águas residuais

recolhido, contam-se: as domésticas, as industriais, as de infiltração, as de escorrências urbanas e as

turísticas. (ETAR & ETARI, 2010)

O destino mais adequado à promoção da saúde pública é uma Estação de Tratamento de

Águas Residuais (ETAR), de modo a evitar a contaminação dos recursos hídricos.

Uma ETAR é constituída por uma sequência de processos unitários ajustados às

características quantitativas e qualitativas das águas residuais, localização do sistema e à qualidade

da água que se pretende obter, permitindo a sua possível reutilização, através de um processo longo

e faseado. Este processo divide-se normalmente em tratamento preliminar, tratamento primário,

tratamento secundário, tratamento terciário e ainda, o tratamento de lamas (Figura I.1).

Figura I.1 - Esquema geral para o processo de tratamento de águas residuais em ETAR.

(Adaptado de Novais, J.M., 2003/04)

O tratamento preliminar, ou pré-tratamento, consiste na separação dos sólidos de maiores

dimensões dos efluentes, bem como dos sólidos densos e líquidos imiscíveis, através de processos

como a gradagem ou tamização, dilaceração, desengorduramento e desareamento.

A equalização/homogeneização é uma operação unitária do pré-tratamento de esgotos, mas

que nem sempre é utilizada nas estações de tratamento. Geralmente, é utilizada quando existe uma

elevada percentagem de efluentes industriais, uma vez que as cargas intantâneas se podem tornar

bastante elevadas, permitindo controlar os caudais afluentes aos reatores biológicos, evitar variações

na carga orgânica e no pH do efluente e evitar elevadas concentrações de tóxicos. Os tanques de

homogeneização possuem um sistema de mistura, com o objectivo de permitir a homogeneização

qualitativa, mas também para impedir que os sólidos em suspensão se depositem.

3

Após o tratamento preliminar, as águas residuais possuem ainda as suas características

quase inalteradas visto que apenas sofreram um tratamento físico. Segue-se então o tratamento

primário, que pode ser físico ou físico-químico. Nesta etapa, os poluentes insolúveis são separados

da água por sedimentação, sendo que este processo é por vezes ajudado pela adição de agentes

químicos que através da floculação ou coagulação garantem a obtenção de flocos de matéria

poluente de maiores dimensões. No fim desta etapa, a matéria poluente existente na água é já a

fracção dissolvida e a suspensa de reduzidas dimensões.

De seguida, tem-se o tratamento secundário, no qual a matéria orgânica poluente é

consumida por microrganismos em reactores biológicos, que normalmente são em tanques sob

arejamento. Estes sistemas aeróbios intensivos podem operar com biomassa suspensa (lamas

activadas) ou com biomassa fixa (leitos percoladores e discos biológicos), bem como operar como

sistemas aquáticos com biomassa suspensa (lagunagem). Como tal, no fim desta etapa as águas

encontram-se com um elevado número de microrganismos e portanto, há a necessidade de

separação desta biomassa, nos decantadores secundários.

Após esta parte do processo, as águas residuais tratadas já apresentam um nível reduzido de

poluição por matéria orgânica, podendo por vezes ser devolvidas ao meio receptor sem tratamento

terciário.

Quando é necessária uma desinfecção das águas residuais tratadas procede-se ao

tratamento terciário, no qual são removidos os organismos patogénicos. O tratamento pode incluir a

remoção avançada de nutrientes, o que se torna indispensável, por exemplo, quando o meio receptor

onde é efectuada a descarga da água residual tratada é um meio sujeito a eutrofização. A fase

terciária do tratamento pode ocorrer também numa lagoa de maturação. No final deste tratamento, a

água encontra-se já devidamente tratada e preparada para ser depositada nos rios ou oceanos.

Esta sequência de operações unitárias e de processos que permitem, a partir de uma água

residual, obter uma água limpa faz-se, assim, maioritariamente através da transferência da poluição

de um meio líquido para uma fase em suspensão pastosa (lamas).

2.2 - Tratamento e valorização de lamas

As características físcas, químicas e bacteriológicas das lamas variam com o tipo de água

residual tratada e com os respectivos processos de tratamento. Mas sabe-se que apresentam um

elevado teor de humidade e uma elevada concentração orgânica, e portanto, uma relevante

concentração de microrganismos patogénios, tornando-se altamente putrescíveis, pelo que têm que

ser convenientemente tratadas previamente ao seu envio para o destino final.

Numa ETAR as lamas podem ser primárias, resultantes do tratamento primário; biológicas,

resultantes do tratamento secundário; ou químicas, resultantes de processos em que sejam utilizados

reagentes químicos. A sequência de operações unitárias no tratamento de lamas pode incluir todos,

ou alguns, dos processos seguintes: espessamento (por gravidade, flotação ou centrifugação),

estabilização (pela cal, calor, oxidação ou digestão), condicionamento (químico, elutriação ou pelo

4

calor), desinfecção, desidratação (através de filtros, centrífugas ou lagoas), secagem, compostagem,

redução térmica e descarga final.

Pode comparar-se as características de uma lama bruta e de uma lama digerida na Tabela

I.1, onde se observa um aumento da quantidade (%) de sólidos totais com o tratamento, nos quais

ocorre uma diminuição da quantidade (%) de sólidos voláteis.

Tabela I.1 - Características de uma lama bruta e digerida. (Novais, J.M., 2003/04)

Lama Bruta Lama Digerida

Sólidos Totais (ST) % 5 10

Sólidos Voláteis (% de ST) 65 40

Gorduras (% de ST) 6 a 30 5 a 20

Azoto, N (% de ST) 4 4

Fósforo, P2O5 (% de ST) 2 2,5

Potassa, K2O (% de ST) 0,4 1,0

Celulose (% de ST) 10 10

pH 6 7

Estas lamas podem ser um recurso com grandes vantagens energéticas e ambientais, que

tem vindo a ser cada vez mais explorado. Se forem bem geridas podem tornar-se num recurso

renovável importante, uma vez que é de esperar que no futuro se verifique um grande

desenvolvimento no que diz respeito à auto-suficiência energética das estações. Entre os vários

processos destacam-se os anaeróbios, pelo facto de serem produtores de energia, na forma de

biogás.

2.3 - Digestão anaeróbia e produção de biogás

A digestão anaeróbia envolve a degradação biológica de matéria orgânica e de matéria

inorgânica, principalmente sulfato, na ausência de oxigénio. A sua maior aplicação é na estabilização

de lamas concentradas, uma vez que reduz o nível de sólidos voláteis que contêm. A degradação de

matéria orgânica dá-se num digestor fechado e esta é convertida em CH4 e CO2. As lamas são

estabilizadas dentro dos digestores durante um determinado número de dias, quando estabilizada a

lama já não é putrescível e o seu conteúdo em patogéneos é muito reduzido.

Tem sido feito um grandre progresso para controlar este tipo de processo, tendo em conta o

dimensionamento dos tanques, o seu design e a sua aplicação, com o intuito de avaliar a

conservação e recuperação de energia, bem como avaliar a oportunidade de beneficiar com o uso

dos biossólidos das águas residuais (Metcalf & Eddy, 1991). A digestão anaeróbia continua a ser o

processo mais utilizado para estabilização de lamas e continua a ganhar importância, uma vez que

5

através desta pode ser possível produzir biogás sufciente para satisfazer a maioria das necessidades

de energia para as operações unitárias da ETAR. Os processos de digestão anaeróbia visam

maximizar a redução da fracção orgânica presente no resíduo e optimizar a produção de biogás.

Na digestão anaeróbia ocorrem diversos processos que juntos resultam na decomposição da

matéria (Figura I.2). Numa primeira etapa dá-se a hidrólise, na qual o material orgânico complexo é

transformado em compostos dissolvidos ou matéria orgânica volátil. Numa segunda etapa dá-se

a gaseificação, a qual é subdividida em duas fases: a acidogénese, onde os compostos

são transformados em ácidos orgânicos voláteis (sendo os mais frequentes o acético e o propriónico);

e a acetogénese, onde os produtos da subfase anterior são transformados em acetato, hidrogénio e

dióxido de carbono. Numa terceira, e última, etapa dá-se a metanogénese, na qual os produtos da

acetogénese são transformados maioritariamente em metano (CH4), embora também sejam gerados

outros gases. (Metcalf & Eddy, 1991)

Figura I.2 - Esquema do processo de digestão anaeróbia.

(Adaptado de Novais, J.M., 2003/04)

Para que os dois tipos de microrganismos, bactérias fermentativas e bactérias

metanogénicas, possam actuar em simultâneo, deve manter-se um estado de equilíbrio entre as suas

taxas de crescimento. Como tal, o digestor deve estar livre de oxigénio e de concentrações inibitórias

de metais pesados e sulfuretos. Devem ser tidos em conta factores importantes, como o tempo de

retenção dos sólidos, o tempo de retenção hidráulico, a alcalinidade e o pH. Sendo que o pH do

ambiente aquoso, deve manter-se entre 6,6 e 7,6, não devendo descer abaixo de 6,2, para que as

bactérias metanogénicas não deixem de actuar (Novais, J.M., 2003/04).

6

Quanto à alcalinidade, sabe-se que o processo de digestão produz bicarbonato de amónia a

partir da desagregação das proteínas na alimentação das lamas brutas. Mas existem também outras

substâncias tamponizantes num digestor, como é o caso do cálcio e do magnésio. A concentração de

alcalinidade num digestor é, em grande parte, proporcional à concentração de sólidos na

alimentação. Um digestor bem estabilizado deverá ter uma alcalinidade total de 2000 a 5000 mg/L

(Metcalf & Eddy, 1991). É ainda de referir que o principal consumidor de alcalinidade num digestor é o

dióxido de carbono, sendo que este é produzido durante as fases de fermentação e metanogénese

do processo de digestão. Mas, devido à pressão parcial do gás no digestor, este solubiliza e forma

ácido carbónico, que consome alcalinidade. E portanto, a concentração de dióxido de carbono no

digestor é um indicador das necessidades de alcalinidade, que pode ser restabelecida através da

adição de bicarbonato de sódio, cal ou carbonato de sódio.

Também a temperatura é um factor importante, não só por influenciar as actividades

metabólicas da população microbiana, mas também por ter um efeito significativo, por exemplo, na

taxa de transferência de gás e nas características de sedimentação dos sólidos biológicos. Na

digestão anaeróbia a temperatura é importante para determinar a taxa de digestão, particularmente

nas taxas de hidrólise e de formação de metano. Através da temperatura de operação de projecto é

possível estabelecer o tempo mínimo de retenção de sólidos que é necessário para atingir uma

determinada quantidade de destruição de sólidos suspensos voláteis. A maioria dos sistemas de

digestão anaeróbia operam na faixa de temperatura mesófila, entre 30ºC e 38ºC ou numa faixa de

temperatura termófila, entre 50ºC e 57ºC (Metcalf & Eddy, 1991).

Existem dois tipos de digestores, os de baixa carga e os de alta carga. Nos de baixa carga, o

conteúdo do digestor não é agitado nem aquecido e os tempos de retenção são de 30 a 60 dias.

Enquanto que, nos de alta carga, o conteúdo é aquecido e conseguem-se condições de mistura

completa, sendo o tempo de retenção cerca de 15, ou menos, dias (Novais, J.M., 2003/04).

Para processos de baixa carga, utiliza-se um só digestor com as principais funções de

digestão, espessamento e formação de sobrenadantes efectuadas simultaneamente. A lama é

introduzida no digestor no ponto em que a mistura se encontra em digestão activa e se está a

produzir gás. O gás leva partículas e outros materiais, tais como, gorduras e óleos para a superfície,

originando escumas superficiais. Após a digestão a lama fica mais mineralizada, uma vez que

aumenta a percentagem de sólidos fixos, ficando também mais espessa por efeito da gravidade.

No caso dos processos de alta carga, a lama é misturada por recirculação do gás, através de

bombagem ou por misturadores de sucção, e há aquecimento para que se atinjam velocidades

óptimas de digestão. (Metcalf & Eddy, 1991)

O dimensionamento de digestores anaeróbicos é baseado no tempo de residência, que tem

de ser o suficiente para permitir a destruição significativa dos sólidos em suspensão voláteis (SSV)

em reactores bem misturadas. Os critérios de dimensionamento mais utilizados são: (1) o tempo de

retenção de sólidos TRS, que corresponde à média de tempo que os sólidos são mantidos no

processo de digestão, e (2) o tempo de retenção hidráulica τ, que corresponde à média de tempo que

o líquido é mantido no processo de digestão (Metcalf & Eddy, 1991).

7

As três reações (hidrólise, fermentação e metanogénese) estão directamente relacionadas

com o TRS (ou τ), estando por isso, estes tempos também relacionados com o crescimento dos

organismos e com o wash-out. Um aumento ou diminuição no TRS resulta num aumento ou

diminuição na extensão de cada reacção. Há um mínimo de TRS para cada reacção. Se o TRS é

menos do que o mínimo, as bactérias podem não crescer rapidamente o suficiente e o processo de

digestão, eventualmente, irá falhar (Metcalf & Eddy, 1991).

A digestão anaeróbia e produção de biogás na gama mesofílica pode, geralmente, ocorrer em

digestores de fase única com altas taxas de digestão, em digestores de duas fases ou em digestores

com separação de lamas. Quando é utilizado um digestor de fase única com mistura completa, o

processo é caraterizado pelo aquecimento, pela mistura auxiliar, pela alimentação uniforme e pelo

espessamento da corrente de alimentação.

A lama é aquecida com o intuito de alcançar taxas de digestão ideais e é misturada através

da recirculação de gás, que se dá por bombeamento ou através de misturadores com tubos de

sucção (que não permitem a separação da escuma e do sobrenadante).

Figura I.3- Esquema representativo de um digestor anaeróbio de fase única.

(Adaptado de Metcalf & Eddy, 1991)

A alimentação uniforme tem um papel bastante importante e como tal, as lamas devem ser

bombeadas para o digestor continuamente em tempos de ciclo de 30 minutos a 2 horas, para ajudar

a manter as condições constantes no reactor. Nos digestores de alta frequência não existe qualquer

separação do sobrenadante e os sólidos totais são reduzidos em cerca de 45 a 50 por cento e

emitidos como gás, então a lama digerida é cerca de metade e tão concentrada como a lama da

alimentação não tratada (Metcalf & Eddy, 1991).

Os tanques de digestão podem ter telhados fixos ou coberturas flutuantes. As coberturas

flutuantes, todas ou apenas algumas, podem ser do tipo de coberturas com um suporte de gás, o que

proporciona um excesso de capacidade de armazenamento de gás. Como alternativa, o gás pode ser

armazenado num suporte separado, de baixa pressão ou comprimido e armazenado sob pressão.

8

As possibilidades para melhorar o desempenho dos digestores anaeróbios passam pelo

espessamento da lama de alimentação do digestor ou pelo espessamento de uma parte da lama a

digerir, com o objectivo de aumentar o TRS.

Num estudo efectuado (Metcalf & Eddy, 1991), os efeitos do espessamento dos sólidos

digeridos, quer separadamente ou combinado com pré-espessamento das lamas não tratadas,

aumentou o TRS do processo de digestão e a produção de biogás e diminuiu o tempo de retenção

hidráulica, τ.

2.4 – Produção de Biogás e o seu uso

O gás de digestão anaeróbia contém cerca de 65 a 70 por cento de CH4 em volume, 25 a 30

por cento de CO2, e pequenas quantidades de N2, H2, H2S, vapor de água e outros gases. Uma outra

característica do biogás é a sua massa específica, que é cerca de 0,86 em relação ao ar.

(Metcalf & Eddy, 1991)

Tendo em conta que a produção de biogás é uma das melhores medidas do progresso da

digestão e que este pode ser utilizado como combustível, a forma como é produzido e o seu uso são

factores importantes a ter em conta.

A produção total de biogás é geralmente estimada a partir da percentagem de redução de

sólidos voláteis. Os valores típicos variam de 0,75 a 1,12 m3/kg de sólidos voláteis destruídos (Metcalf

& Eddy, 1991). A produção de biogás pode variar ao longo de uma vasta gama, dependendo do teor

de sólidos voláteis da alimentação de lamas e da actividade biológica no digestor. O arranque do

processo pode originar, por vezes, taxas de produção de biogás excessivas e, consequentemente, a

formação de espuma que pode levar a que ocorram fugas de espuma e gás ao redor das tampas

flutuantes do digestor. Ao se obter condições de funcionamento estáveis e se manter as taxas de

produção de biogás precedentes, é possível obter uma lama bem digerida.

O gás metano em condições de temperatura e pressão normais (20ºC e 1 atm) tem um poder

calorífico inferior a 35800 kJ/m3. O poder calorífico inferior corresponde ao calor de combustão não

tendo em conta o calor de vaporização de qualquer vapor de água presente. Uma vez que o biogás é

composto por cerca de 65 por cento de metano, o poder calorífico inferior do biogás será,

aproximadamente, 22400 kJ/m3. Por comparação, o gás natural, que é uma mistura de metano,

propano e butano, tem um poder calorífico de 37300 kJ/m3. (Metcalf & Eddy, 1991)

Em grandes instalações, o biogás pode ser usado como combustível para caldeiras e motores

de combustão interna, que são, por sua vez, utilizados para o bombeamento de águas residuais e

para geração de electricidade. A água quente das caldeiras pode ser utilizada, por exemplo, para o

aquecimento de lamas. O biogás produzido no digestor pode também ser usado em cogeração. A

cogeração é geralmente definida como um sistema que gera electricidade e produz uma outra forma

de energia (geralmente vapor ou água quente). A energia excedente, pode, por vezes, ser vendida

para empresas de energia eléctrica.

No entanto, é importante ter em conta que o gás contém sulfeto de hidrogénio, azoto,

partículas, e vapor de água e como tal, tem frequentemente de ser limpo em purificadores secos ou

9

molhados antes de ser usado em motores de combustão interna. No caso das concentrações de

sulfeto de hidrogénio serem em excesso, de cerca de 100 ppm em volume, pode ser necessário a

instalação de equipamentos de remoção de sulfeto de hidrogénio. (Metcalf & Eddy, 1991)

O biogás pode também ser utilizado no aquecimento do próprio digestor. Os requisitos de

calor dos digestores consistem na quantidade necessária (1) para elevar a temperatura da lama à

entrada para a temperatura dos tanques de digestão, (2) para compensar as perdas de calor através

das paredes, chão e tecto do digestor, e (3) para ter em conta as perdas, que possam ocorrer, nos

tubos entre a fonte de calor e o tanque.

As lamas em tanques de digestão são aquecidas por bombeamento da lama e do

sobrenadante, através de permutadores de calor externos e que voltam para o tanque. As caldeiras e

os sistemas de cogeração são utilizados tipicamente para fornecer calor à água que circula nos

permutadores de calor. As caldeiras podem ser alimentadas pelo biogás. No entanto, quando o

biogás não é suficiente ou não está disponível, pode ser usado gás natural ou combustível como

auxílio, o mesmo acontece para o arranque do digestor.

3 Métodos de Pré-Tratamento de Dados

Previamente ao estudo de redes neuronais artificiais, é necessário ter em conta que é

indispensável uma fase de pré-tratamento de dados. Os métodos aplicados podem ser os

histogramas, os mapas de correlações e a análise multivariada de dados.

3.1 – Histogramas

Um histograma é uma das ferramentas estatísticas da qualidade e é utilizado para representar

graficamente uma grande quantidade de dados numéricos. Através da análise de um histograma é

possível interpretar informações de forma mais fácil e simples, do que acompanhando uma grande

tabela de dados. E como tal, a sua construção tem um carácter preliminar em qualquer estudo e é um

importante indicador da distribuição de dados. Pode também ser denominado de distribuição de

frequências ou diagrama das frequências, é uma representação gráfica na qual um conjunto de dados

brutos é agrupado em classes uniformes. Este tipo de gráficos é consituído por barras verticais,

sendo que no eixo horizontal se encontra o intervalo respectivo a cada classe de dados. No eixo

vertical encontra-se a frequência com que os valores de cada uma das classes está presente no

conjunto de dados. (Kurokawa, E. 2002)

Quando se considera a propagação de dados, pode-se identificar que tipo de distribuição os

dados seguem, analisar a simetria na distribuição dos dados ou a forma como o sistema se inclina

para um pico extremo, se existem dados que devem ser desconsiderados por estarem distante dos

restantes dentro do conjunto, ou se os dados estão dispersos. (Kurokawa, E. 2002)

É ainda de considerar que existem vários tipos de histogramas, os de frequência absoluta, os

de frequência relativa e os de frequência cumulativa, que por vezes são representados juntamente

com a respectiva função normal da densidade.

A equação para a função de distribuição cumulativa normal (ExcelFunctions) é a seguinte:

10

�(�, , ) = 1√2� ��(��)��

Equação I.1

onde � é a variável para a qual se deseja a distribuição, é a média aritmética da distribuição e é o

desvio padrão da distribuição.

3.2 – Mapa de correlações

Um mapa de correlações é, essencialmente, uma forma de se analisar a associação entre

variáveis, através dos coeficientes de Pearson, Spearman ou Kendall.

O coeficiente de correlação indica o grau e a direcção (positiva ou negativa) da relação linear

entre duas variáveis quantitativas, embora correlação não implique causalidade. (Kimura, H.; et. al.

2009)

Existem vários coeficientes medindo o grau de correlação entre variáveis, adaptados à

natureza dos dados. No caso do coeficiente de correlação de Pearson (Equação I.2), este é obtido

dividindo a covariância de duas variáveis pelo produto dos seus desvios padrão:

� = ∑ (�� − �̅)(�� − ��)� ∑ (�� − �̅)�∑ (�� − ��)�� Equação I.2

onde �̅ e � são as médias aritméticas de ambas as variáveis. (ExcelFunctions)

Este coeficiente assume apenas valores entre -1 e 1. Sendo que quando � = 1, significa que

existe uma correlação perfeita positiva entre as duas variáveis; quando � = -1, significa que as duas

variáveis têm entre si uma correlação perfeita negativa, ou seja, são inversamente proporcionais; e

quando � = 0, significa que as duas variáveis não dependem linearmente uma da outra. No entanto,

pode existir uma dependência não linear. (Kimura, H.; et. al. 2009)

3.3 – Análise multivariada de dados

Os dados recolhidos em ciência e tecnologia, entre outras áreas, são muitas vezes

multivariados, com múltiplas variáveis medidas em várias amostras ou em diferentes períodos. Dados

multivariados, medidos com precisão em observações e variáveis inteligentemente escolhidas,

contêm muito mais informação do que os dados univariados.

Portanto, uma caracterização multivariada adequada é um primeiro passo necessário para o

caso de estudo. Para ser considerada análise multivariada, todas as variáveis devem ser aleatórias e

inter-relacionadas de tal maneira que os seus diferentes efeitos não possam ser significativamente

interpretados em separado. Após a análise multivariada, os resultados são interpretados, ou seja,

relacionados com os objectivos da investigação e do contexto científico.

A análise multivariada de dados (MVDA) é um método para extrair informações de tabelas de

dados (Figura I.4). As tabelas de dados são muito utilizadas em investigação e desenvolvimento,

tanto no meio académico como no industrial, uma vez que podem ser produzidos dados em massa ao

medir muitas variáveis em conjuntos de amostras químicas, ou através de sinais de um processo

11

industrial, a fim de controlar o seu comportamento. O objectivo da análise multivariada é medir,

explicar e prever o grau de relação entre variáveis estatísticas (combinações ponderadas de

variáveis).

Figura I.4 - O primeiro passo deste tipo de análise é transformar dados em massa numa tabela

de dados. (Adaptado de Eriksson, et al., 2006 )

3.3.1 - Análise de Componentes Principais (PCA)

3.3.1.1 – Descrição da metodologia

No início do estudo de um projecto, quando pouco se sabe acerca do problema, muitas vezes

é necessário recorrer a uma visão geral dos dados, que pode ser obtida através de um PCA. Através

do PCA obtém-se um resumo que mostra como as observações estão relacionadas e se existem

observações divergentes ou grupos de observações nos dados. Além disso, com o PCA também se

pode analisar as relações entre as variáveis: as variáveis que contribuem com informações

semelhantes ao modelo de PCA, e que prestem informações exclusivas sobre as observações.

(Eriksson, et al., 2006 )

Portanto, a análise de componentes principais (PCA) é um método de projecção multivariada

concebido para extrair e exibir a variação sistemática de uma matriz de dados X.

O ponto de partida para o PCA é uma matriz de dados com N linhas (observações) e K

colunas (variáveis), representada por X (Figura I.5). As observações podem ser, por exemplo,

amostras analíticas, compostos químicos ou reacções, os pontos de tempo num processo contínuo,

os batches num processo descontínuo, entre outros. De forma a caracterizar as propriedades das

observações mede-se as variáveis. Estas variáveis podem ser de origem espectral (NIR, RMN, IV,

UV, raios-X, ...), origem cromatográfica (HPLC, GC, TLC, ...), ou podem ser as medições dos

sensores de um processo (temperaturas, fluxos, pressões, etc.). (Eriksson, et al., 2006 )

Figura I.5 - Representação da matriz de dados X, com N observações e

K variáveis. (Adaptado de Eriksson, et al., 2006)

12

A função mais importante do PCA é representar uma tabela de dados multivariados através

de um plano com poucas dimensões, de tal modo a que se obtenha uma visão geral dos dados. Esta

visão geral dos dados pode revelar grupos de observações, tendências e valores discrepantes

(outliers). (Eriksson, et al., 2006 )

Estatisticamente, o PCA encontra linhas, planos e hiperplanos num espaço com K-dimensões

que se aproximam aos dados tanto quanto possível, no sentido dos mínimos quadrados (Figura I.6).

Figura I.6 - O PCA deriva de um modelo que se ajusta aos dados.

(Adaptado de Eriksson, et al., 2006)

Considerando a matriz X, com N observações e K variáveis. Cada observação (cada linha) da

matriz X é colocada no espaço variável com K-dimensões, formando uma dispersão de pontos neste

espaço (Figura I.7 A.). De seguida é calculada a média das variâncias, cujo vector é representado

pelo ponto vermelho (Figura I.7 B.). A subtracção das médias a cada um dos dados corresponde a

um reposicionamento do sistema de coordenadas, de tal modo que o ponto médio se torna na origem

(Figura I.7 C.).

Figura I.7 - Ajuste na construção do modelo de PCA. A. Dispersão dos pontos obtidos através da matriz X. B. O ponto vermelho corresponde à média das variâncias. C. Reposicionamento do sistema de coordenadas.


Ao usar a análise de componentes principais, a tabela de dados X é modelada segundo a Equação I.3.

! = 1 × !′$ + ' × () + * Equação I.3

13

Sendo que, o primeiro termo, 1 × X′$ , representa a média das variáveis e origina-se no passo

de pré-processamento. O segundo termo, o produto da matrizT × P), modela a estrutura, e o terceiro

termo, a matriz residual E, contém o ruído.

Os componentes principais do primeiro, segundo, terceiro, ..., componentes (t1, t2, t3, ...) são

as colunas da matriz de scores, T. Estes scores são as coordenadas das observações no modelo

(hiper-plano). Alternativamente, os scores podem ser vistos como novas variáveis que resumem as

antigas, os quais são classificados em ordem decrescente de importância (t1 explica mais variação do

que t2, t2 explica mais variação do que t3, e assim por diante). O significado dos scores é dado pelos

loadings. Os loadings dos primeiro, segundo, terceiro, ..., componentes (p1, p2, p3, ..) constituem a

matriz de loadings, P. (Eriksson, et al., 2006 )

Normalmente, de 2 a 5 componentes principais são suficientes para se obter uma boa

aproximação de uma tabela de dados.

Figura I.8 - Representação por matrizes, de como uma tabela de dados X é modelada por PCA.

(Eriksson, et al., 2006)

3.3.1.2 - Componentes principais

O primeiro componente principal (PC1) é a linha no espaço com k-dimensões que mais se

aproxima dos dados, de acordo com os mínimos quadrados. Esta linha passa pelo ponto médio

(Figura I.9 A.) e cada observação passa a ser projectada sobre a mesma, a fim de se obter um valor

de coordenadas ao longo da linha PC1. Este novo valor de coordenadas é conhecido como score.


Normalmente, um componente principal é insuficiente para modelar a variação sistemática de

um conjunto de dados. Então, é calculado um segundo componente principal, PC2. O segundo

componente principal está também representado por uma linha no espaço variável com k-dimensões,

que é ortogonal ao PC1 (Figura I.9 B.). Esta linha também passa através do ponto médio, e melhora a

aproximação aos dados da matriz X, tanto quanto possível.

Figura I.9 – Representação da construção dos componentes principais PC1 e PC2.


14

Quando se obtém um modelo com dois componentes principais, juntos definem um plano

(Figura I.9 B.). As observações são projectadas nesse sub-espaço definido pelos componentes

principais. Os valores das coordenadas de cada uma dessas projecções são chamados de scores, e,

portanto, a sua representação gráfica é conhecida como score plot. (Eriksson, et al., 2006 )

3.3.1.3 - Como interpretar um score plot e um loading plot

Um score plot é construído pelas coordenadas t[1] e t[2] associadas a cada um dos

componentes principais. Cada observação é caracterizada por dois valores, um ao longo de t[1] e

outro ao longo de t[2].

Observações próximas umas das outras, significa que têm propriedades semelhantes,

enquanto que as que estão longe umas das outras, são diferentes no que diz respeito às

características que descrevem o seu perfil. O significado dos scores é obtido através dos loadings.

Através de um loading plot é possível saber quais as variáveis que são mais influentes no

modelo e também a forma como estão correlacionadas entre si. Essa informação obtém-se através

dos loadings, que são vectores denominados por p[1] e p[2]. (Eriksson, et al., 2006 )

Os loadings permitem definir a orientação do plano formado pelos componentes principais,

em relação às variáveis X originais. Permitem também obter informação de como as variáveis são

linearmente combinadas para formar os scores, uma vez que fornecem informação acerca da

magnitude (correlação grande ou pequena) e da forma (correlação positiva ou negativa) como as

variáveis medidas contribuem para os scores. (Eriksson, et al., 2006 )

Analisando um loading plot é possível perceber a relação entre todos as variáveis, ao mesmo

tempo. As variáveis que contribuem com informações semelhantes são agrupadas em conjunto, isto

é, elas estão correlacionadas. Ou seja, quando o valor numérico de uma variável aumenta ou diminui,

o valor numérico da outra variável tem uma tendência a mudar, da mesma forma.

Quando variáveis são negativamente (isto é, inversamente) correlacionadas, encontram-se

posicionadas em lados opostos da origem do gráfico, em quadrantes diagonalmente opostos. O que

significa que quando uma aumenta, a outra diminui (e vice-versa).

A distância a que cada variável se encontra da origem também transmite informações.

Quanto mais longe da origem uma variável se encontrar, mais forte é o impacto que essa variável tem

no modelo.

Figura I.10 - Representação geométrica dos loadings num modelo de PCA.


15

Geometricamente, os loadings representam a orientação no plano do modelo num espaço

variável com k-dimensões (Figura I.10). Isto é, a direcção do PC1 em relação às variáveis originais é

dada pelo co-seno do ângulo α1, α2 e α3. Estes valores indicam como é que as variáveis originais x1,

x2 e x3 contribuem para o PC1. Sendo que, um segundo conjunto de ângulos expressa a direcção do

PC2 em relação às variáveis originais. (Eriksson, et al., 2006 )

3.3.2 - Número de componentes principais

Um factor importante é o número de componentes que devem ser incluídos no modelo. Esta

questão está relacionada com a diferença entre o grau de ajuste e a capacidade de previsão. O

ajuste define o quão bem o modelo é capaz de reproduzir matematicamente os dados do conjunto de

treino. A medida quantitativa da qualidade do ajuste é dada pelo parâmetro R2X, que corresponde à

variação explicada. O problema com a qualidade do ajuste é que, com um número suficiente de

parâmetros, R2X pode arbitrariamente tomar valores próximos do valor máximo, de um. (Eriksson, et

al., 2006 )

Mais importante do que o ajuste, no entanto, é a capacidade de previsão de um modelo. A

qual pode ser estimada pela forma como se pode prever os dados da matriz X, quer internamente

através de dados existentes ou externamente por meio do uso de um conjunto de validação

independente das observações. O poder preditivo de um modelo resume-se através do parâmetro

correspondente à capacidade de previsão: Q2X, que corresponde à variação prevista. Neste caso,

utiliza-se a validação cruzada para estimar a capacidade preditiva do modelo com o aumento do

número de componentes.

Os parâmetros R2X e Q2X demonstram um comportamento completamente diferente à

medida que aumenta a complexidade do modelo (Figura I.11). A qualidade do ajuste, R2X, varia entre

0 e 1, onde 1 significa um modelo perfeitamente ajustado e 0 sem nenhuma capacidade de ajuste. O

parâmetro R2X é influenciado, aproximando-se da unidade com o aumento da complexidade do

modelo (por exemplo, número de parâmetros do modelo ou número de componentes). Por isso, não é

suficiente ter um valor alto de R2X. A capacidade de previsão, Q2X, por outro lado, é menos

influenciada e não se torna automaticamente próxima de 1 com o aumento da complexidade do

modelo, desde que esteja correctamente estimada. (Eriksson, et al., 2006 )

Figura I.11 - Compromisso entre a qualidade de ajuste (R2X) e a capacidade de previsão (Q2X). O eixo vertical corresponde ao valor da variância explicada ou prevista, e o eixo horizontal mostra a complexidade do modelo (A). (Eriksson, et al., 2006)

16

Um modelo é considerado válido, quando tem uma boa capacidade de predição. O modelo

deve ainda conter parâmetros com um pouco de ajuste, ou seja, devem ter o sinal correto, mas ser

grande para as variáveis importantes e pequeno para as variáveis sem importância. (Eriksson, et al.,

2006 )

3.3.3 - Validação cruzada

A validação cruzada é uma forma prática e plausível de testar a significância de um modelo

PCA (ou PLS). Este procedimento tornou-se padrão na análise multivariada, e está implementado, de

uma ou outra forma, na maioria dos softwares comerciais.

A ideia básica consiste em manter uma percentagem de dados de fora da construção do

modelo, desenvolver um número de modelos paralelos a partir dos dados reduzidos, prever os dados

omissos dos diferentes modelos, e, finalmente, comparar os valores previstos com os reais. As

diferenças ao quadrado entre os valores previstos e observados são somados para formar a soma do

quadado do erro preditivo (PRESS), que é uma medida da capacidade de previsão do modelo

testado. (Eriksson, et al., 2006 )

PRESS = 1(x34 − x534)� Equação I.4

em que,��6 corresponde ao valor observado e �5�6 ao valor previsto pelo modelo de regressão, para a

amostra i da variável k.

No SIMCA-P, a validação cruzada é efectuada para cada dimensão consecutiva do modelo

começando com A = 0. Para cada dimensão adicional, corresponde um PRESS, que é comparado

com a soma dos quadrados dos resíduos (RSS) da dimensão anterior. Quando o valor de PRESS

não é significativamente menor do que o de RSS, a dimensão testada é considerada insignificante e a

construção do modelo pára. (Eriksson, et al., 2006 )

Normalmente, o desempenho de um modelo de PCA em SIMCA-P é avaliado

considerando-se, simultaneamente, a variação explicada R2X (capacidade de ajuste) e a variação

prevista Q2X (capacidade de previsão).

É ainda de ter em conta um outro parâmetro, a soma total dos quadrados (TSS), que

corresponde à variância total do modelo de regressão e é usado como uma quantidade de referência

para calcular os parâmetros de qualidade padronizada.

Assim, é possível perceber que os parâmetros de qualidade padronizada, R2X e Q2X, têm

semelhanças e ambos são adimensionais:

R�X = 1 − RSSTSS Equação I.5

Q�X = 1 − PRESSTSS Equação I.6

Na avaliação dos parâmetros R2X e Q2X, existem alguns factos a ter em conta. Entre os

quais, o facto de que, sem um R2X alto, é impossível obter um Q2X elevado. Geralmente, quando Q2X

é maior que 0,5 é considerado bom e quando Q2X é maior que 0,9 é considerado como excelente.

17

Um outro facto, é que a diferença entre R2X e Q2X não deve ser demasiado grande, de preferência

não superior a 0,2-0,3. (Eriksson, et al., 2006 )

3.3.4 – Análise de Mínimos Quadrados Parciais (PLS)

3.3.4.1 – Descrição da metodologia

O método dos mínimos quadrados parciais (PLS) é também um método de análise

multivariada e funciona como uma extensão da regressão do PCA, que é utilizado para ligar a

informação de dois blocos de variáveis, X e Y, um ao outro.

O PLS representa as projeções de estruturas latentes por meio de mínimos quadrados

parciais. A sua utilidade advém da capacidade de analisar dados com muitos ruídos, colineares e até

mesmo variáveis incompletas em X e Y. Para os parâmetros relacionados com as observações

(amostras, compostos, objectos, items), a precisão de um modelo PLS melhora com o número

crescente de variáveis-X relevantes. (Eriksson, et al., 2006 )

Figura I.12 - O método dos mínimos quadrados parciais (PLS) é utilizado para ligar a informação de dois blocos de variáveis, X e Y, um ao outro.

(Adapatado de Eriksson, et al., 2006)

O PLS pode ser visto como uma técnica de regressão para modelar a relação entre X e Y

que, em particular, utiliza as regularidades nos dados para formar blocos na construção do modelo. E

portanto, os modelos de projecção podem aproximar qualquer tabela de dados, desde que haja um

certo grau de semelhança entre as observações (linhas da matriz). E a aproximação é tanto melhor

quanto maior for a semelhança entre as observações e quanto maior for o número de componentes

do modelo. (Eriksson, et al., 2006 )

No entanto, a modelação por PLS da relação entre dois blocos de variáveis, pode ser descrita

de diferentes maneiras. Talvez a maneira mais simples é que este modelo se encaixa como dois

modelos de PCA, ao mesmo tempo, um para X e outro para Y, e ao mesmo tempo alinha-os. Os

objectivos são: (a) para modelar X e Y, e (b) para prever Y a partir de X. , de acordo com:

! = '() + * Equação I.7 8 = 9:′ + ; Equação I.8

18

Nestas expressões, os primeiros termos, T e U, são as matrizes de scores correspondentes

às matrizes X e Y, respectivamente; P e C são as matrizes de loadings correspondentes às matrizes

X e Y, respectivamente. A variação nos dados que foi deixada de fora da modelação, forma as

matrizes residuais E e F (Figura I.13). (Eriksson, et al., 2006 )

Figura I.13 - Decomposição em variáveis latentes das matrizes X e Y para modelos PLS. (fonte:http://documentation.statsoft.com/STATISTICAHelp.aspx?path=MSPC/PCAandPLSTechnicalDetails)

As equações acima representam as relações exteriores do modelo PLS, o qual forma novas

variáveis-X, como combinações lineares das variáveis antigas, e, posteriormente, as usa para

prever Y.

3.3.4.2 – A geometria do modelo PLS, no caso de uma resposta (M = 1)

Considere-se um exemplo com N observações, K = 3 Variáveis-X e M = 1 Variável-y (Figura

I.14).

Figura I.14 - Um exemplo de regressão, com K=3 Variáveis-X, N observações e M=1 Variável-y.


Tal como no PCA, cada observação pode ser representada graficamente. No entanto, a

grande diferença no PLS é que cada linha de uma tabela de dados corresponde a dois pontos em vez

19

de um, um no espaço-X e um no espaço-Y. Consequentemente, com muitas observações no

conjunto de dados, dois enxames de pontos estão situados nesses espaços (Figura I.15). A tarefa na

análise de dados é descrever a relação entre as posições das observações no espaço de

previsão (X) e as suas posições no espaço de resposta (Y). (Eriksson, et al., 2006 )

Figura I.15 - Ilustração da distribuição dos pontos, quando K = 3 e M = 1.


3.3.4.3 – Componentes principais

O primeiro componente corresponde a uma linha no espaço X, que se aproxima do ponto a

vermelho (que tal como no PCA, corresponde à média das variâncias) e fornece uma boa correlação

com o vector y (Figura I.16). A coordenada para cada observação ao longo desta linha é obtida

através da projecção de cada amostra para a linha. A coordenada obtida, tal como no PCA, é

chamado de score, ti1, da observação i. Os scores de todas as observações formam o primeiro vector

de scores, t1. (Eriksson, et al., 2006 )

Figura I.16 - Com uma única variável-y, o espaço-Y reduz-se a um vector unidimensional. As projecções das observações sobre a linha no espaço-X dão origem aos scores para cada uma das observações. �<(�) corresponde a uma estimativa do modelo para a variável y. (Eriksson, et al., 2006)

O vector de scores t1 pode ser considerado como uma nova variável, uma variável latente,

que reflecte a informação das variáveis-X originais, que sejam importantes para a modelação e

previsão da variável resposta. Subsequentemente, este score pode ser usado para adquirir uma

20

estimativa de y, �5(=), através do primeiro componente do PLS, que é t1 multiplicado pelo peso do

vector-y, c1 (Figura I.16).

As diferenças entre os dados medidos e estimados relativos à resposta são chamadas de

resíduos. Os resíduos representam a variação que resta inexplicável pelo primeiro componente do

PLS. Um bom modelo tem pequenos resíduos. A dispersão dos pontos em torno da diagonal (Figura

I.16) é uma forma gráfica para avaliar o desempenho do modelo. Quando todos os pontos se situam

na diagonal, tem-se um modelo ideal (embora não muito realista) com os dados de resposta de zero

resíduos. (Eriksson, et al., 2006 )

Uma outra maneira de olhar para os resíduos do vector relativo à resposta, pode ser

observada na Figura I.17, onde o vector residual f1, é obtido a partir de � - �5(=). Este vector residual é

muito mais curto do que o vector dos valores y observados. Isto implica que o primeiro componente

do PLS foi responsável por uma grande parte da variação em y.

Figura I.17 - Ilustração dos resíduos de y, que permanecem após o primeiro componente

PLS. f1 corresponde ao vector residual. (Eriksson, et al., 2006) Normalmente, um componente é insuficiente para modelar adequadamente a variação nos

dados referentes à variável y. A capacidade descritiva do modelo de PLS é então melhorada

expandindo-o com um segundo componente, tal como no PCA. O segundo componente é também

uma linha no espaço-X, que passa pela origem e é ortogonal ao primeiro componente (Figura I.18).

Este componente encontra a direcção no espaço-X que melhora a descrição dos dados-X, tanto

quanto possível, enquanto proporciona uma boa correlação com os resíduos de y, f1. (Eriksson, et al.,

2006 )

Figura I.18 - Representação dos dados num modelo com duas variáveis latentes, sendo que a

segunda é ortogonal à primeira. (Eriksson, et al., 2006)

Tal como anteriormente, o segundo conjunto de scores das observações surge a partir das

coordenadas ao longo da segunda direcção de projecção no espaço-X. Este segundo vector de

21

scores é denominado como t2. Na Figura I.18 é possível analisar como o segundo vector de scores

multiplicado pelo peso do vector-y (c2) se correlaciona com o vector residual, f1. Assim, quanto mais

ajustada for a dispersão em torno do tracejado diagonal, mais forte a correlação entre X e Y na

segunda dimensão do modelo PLS. (Eriksson, et al., 2006 )

Também é possível analisar o poder combinado de t1 e t2 na modelação e previsão de y. Uma

estimativa de y num modelo com dois componentes, �5(�), é obtida através da combinação: >=?= + >�?� (Figura I.19). Ao comparar os resultados representados na Figura I.16 e na Figura I.19, percebe-se

que a variável y é melhor modelada por dois componentes do que por um. Isso deve-se ao facto da

relação entre os dados y, observados e estimados, ser melhor com dois componentes. (Eriksson, et

al., 2006 )

Figura I.19 - Estimativa da variável-y num modelo com dois componentes: �<(�). (Eriksson, et al., 2006)

O impacto da segunda dimensão do modelo é visível na Figura I.20. O primeiro componente

explica a maior parte da variação dos dados-y, e apenas uma fracção permanece no vector f1

residual. Situação que é ainda melhorada após a inclusão do segundo componente, sendo o f2

residual menor do que f1.

Figura I.20 - Ilustração esquemática do poder explicativo de um modelo PLS. (Eriksson, et al., 2006)

22

Para definir o número de componentes a usar no modelo de PLS, recorre-se ao mesmo tipo

de análise que no PCA (Secção 3.3.2). Ao aumentar a compelxidade do modelo analisa-se os

parâmetros R2 e Q2 (Figura I.11). Embora no contexto do PLS, os termos R2 e Q2 se refiram ao

desempenho do modelo de dados-Y, ou sejas, às respostas, ao invés dos dados-X, como é o caso do

PCA.

3.3.4.4 – Uso do modelo PLS: Previsões

Quando um modelo PLS é considerado confiável - através da interpretação dos parâmetros

do modelo, ferramentas de diagnóstico, validação cruzada, etc - pode ser usado para prever dados-Y

para novas observações que não tenham influenciado o modelo. Este procedimento de predição

corresponde ao representado na Figura I.21, para uma situação envolvendo um componente.


Figura I.21 – Ilustração do processo de previsão com um modelo PLS. (Eriksson, et al., 2006)

Uma nova observação é considerada semelhante às observações do conjunto de treino se

estiver localizada dentro do volume cilíndrico de tolerância no espaço-X. Então, a sua projecção

sobre o modelo X (t) pode ser inserida na relação t/u, produzindo assim um valor de u para essa

dimensão. Este valor de u (ou vários valores de u, se houver mais do que um componente) define um

local no modelo de espaço-Y, que por sua vez, corresponde a um valor previsto para cada variável de

resposta. (Eriksson, et al., 2006 )

Tecnicamente, também é possível fazer previsões PLS para observações posicionadas fora

do volume de tolerância do modelo no espaço-X. No entanto, isso significa que o modelo está a ser

extrapolado fora do intervalo de validade. Consequentemente, essas previsões serão muito menos

precisas do que as previsões para as observações que se encaixam no modelo.

Uma estimativa derivada da capacidade interna de previsão de um modelo pode ser obtida

por validação cruzada. No entanto, a única maneira de ter uma maior certeza do poder preditivo de

um modelo é fazendo previsões externas, ou seja, as previsões para um conjunto independente de

observações de validação e, em seguida, investigar essas observações experimentalmente.


23

Para avaliar o erro do modelo de calibração utiliza-se o RMSE (raíz do erro médio

quadrático):

@AB* = C∑ (�� − �5�)�D�E= F Equação I.9

onde n corresponde ao número de amostras, �� corresponde ao valor da observação i e �5� corresponde ao valor predito para a observação i, utilizando as amostras do conjunto de calibração

ou do conjunto de previsão externa (RMSEP).

4 Redes Neuronais Artificiais

A inteligência artificial está, através da ciência da computação, relacionada com a concepção

de computadores com sistemas inteligentes, isto é, sistemas que exibem características que são

associadas à inteligência no comportamento humano (Baughman & Liu). Como tal, as redes

neuronais (RNAs) surgem da tentativa de desenvolver modelos que imitem a capacidade de

reconhecer, associar e generalizar padrões, para que sejam capazes de resolver problemas.

Estes modelos são uma técnica estatística não-linear capaz de resolver problemas

complexos, isto é, quando não é possível definir um modelo explícito ou uma lista de regras, daí a

sua importância. Como tal, as RNAs têm vindo a ser desenvolvidas e aplicadas nos casos em que o

ambiente dos dados muda muito. Sendo algumas das suas principais áreas de actuação o

reconhecimento de padrões, a optimização, o planeamento, a predição, a monitorização e o controlo.

A produção de biogás através da digestão anaeróbia é um processo que necessita de muitas

variáveis para o caracterizar e cujas inter-relações não são totalmente conhecidas, tornando o

sistema complexo. Como alternativa às ferramentas estatísticas mais tradicionais (regressão linear,

estatística descritiva, entre outras), surgiu o interesse de procurar novas ferramentas que

facilitassem e tornassem mais eficiente este caso de estudo.

4.1 - Evolução histórica

As RNAs surgiram pelo paralelismo com o cérebro humano que possui características

desejáveis a qualquer sistema artificial. Entre as quais, a capacidade de lidar com informações

inconsistentes, a alta flexibilidade de se adaptar a situações aparentemente pouco definidas e, entre

outras, a tolerância a falhas. Motivos pelos quais despertaram o interesse de investigadores.

O aparecimento da neuro-computação ocorreu na década de 40. Em 1943, Warren Mc

Culloch, psiquiatra e neuroanatomista, e Walter Pitts, matemático, desenvolveram uma máquina

inspirada no cérebro humano e um modelo matemático do neurónio biológico artificial denominado

Psychon. No entanto, este modelo não era capaz de desempenhar uma das suas principais funções:

a aprendizagem. (Vellasco, M.M.B.R., 2007)

Em 1949, Donald O. Hebb definiu o conceito de actualização de pesos sinápticos, no livro

The Organization of Behavior. Alguns pontos importantes do seu estudo foram que: numa rede

24

neuronal a informação é armazenada nos pesos sinápticos; o coeficiente de aprendizagem é

proporcional ao produto dos valores de activação do neurónio; os pesos são simétricos (o peso da

conexão de A para B é igual ao da conexão de B para A); quando ocorre a aprendizagem os pesos

são alterados. (Vellasco, M.M.B.R., 2007)

Dois anos mais tarde, em 1951, Marvin Minsky criou o primeiro neurocomputador, chamado

Snar, o qual operava bem a partir de um ponto de partida, ajustando os seus pesos automaticamente.

Este neurocomputador, que ainda não executava todas as funções necessárias, serviu como modelo

para futuras estruturas.

Mais tarde, em 1958, surge o primeiro neurocomputador bem sucedido, desenvolvido por

Frank Rosenblatt e Charles Wightman, juntamente com alguns outros estudiosos. Tendo sido estes

considerados os fundadores da neurocomputação, devido à importância dos seus trabalhos, já com

uma linha de pesquisa bastante próxima da forma como existe actualmente. Os seus estudos

sustentaram os modelos do tipo perceptrão (redes de um nível) e PMC (Perceptrão de múltiplas

camadas), cujo objectivo inicial era aplicar a modelação do tipo perceptrão no reconhecimento de

padrões. (Vellasco, M.M.B.R., 2007)

No entanto, estes modelos baseados no perceptrão foram fortemente criticados por Minsky e

Papert, que mostraram matematicamente o facto de os modelos não serem capazes de aprender a

função lógica do “OU-Exclusivo”. A função XOR possui padrões de valores de entrada e saída cuja

associação não poderia ser aprendida pelos modelos baseados em perceptrões. Esta constatação

impactou negativamente as pesquisas que vinha a ser realizadas sobre este assunto nas décadas de

60 e 70. (Vellasco, M.M.B.R., 2007)

Figura I.22 - Função XOR: uma representação gráfica.

(Adaptado de Cardon & Müller, 1994)

Tendo em conta um plano xoy, as variáveis x e y são as entradas da rede e o ponto cartesiano

(x,y) é o valor da respectiva saída, como se vê na Figura I.22. Pode verificar-se que não é possível

traçar uma única recta (função linear) tal que divida o plano de maneira que as saídas com valor 0

fiquem situadas de um lado da recta e as de valor 1 do outro lado da recta. (Cardon & Müller, 1994)

Na década seguinte, através do uso da computação intensiva, progrediu-se nas linhas de

estudo na área da inteligência artificial. Em 1982, John Hopfield, físico, desenvolveu um tipo de rede

que apresentava conexões recorrentes, ou seja, o sinal não se propagava exclusivamente para a

frente. Este tipo de rede baseava-se numa aprendizagem não supervisionada com a competição

entre os neurónios. (Vellasco, M.M.B.R., 2007)

25

Já em 1986, surge o reaparecimento das redes baseadas em perceptrões, acente na teoria

das redes em multicamada (PMC) treinadas com o algoritmo de aprendizagem por retropropagação

desenvolvido por Rumelhart, Hinton e Willians. (Vellasco, M.M.B.R., 2007)

Estes novos avanços foram suportados pelo desenvolvimento de computadores cada vez

mais potentes, que surgiu também na década de 80, permitindo por isso melhorar as simulações das

redes neuronais. Neste período foram também desenvolvidos modelos matemáticos que permitiram

solucionar o problema do XOR, através da criação de uma camada intermediária na rede e

graficamente com uma estrutura em três (ou mais) dimensões. (Vellasco, M.M.B.R., 2007)

Em 1987, acontece a primeira conferência de redes neuronais em São Francisco, a IEEE

(Internacional Conference on Neural Networks) e foi ainda criada a INNS (International Neural

Networks Society). Dois anos depois surge o INNS Journal e um ano mais tarde a criação do Neural

Computation. (Vellasco, M.M.B.R., 2007)

4.2 - Princípios das RNAs 4.2.1 – Conceitos gerais

As redes neuronais artificiais são sistemas de computação adaptativos, inspirados nas

características de processamento de informação encontradas nos neurónios reais e nas

características das suas interconexões, uma vez que trabalham em paralelo para desempenhar uma

determinada tarefa. As suas implementações podem ser em hardware, ao realizar uma determinada

tarefa a partir de componentes electrónicos ou em software, através de simulações por programação

em computadores digitais.

É importante definir como são constituídas as unidades básicas de uma RNA. A Figura I.23

mostra a descrição funcional do k-ésimo neurónio de uma rede, que transfere a entrada pR para a

saída aK através do factor de peso ѡk,R e da função de transferência.

Figura I.23 – Modelo artificial do k-ésimo neurónio biológico.

(Adaptado de Demuth et al., 2014)

As entradas encontram-se representadas pela variável p, que correspondem aos padrões

da camada de entrada, caso seja a primeira camada da rede ou à saída do neurónio anterior, caso

existam mais camadas anteriormente.

26

Os pesos sinápticos da rede encontram-se simbolizados pela variável ѡk,R, que representam

a memória da rede. São caracterizados por combinar a não-linearidade para que esta fique

distribuída pela rede.

A variável nK representa a combinação linear dos pesos, que corresponde à soma

ponderada da entrada pelos pesos.

aK é a saída do k-ésimo neurónio que depende do nível de activação aplicado ao neurónio

através da função de activação.

A função de activação refere-se à parte não-linear de cada neurónio, sendo a única parte em

que a não-linearidade se encontra. É responsável por modelar a forma como o neurónio responde ao

nível de excitação, limitando e definindo a saída da rede neuronal.

bK corresponde ao termo polarizador, que define o domínio dos valores de saída. Na

modelação é costume tratar-se este termo como mais um peso para que, durante o processo de

optimização dos pesos, a ser realizado pelo algoritmo implementado, a actualização aconteça para

todos os parâmetros, incluindo para o polarizador.

Numa rede neuronal os parâmetros a serem estimados são os pesos e o polarizador. Como

em cada neurónio chega a soma ponderada de todas as entradas, então o polarizador aparecerá

associado a uma entrada fixa de +1 ou -1.

Uma rede neuronal está caracterizada por apresentar algumas características importantes,

tais como a robustez e tolerância a falhas, a flexibilidade, o processamento de informação incerta e o

paralelismo. (Demuth, H, et. al. 2014)

A robustez e tolerância a falhas está associada à eliminação de alguns neurónios que não

afectem substancialmente o desempenho global da rede. A flexibilidade é caracterizada pelo facto de

a rede poder ser ajustada a novos ambientes por meio de um processo de aprendizagem, uma vez

que é capaz de aprender novas acções com base na informação contida nos dados de treino. O

processamento de informação incerta é importante porque mesmo que a informação fornecida esteja

incompleta e afectada por ruído, ainda é possível obter-se um raciocínio correcto. O paralelismo tem

em conta o facto de um imenso número de neurónios estar activo ao mesmo tempo e de não existir

restrição de um processador que obrigatoriamente trabalhe uma instrução após a outra. (Demuth, H,

et. al. 2014)

A estrutura de uma rede neuronal destaca-se ainda por ser paralelamente distribuída e por

possuir a capacidade de aprendizagem. Como tal, é dotada de benefícios como a capacidade de

realizar mapeamentos não-lineares entre a entrada e a saída, a uniformidade de análise e projecto e

a analogia com a neurobiologia.

4.2.2 - Paralelismo com o sistema biológico

Todos os tipos de redes neuronais apresentam a mesma unidade de processamento: um

neurónio artificial, que simula o comportamento do neurónio biológico.

27

Figura I.24 - O sistema nervoso: representação geral e simplificada.

(Adaptado de Castro & Zuben)

O sistema nervoso pode ser organizado em diferentes níveis: moléculas, sinapses, neurónios,

camadas, mapas e sistemas (Figura I.24). E é responsável por atribuir ao organismo, através de

entradas sensoriais, informações sobre o estado do ambiente em que habita. A informação de

entrada é processada e comparada com as experiências passadas, sendo depois transformada em

acções apropriadas sob a forma de conhecimento. (Castro & Zuben)

Uma das descobertas mais importantes em neurociência foi a de que a transmissão de sinais

pode ser modulada, permitindo ao cérebro a adaptação a diferentes situações.

Os neurónios que enviam sinais, chamados de neurónios pré-sinápticos, fazem contacto com

os neurónios receptores (ou pós-sinápticos) em regiões especializadas denominadas de sinapses. A

sinapse é portanto, a junção entre o axónio de um neurónio pré-sináptico e o dendrito ou corpo

celular de um neurónio pós-sináptico (Figura I.25). (Castro & Zuben)

Figura I.25 – Representação esquemática de um neurónio.


28

De referir que os sinais nervosos são, em geral, amplificados (ou pesados) de forma

diferenciada ao atravessar as diferentes sinapses de um neurónio. A capacidade das sinapses

sofrerem modificações, que é denominada por

aprendizagem da maioria das RNAs.

Portanto, um neurónio pode ser visto como um dispositivo capaz de receber estímulos (de

entrada) de diversos outros neurónios e propagar a sua única saída, em função dos estímulos

recebidos e do estado interno, a vários outros neurónios. Os neurónios podem ter conexões

sentido positivo (feedforward) e/ou

podem ter um único sentido ou serem recíprocas.

Similarmente, um neurónio artific

sinápticas com outras unidades idênticas a ele, e uma saída, cujo valor depende directamente da

somatória ponderada de todas as saídas dos outros neurónios a esse conectado, sendo que o efeito

líquido de todos estes processos biológicos que ocorrem nas sinapses é representado por um

associado. (Castro & Zuben)

Diversos neurónios interconectados geram uma estrutura em rede conhecida como

neuronal. Uma característica marcante das redes neuronais é o seu

Muitas áreas do cérebro apresentam uma

camadas de neurónios em contato com outras camadas. Um dos arranjos mais comuns de neu

é uma estrutura bi-dimensional em camadas organizadas através de um arranjo

respostas de saída. O exemplo mais conhecido deste tipo de estrutura é o

Zuben)

O córtex corresponde à superfície externa do cérebro

vários dobramentos, fissuras e elevações. Diferentes partes do córtex possuem diferentes funções

(Figura I.26).

Fig(Fonte: http://www.auladeanatomia.com/neurologia/areascortex.jpg)



sofrerem modificações, que é denominada por plasticidade sináptica, é fundamenta

aprendizagem da maioria das RNAs. (Castro & Zuben)



stado interno, a vários outros neurónios. Os neurónios podem ter conexões

) e/ou de sentido negativo (feedback) com outros neurónios, ou seja,

podem ter um único sentido ou serem recíprocas.

Similarmente, um neurónio artificial possui várias entradas, que correspondem às conexões



o de todos estes processos biológicos que ocorrem nas sinapses é representado por um

Diversos neurónios interconectados geram uma estrutura em rede conhecida como

. Uma característica marcante das redes neuronais é o seu processamento em paralelo

Muitas áreas do cérebro apresentam uma organização laminar de neurónios. Lâminas são

em contato com outras camadas. Um dos arranjos mais comuns de neu

dimensional em camadas organizadas através de um arranjo

respostas de saída. O exemplo mais conhecido deste tipo de estrutura é o córtex

O córtex corresponde à superfície externa do cérebro; uma estrutura bidimensional com


Figura I.26 - Representação do córtex humano. (Fonte: http://www.auladeanatomia.com/neurologia/areascortex.jpg)



, é fundamental para a



stado interno, a vários outros neurónios. Os neurónios podem ter conexões de

) com outros neurónios, ou seja,

ial possui várias entradas, que correspondem às conexões



o de todos estes processos biológicos que ocorrem nas sinapses é representado por um peso

Diversos neurónios interconectados geram uma estrutura em rede conhecida como rede

processamento em paralelo.

de neurónios. Lâminas são

em contato com outras camadas. Um dos arranjos mais comuns de neurónios

dimensional em camadas organizadas através de um arranjo topográfico das

córtex humano. (Castro &

; uma estrutura bidimensional com


(Fonte: http://www.auladeanatomia.com/neurologia/areascortex.jpg)

29

Em geral os neurónios do córtex estão organizados em camadas distintas, que são

sub-divididas em camada de entrada, camadas intermédias e camada de saída. A camada de

entrada recebe os sinais sensoriais (ou de entrada), a camada de saída envia sinais para outras

partes do cérebro e as camadas intermédias recebem (ou enviam) sinais de (ou para) outras

camadas do córtex. Isso significa que as camadas intermédias não recebem entradas directamente

nem produzem uma saída do tipo motora, por exemplo. (Castro & Zuben)

4.2.3 - Elementos de Processamento

O neurónio, também conhecido como elemento de processamento, é a parte da RNA onde é

realizado todo o processamento. Um elemento de processamento de uma camada de entrada recebe

apenas um valor do padrão de entrada correspondente, mas possui diversas conexões com os

neurónios das camadas seguintes, que podem ter várias entradas. (Cardon & Müller, 1994)

Cada elemento de processamento reúne a informação que lhe é mandada e produz um único

valor de saída. Existem duas qualidades importantes que um elemento de processamento deve ter:

(1) elementos de processamento necessitam apenas de informações locais. A saída do elemento de

processamento é uma função dos pesos e das entradas; (2) elementos de processamento produzem

apenas um valor de saída. Este valor único é propagado através das conexões do elemento emissor

para o receptor, ou para fora da rede, quando for um elemento da camada de saída. Sendo astas

duas qualidades que permitem que as RNAs operem em paralelo. (Cardon & Müller, 1994)

Existem vários mecanismos para se obter a saída de um elemento de processamento.

Geralmente, tem-se uma função das saídas da camada anterior e os pesos das conexões entre a

camada anterior e a actual.

4.2.4 - Funções de Activação

As funções de activação, associadas à estrutura interna de cada neurónio, vão de acordo

com a não-linearidade restringir a amplitude do intervalo de saída do neurónio. Podem ser utilizados

diferentes tipos de funções de activação nas RNAs, que se podem distinguir em funções para

transferência de sinais entre neurónios e funções para aprendizagem de padrões.

As funções de transferência são as responsáveis por determinar a forma e a intensidade de

alteração dos valores transmitidos de um neurónio a outro. As mais conhecidas e utilizadas são a

linear, a em degrau, a em rampa e a sigmóide.

4.2.4.1 - Função linear

A função linear é uma equação linear da forma: �(�) = G�, sendo que � é um número real e

α um escalar positivo, que determina a inclinação da recta.

30

Figura I.27 - Função de transferência linear.


Este tipo de função é usada principalmente em neurónios da camada de saída, quando não é

desejável o efeito de saturação das funções sigmóides e hiperbólicas. (Cardon & Müller, 1994)

Um exemplo do efeito de saturação é o representado na Figura I.28.

Figura I.28 - Exemplo do efeito de saturação.


Como se pode ver, este é um efeito indesejado, pois não é desejável que na saída da rede

se obtenha como resultado que 0 é igual a 1000, o chamado efeito de saturação. (Cardon & Müller,

1994)

4.2.4.2 - Função em degrau

A função de transferência em degrau é uma equação que pode receber dois valores, uma vez

que é utilizada para valores binários. Tem a forma:

�(�) = H IJ�� ≥ L−MJ�� < LO

onde β e δ são os valores utilizados para f(x) caso � ultrapasse ou não o limiar θ. O

coeficiente de limiar determina onde será o limite de transferência. (Cardon & Müller, 1994)

Figura I.29 - Função de transferência em degrau.


31

4.2.4.3 - Função em rampa

A função de limiar em rampa tem este nome por ser uma função em degrau modificada: ela

possui não uma transição directa entre dois valores, mas sim uma fase de transferência:

�(�) = P QJ�� ≥ Q�J�|�| < Q−QJ�� ≤ −QO

onde Q é o valor de saturação da função, ou seja, durante a transição o valor de f(x) irá

variar dentro do intervalo (Q,−Q), o que permite a delimitação de uma área de transição durante a

variação da transferência. (Cardon & Müller, 1994)

Figura I.30 - Função de transferência em rampa.


4.2.4.4 - Função sigmóide

A função sigmoid é a versão contínua da função em rampa. Que permite uma transição

gradual e não linear entre dois estados:

�(�) = 11 + ��T�

onde α é um real positivo. Quanto maior o valor de α, mais detalhada será a transição de

um estado a outro. (Cardon & Müller, 1994)

Figura I.31 - Função de transferência sigmóide.


32

4.3 - Etapas de modelação de uma RNA 4.3.1 – Etapas de modelação

As etapas de modelação de uma rede neuronal envolvem essencialmente três passos: o

treino e aprendizagem, a associação e a generalização (Vellasco, 2007). O treino e aprendizagem é

obtido conforme o ambiente dos dados em estudo, a associação consiste no reconhecimento de

padrões distintos e a generalização está relacionada com a capacidade da rede reconhecer com

sucesso o ambiente que origina os dados e não propriamente os dados utilizados no treino.

A modelação inicia-se escolhendo os dados a serem usados para o treino. Quanto à

escolha dos dados, esta pode ser feita através de um conjunto de pares de entrada-saída desejável

ou então, sem critério de selecção (aleatoriamente). Devem também ser escolhidos os dados que vão

servir para validar o modelo quando testada a sua capacidade de generalização. (Vellasco, 2007)

A escolha das variáveis de entrada é um factor importante, uma vez que vão influênciar a

construção da RNA, que depende dos dados seleccionados para que o seu treino ocorra com

sucesso. Embora este tipo de redes tenha condições para modelar problemas difíceis de especificar,

é necessário que existam dados e observações suficientes e representativas para o conhecimento

ser extraído e para que a aprendizagem da rede se dê com sucesso.

Os dados de entrada podem ser divididas por tipos de entrada: binária ou intervalar. Os

modelos binários são aqueles que apenas aceitam entradas discretas, ou seja, na forma de 0 e 1. Os

modelos intervalares são aqueles que aceitam qualquer valor numérico como entrada, de uma forma

contínua.

O conhecimento é passado para a rede por um algoritmo de treino e o aprendizado é

transformado e armazenado em densidades de conexões que são os pesos sinápticos.

Todo o processo de apresentação dos dados de entrada à rede, calcular as activações das

camadas, calcular os gradientes e o erro, e reajustar os pesos, é chamado de epoch ou época.

Sendo que cada época é uma iteração que procura diminuir o erro encontrado até que este convirja

para um valor mínimo e o objectivo pretendido seja atingido. O número de iterações pode ser

determinado com a finalidade de definir quando parar o treino para que este não se prolongue por

demasiado tempo. (Vellasco, 2007)

4.3.2 - Tipos de arquitectura neuronal: redes recorrentes e redes não recorrentes

É também necessário definir a topologia ou arquitectura da rede neuronal. Sendo que

existem basicamente dois tipos de topologia: redes não recorrentes e redes recorrentes. A

arquitectura é determinante na capacidade de processamento de uma RNA. A escolha correcta do

número de ligações é decisiva para um treino bem sucedido.

As redes não recorrentes são aquelas que não possuem realimentação das suas saídas

para as suas entradas e, por isso, são consideradas como redes sem memória. A estrutura dessas

redes pode ser formada por uma camada única ou por multi-camadas. No caso de redes em

camadas existe um conjunto de neurónios de entrada, uma camada de saída e uma ou mais

33

camadas intermédias ou ocultas. No entanto, segundo alguns autores, as entradas não se constituem

como uma camada da rede devido ao facto de apenas distribuirem padrões. (Baughman & Liu)

Este tipo de redes pode ter ligações intracamada ou intercamada. Nas redes com ligações

intracamada, as saídas a partir de um nó de alimentação são conectados para outros nós na mesma

camada. Enquanto que nas redes com ligações intercamada, as saídas a partir de um nó de

alimentação são conectados para outros nós de camadas diferentes. (Vellasco, 2007)

Um exemplo de redes com ligações intercamada são as redes do tipo feedfoward, em que o

sinal é sempre propagado para a frente, da entrada para a saída. Este tipo de rede é o mais utilizado

actualmente.

Figura I.32 - Opções de ligação numa rede neuronal: A) Ligação não recorrente (intracamada e interamada); B) Ligação recorrente. (Adaptado de Baughman & Liu)

Quanto às redes recorrentes, são redes que contêm realimentação das saídas para as

entradas, sendo as suas saídas determinadas pelas entradas actuais e pelas saídas anteriores. Além

disso, a sua estrutura não é obrigatoriamente organizada em camadas, e se forem, as redes podem

apresentar interligações entre neurónios da mesma camada e entre camadas não consecutivas.

(Vellasco, 2007)

Quando se fala em ligações entre nós é também necessário ter em conta a distinção entre

sinal funcional e sinal de erro. O sinal funcional é um sinal de entrada que se propaga para a frente,

neurónio por neurónio, através das camadas da rede e termina na saída da rede como um sinal de

saída. Este sinal é chamado como sinal funcional porque em cada neurónio da rede pelo qual o sinal

passa, é calculado como uma função das entradas pelos pesos associados àquele neurónio.

Enquanto que o sinal de erro se origina no neurónio de saída e se propaga para trás, camada por

camada, através da rede. (Vellasco, 2007)

4.3.3 - Tipos de treino: supervisionado e não supervisionado

O tipo de treino refere-se à existência ou não de um sinal de saída pré-definido para a rede.

No treino supervisionado, há uma noção sobre qual a saída que se deseja para a rede, o que leva a

forçar o ajuste dos pesos de modo a representar o sinal desejado. (Vellasco, 2007)

Por outro lado, há o não-supervisionado (auto-aprendizado), que se limita a fazer uma

representação da distribuição de probabilidade dos padrões de entrada na rede.

34

4.3.3.1 – Treino supervisionado O processo de aprendizagem (isto é, de escolha dos pesos associados a cada

aresta/neurónio) de uma rede neuronal artificial pode ser realizado sob supervisão. Neste tipo de

aprendizagem são conhecidas a priori as respostas correctas correspondentes a um certo conjunto

de dados de entrada. É de destacar os seguintes algoritmos de treino com supervisão, como sendo

os mais utilizados: (Moreira, M.A., 1997)

(a) Regra de aprendizagem de Widrow-Hoff (ou método do gradiente aplicado em redes

neuronais lineares);

(b) Treino por retropropagação do erro (error backpropagation) que constitui uma generalização

da anterior regra a redes lineares ou não lineares e com três ou mais camadas;

(c) Método do gradiente e seus aperfeiçoamentos. De referir a existência de técnicas destinadas

a melhorar a convergência destes métodos tais como a técnica do momento e da taxa

adaptativa de aprendizagem;

(d) A aprendizagem através do método de Levenberg-Marquardt aplicável a redes não lineares;

(e) A aprendizagem recorrendo a técnicas heurísticas, como por exemplo, os algoritmos evolutivos.

O algoritmo utilizado pode classificar a rede em que se aplica. As redes mais conhecidas, não

lineares com camadas ocultas e com alimentação directa, são denominadas por redes de

retropropagação com alimentação directa (standart feedforward backpropagation networks). (Moreira,

M.A., 1997)

4.3.3.2 – Treino não supervisionado A aprendizagem sem supervisão é, essencialmente, aplicada em sistemas com memória

associativa e para reconhecimento de padrões. Nestas redes o treino é realizado sem se conhecer

antecipadamente as respostas consideradas correctas. Os algoritmos de treino sem supervisão mais

conhecidos são:

(a) Algoritmos de estimulação pela entrada (reinforcement algorithms) também designados por

algoritmos de aprendizagem associativa. Neste tipo de algoritmos, a entrada de cada vector

na rede estimula um reajuste dos pesos, de modo a tornar favorável uma saída com

determinadas características. A regra de Hebb, as regra de Instar e de Outstar são alguns

exemplos deste tipo de algoritmos;

(b) Algoritmos de aprendizagem competitiva, tais como a regra de Kohonen. Neste caso, as

unidades computacionais de saída da rede competem entre si pelo direito de serem activadas

(isto é, fornecerem uma dada resposta) quando uma dada entrada é fornecida. Em geral só a

activação de uma única unidade de saída é autorizada.

Tal como no caso anterior, algumas redes podem ser classificadas com base no algoritmo de

treino utilizado. De referir, por exemplo, as redes de Kohonen e as redes competitivas. (Moreira, M.A.,

1997)

Após a escolha do algoritmo de treino mais adequado para o caso em estudo, segue

aplicação, na qual a rede neuronal passa a reconhecer um padrão ao se apresentar repe

rede um conjunto de padrões de entrada, assim como a categoria à qual cada um pertence.

Em seguida, apresenta-se à rede um padrão que nunca foi visto, mas que pertence à população

de padrões utilizados para o treino e a rede é capaz de identifi

padrão particular por causa da informação extraída no

de associação, ou seja, as condições para reconhecer padrões distintos (definida anteriormente como

uma das etapas de modelação).

Ainda relativamente ao treino, é importante não esquecer

(definida como a última etapa de modelação das redes).

generalização quando consegue fazer um mapeamento e

um pouco diferente dos exemplos apresentados. Isso deve ser analisado através dos resultados

fornecidos pela rede in-sample

selecionados para validar o modelo).

É importante ter em conta que uma rede treinada em excesso perde a capacidade de

generalização dos padrões de entrada

número excessivo de exemplos, acaba por memorizar os dados do treino. Neste

excesso de ajuste (overfitting), obtém

sample. (Vellasco, 2007)

O número de neurónios ocultos é também uma característica importante, uma vez que,

quanto maior o número de neurón

quando se utilizam em demasia, as contribuições indesejáveis da entrada ficam armazenadas nos

pesos sinápticos e a rede é treinada com ruídos. É necessário

que os dados estejam bem ajustados considerando o conjunto de trein

Portanto, a generalização é influenciada por factores como o tamanho do conjunto de treino e

o quanto essas amostras são representativas do ambiente de interesse; a a

neuronal; e a complexidade física do problema, factor sobre o qual não se tem controle

Se por um lado o excesso de complexidade do modelo prejudica o resultado

Por outro lado, a falta de complexidade pode ser observada

Para ilustrar melhor a questão da complexidade do modelo, pode analisar

seguinte. Supondo que o modelo adequado para os pontos representados na

parábola. Os pontos representados por

como estão distribuídos não é possível traçar uma recta que separe os dois padrões, um de cada

lado, para resolver o problema linearmente. Para executar a separação dos dois padrões

eficientemente é então necessária uma alternativa não

Após a escolha do algoritmo de treino mais adequado para o caso em estudo, segue

aplicação, na qual a rede neuronal passa a reconhecer um padrão ao se apresentar repe


se à rede um padrão que nunca foi visto, mas que pertence à população

de padrões utilizados para o treino e a rede é capaz de identificar a categoria correcta daquele

padrão particular por causa da informação extraída no treino, e isso é denominado como capacidade


(Vellasco, 2007)

ao treino, é importante não esquecer a capacidade de generalização

a etapa de modelação das redes). Uma rede apresenta uma boa capacidade de

generalização quando consegue fazer um mapeamento entrada-saída correcto mesmo se a entrada é


sample (dados do conjunto para o treino) e out

modelo).


generalização dos padrões de entrada-saída semelhantes, isto é, quando uma rede aprende um

número excessivo de exemplos, acaba por memorizar os dados do treino. Neste

), obtém-se um excelente resultado in-sample e um mau ajuste


quanto maior o número de neurónios, mais pesos para ajustar e mais complexa será a rede. Ou seja,


pesos sinápticos e a rede é treinada com ruídos. É necessário alterar a complexidade do modelo

que os dados estejam bem ajustados considerando o conjunto de treino e de validação.


o quanto essas amostras são representativas do ambiente de interesse; a a

neuronal; e a complexidade física do problema, factor sobre o qual não se tem controle

Se por um lado o excesso de complexidade do modelo prejudica o resultado

Por outro lado, a falta de complexidade pode ser observada na análise in-sample

Para ilustrar melhor a questão da complexidade do modelo, pode analisar

seguinte. Supondo que o modelo adequado para os pontos representados na

parábola. Os pontos representados por e por representam dois padrões distintos e da forma



ssária uma alternativa não-linear. (Vellasco, 2007)

35

Após a escolha do algoritmo de treino mais adequado para o caso em estudo, segue-se a sua

aplicação, na qual a rede neuronal passa a reconhecer um padrão ao se apresentar repetidamente à


se à rede um padrão que nunca foi visto, mas que pertence à população

car a categoria correcta daquele

o, e isso é denominado como capacidade


capacidade de generalização

ma rede apresenta uma boa capacidade de

saída correcto mesmo se a entrada é


out-of-sample (dados


, isto é, quando uma rede aprende um

número excessivo de exemplos, acaba por memorizar os dados do treino. Nestes casos em que há

e um mau ajuste out-of-


ios, mais pesos para ajustar e mais complexa será a rede. Ou seja,


a complexidade do modelo até

e de validação.


o quanto essas amostras são representativas do ambiente de interesse; a arquitectura da rede

neuronal; e a complexidade física do problema, factor sobre o qual não se tem controle.

Se por um lado o excesso de complexidade do modelo prejudica o resultado out-of-sample.

sample. (Vellasco, 2007)

Para ilustrar melhor a questão da complexidade do modelo, pode analisar-se o exemplo

seguinte. Supondo que o modelo adequado para os pontos representados na Figura I.33 é uma

representam dois padrões distintos e da forma



36

Figura I.33 - Modelo considerado adequado para o problema analisado.

(Adaptado de Vellasco, 2007)

Quando o modelo é construído com mais complexidade que a necessária, o resultado é o

obtido na Figura I.34. Neste modelo o resultado obtido em vez de ser uma parábola é um polinómio

com grau acima de dois. Isto levará a um óptimo resultado para os dados de treino, mas os

resultados obtidos na validação não serão, possivelmente, os melhores. (Vellasco, 2007)

Figura I.34 - Modelo com excesso de capacidade para o problema analisado.


Quando o modelo é construído com menos complexidade que a necessária, o resultado é o

obtido na Figura I.35. Ou seja, em vez de se obter o tipo de modelo esperado, parabola, obtém-se um

modelo que é representado por uma equação de 1º grau, uma recta. Então, o desempenho da rede,

tanto no conjunto de treino, como no de validação, ficará abaixo das expectativas. (Vellasco, 2007)

Figura I.35 – Modelo com falta de capacidade para o problema analisado.


Este exemplo, embora seja simples, permite realçar a importância de se escolher um modelo

adequado para representar um determinado problema, para que se obtenham resultados adequados

ao problema.

37

Uma boa alternativa, para se averiguar o poder de generalização do modelo obtido, é a

validação cruzada. O objectivo é estimar o quão preciso é na prática o modelo, ou seja, o seu

desempenho para um novo conjunto de dados.

A validação cruzada consiste em particionar o conjunto de dados em subconjuntos

mutualmente exclusivos, e posteriormente, utilizar alguns destes subconjuntos para a estimativa dos

parâmetros do modelo (dados de treino) e o restante dos subconjuntos (dados de validação ou de

teste) são empregados na validação do modelo.

Podem ser utilizados diferentes métodos para o particionamento dos dados. Mas em geral, a

precisão final do modelo estimado é obtido por:

AcW = 1v1ϵZ[,Z<[\3E=

= 1v1(y3 − y53)\3E=

Equação I.10

onde ^ é o número de dados de validação e _`a, 5̀a é o resíduo dado pela diferença entre o valor real

da saída b e o valor predito. Assim, é possível deduzir de forma quantitativa a capacidade de

generalização do modelo.

4.4 - Perceptrão

As redes neuronais do tipo perceptrão consistem basicamente em modelos como o

apresentado na Figura I.36. O perceptrão é um tipo de rede apenas com uma camada, sendo que

neste caso, geralmente, a rede é constituída por um único neurónio e um polarizador, com pesos

ajustáveis. Possui o tipo de arquitectura mais simples de rede neuronal capaz de classificar padrões

linearmente separáveis.

Figura I.36 – Representação do modelo do tipo Perceptrão.

(Adaptado de Demuth et al., 2014)

O algoritmo de treino do perceptrão foi o primeiro modelo de treino supervisionado, embora

alguns perceptrões fossem auto-organizados. Este modelo é também caracterizado por ter como

função de activação uma função em degrau (discutida na secção 4.2.4.2), com valores de

entrada/saída binários [-1,+1]. (Vellasco, 2007)

Se os padrões de entrada forem linearmente separáveis, o algoritmo de treino do perceptrão

possui convergência garantida, ou seja, é capaz de encontrar um conjunto de pesos que classifica

38

correctamente os dados. Isto porque, uma rede neuronal sem camada oculta só consegue classificar

padrões que sejam linearmente separáveis.

Figura I.37 - Representação de classes não linearmente separáveis e linearmente

separáveis, respectivamente. (Adaptado de Haykin, 1999)

Para que este tipo de rede funcione correctamente, as duas classes C1 e C2 (Figura I.37)

devem ser linearmente separáveis, isto é, os padrões a serem classificados devem estar

suficientemente distantes entre si para assegurar que a superfície de decisão se baseia num

hiperplano. Se as duas classes se aproximarem demais, como se pode ver na Figura I.37,

tornar-se-ão não linearmente separáveis, uma situação que está além da capacidade do neurónio.

(Vellasco, 2007)

4.5 - PMC (redes de múltiplas camadas) e o algoritmo de retropropagação As redes em camada, tal como já foi visto, são tipicamente constituídas por uma camada de

entrada, uma ou mais camadas ocultas e uma camada de saída. O sinal propaga-se sempre para a

frente, camada por camada. Este tipo de rede constitue o modelo de redes neuronais mais popular na

literatura.

Figura I.38 - Representação do modelo do tipo Perceptrão de Múltiplas Camadas.


39

Uma rede do tipo PMC possui três características essenciais:

1) Os neurónios das camadas intermédias possuem uma função de activação não-linear. A não

linearidade é do tipo suave, ou seja, diferenciável em qualquer ponto. Um exemplo de funções

com estas características são as função de transferência do tipo sigmoidal, como é o caso da

função logística ou da tangente hiperbólica. A não-linearidade é importante, caso contrário, a

relação de entrada-saída da rede acabaria por ser reduzida à forma existente numa rede de

camada única.

2) A rede possui uma ou mais camadas de neurónios ocultos que não são parte nem da entrada,

nem da saída da rede. Estes neurónios da camada oculta capacitam a rede a aprender tarefas

complexas, extraíndo progressivamente as características mais significativas dos padrões de

entrada.

3) A rede exibe um alto grau de conectividade determinado pelos seus pesos sinápticos. Uma

modificação na conectividade da rede requer modificações nos pesos.

Trata-se, portanto, de uma generalização do perceptrão simples estudado anteriormente. O

treino deste tipo de rede foi originalmente feito com um algoritmo de retropropagação do erro,

conhecido como backpropagation. (Vellasco, 2007)

O algoritmo de retropropagação consiste numa propagação positiva do sinal funcional e numa

retropropagação do erro. Quando se dá a propagação positiva do sinal funcional, todos os pesos

sinápticos da rede são mantidos fixos e o seu efeito propaga-se através da rede, camada por

camada, até produzir o conjunto de saída (resposta real da rede). Quando se dá a retropropagação

do erro, os pesos sinápticos da rede são ajustados de acordo com uma regra de correcção de erro e

o sinal é propagado para trás através da rede.

Ou seja, este algoritmo consiste em calcular o erro na saída da rede e retropropagá-lo pela

rede, modificando os pesos para minimizar o erro da próxima saída. Sendo que o sinal de erro é

propagado em sentido oposto ao de propagação do sinal funcional, por isso o nome de

retropropagação do erro.

Figura I.39 - Representação da propagação de sinais quando utilizado o algoritmo de retropropagação de erro. (Adaptado de Castro & Zuben)

O algoritmo de retropropagação do erro é o algoritmo de treino supervisionado mais

conhecido e utilizado. É de referir que se baseia no método do gradiente descendente cuja ideia

40

central é fazer modificações proporcionais ao gradiente do erro e cuja direcção do gradiente é onde o

erro é minimizado. (Castro & Zuben)

Na saída da rede como existe uma resposta desejável, existe um erro. Mas na camada oculta

o erro não tem um sentido físico. Portanto, os neurónios de saída são as únicas unidades visíveis

para as quais o sinal de erro pode ser directamente calculado. Dessa forma, o algoritmo oferece um

tratamento diferenciado aos neurónios da camada oculta e da camada de saída. O objetivo é

minimizar o erro médio. Para isso são feitas modificações nos pesos padrão a padrão. (Vellasco,

2007)

4.6 - Neural Network Toolbox 4.6.1 – Selecção do software

As Redes Neuronais Artificiais são bastante versáteis e, como tal, escolher a rede certa para

o problema em estudo, tendo em conta todas as suas características, é o grande objectivo e desafio

deste trabalho.

Inicialmente é essencial escolher o software a utilizar. Analisa-se o tipo de programas

existentes e escolhe-se o mais adequado, tendo em conta a disponibilidade dos mesmos. O

programa seleccionado foi o Matlab com a interface Neural Network Toolbox™, uma vez que esta é

disponibilizada pelo Instituto Superior Técnico.

É necessário começar pela definição da arquitectura da rede, posteriormente a escolha do

algoritmo de treino, a selecção dos grupos de treino, validação e teste e por fim, a avaliação do

modelo.

4.6.2 - Definição da arquitectura da rede As primeiras características da rede a serem definidas tem de ser o número de inputs e

outputs, as funções de activação e o número de nós na camada oculta.

4.6.3 – Algoritmos de treino

O processo de treino de uma rede neuronal envolve o ajuste dos valores dos pesos e do

polarizador da rede para optimizar o seu desempenho, conforme definido pela função de

desempenho da rede net.performFcn. A função de desempenho padrão para redes com

retropropagação é o erro quadrático médio (mse), entre a saída da rede, a e o valor desejado na

saída, t. (Demuth, H. et al. 2014) O qual é definido da seguinte forma:

; = cJ� = 1d1(��)�e�E=

= 1d1(?� − f�)�e�E=

Equação I.11

Para o processo de treino, uma análise indispensável é a escolha do algoritmo de treino. As

redes do tipo PMC funcionam com algoritmos de retropropagação.

41

A lista dos algoritmos de treino que estão disponíveis no Neural Network Toolbox, é a

seguinte:

Tabela I.2 – Lista dos algoritmos de treino disponíveis na ferramenta Neural Network Toolbox.

(Demuth, H. et al. 2014)

Função Algoritmo

trainlm Levenberg-Marquardt

trainbr Bayesian Regularization

trainbfg BFGS Quasi-Newton

trainrp Resilient Backpropagation

trainscg Scaled Conjugate Gradient

traincgb Conjugate Gradient with Powell/Beale Restarts

traincgf Fletcher-Powell Conjugate Gradient

traincgp Polak-Ribiére Conjugate Gradient

trainoss One Step Secant

traingdx Variable Learning Rate Gradient Descent

traingdm Gradient Descent with Momentum

traingd Gradient Descent

Da lista apresentada, sabe-se que a função de treino mais rápida é geralmente a trainlm.

Embora o método semi-Newton, trainbfg, também seja bastante rápido. Ambos os métodos

tendem a ser menos eficientes para grandes redes (com milhares de pesos), uma vez que requerem

mais memória e mais tempo de cálculo para estes casos. É ainda de considerar que, o algoritmo

trainlm tem melhor desempenho para problemas de ajuste (regressão não linear) do que em

problemas de reconhecimento de padrões (Demuth, H. et al. 2014).

Ao treinar grandes redes, e quando o objectivo é treinar redes de reconhecimento de

padrões, trainscg e trainrp são boas escolhas. Embora os seus requisitos de memória sejam

relativamente pequenos, são muito mais rápidos do que os algoritmos de gradiente padrão.

O algoritmo de treino de Levenberg-Marquardt é altamente recomendado como uma primeira

escolha para algoritmo supervisionado, embora exija mais memória do que os restantes algoritmos.


Os parâmetros de treino do algoritmo trainlm, correspondem aos seguintes valores padrão:

Tabela I.3 - Parâmetros de treino para o algoritmo Levenberg-Marquardt. (Demuth, H. et al. 2014)

net.trainParam.epochs 1000 Maximum number of epochs to train

net.trainParam.goal 0 Performance goal

net.trainParam.max_fail 6 Maximum validation failures

net.trainParam.min_grad 1e-7 Minimum performance gradient

net.trainParam.mu 0,001 Initial mu

net.trainParam.mu_dec 0,1 mu decrease factor

42

net.trainParam.mu_inc 10 mu increase factor

net.trainParam.mu_max 1e10 Maximum mu

net.trainParam.show 25 Epochs between displays (NaN for no displays)

net.trainParam.showCommandLine 0 Generate command-line output

net.trainParam.showWindow 1 Show training GUI

net.trainParam.time inf Maximum time to train in seconds

Durante o treino, o progresso é constantemente actualizado na janela de treino (Figura I.40).

O gradiente irá tornar-se muito pequeno com o treino até atingir um valor mínimo do desempenho. Se

a magnitude do gradiente é inferior a 1e-7, o treino irá parar. Também o número de verificações de

validação é um critério de paragem de treino. O número de verificações de validação representa o

número de iterações sucessivas em que o desempenho de validação deixa de diminuir e se esse

número chega a 6 (o valor padrão), o treino vai parar.

Figura I.40 – Janela de treino. (Demuth, H. et al. 2014)

Para além dos dois critérios de paragem de treino já referidos, existem outros, como o tempo

de treino que, quando atinge o valor máximo, faz o treino parar. O desempenho da rede também

funciona como um factor de paragem de treino, quando se atinge o valor mínimo do erro quadrático

médio, mse.

43

4.6.4 - Selecção dos grupos de treino, validação e teste Para a implementação do método de validação cruzada é necessário que se divida o conjunto

de dados em 3 subconjuntos: treino, validação e teste.

O subconjunto de treino é utilizado para calcular o gradiente e para actualizar os pesos

sinápticos e o polarizador no interior da rede. (Demuth, H. et al. 2014)

No subconjunto de validação o objectivo é evitar que a rede seja sobretreinada. Sendo que o

erro da validação é monitorizado durante o processo de treino e vai, normalmente, dimuindo durante

a fase inicial de treino, assim como o erro de treino. Quando a rede começa a ficar sobretreinada, o

erro de validação começa a subir. É importante referir que os pesos da rede e do polarizador são

guardados quado o erro do conjunto de validação é mínimo. (Demuth, H. et al. 2014)

Quanto ao subconjunto de teste, este avalia o desempenho da rede treinada. O erro do

conjunto de teste não é utilizado durante o treino, mas pode ser utilizado para comparar diferentes

modelos. (Demuth, H. et al. 2014)

4.6.5 - Avaliação do modelo Para determinar se o modelo de rede construído é adequado ao problema, deve analisar-se o

gráfico de desempenho, que mostra o valor da função de desempenho (EQM, neste caso) versus o

número de iteração (Figura I.41). Neste gráfico pode analisar-se tanto o desempenho da validação,

como do treino e do teste.

Figura I.41 – Gráfico de desempenho, obtido através da ferramenta Neural Network Toolbox.


O comando tr.best_epoch indica a iteração em que o desempenho de validação atinge

um mínimo, sendo que depois ainda se seguem as verificações de validação. É de referir que, caso a

curva de teste aumente significativamente antes da curva de validação aumentar, então é possível

que alguns superajustes possam ter ocorrido.

44

O próximo passo na avaliação da rede é o de criar um gráfico de regressão, que mostra a

relação entre os outputs da rede e os alvos. Se o treino fosse perfeito, os outputs da rede e os alvos

seriam exactamente iguais, o que na prática é bastante raro.

Figura I.42 - Gráfico com as várias regressões (Treino, Validação e Teste), obtido através

da ferramenta Neural Network Toolbox. (Demuth, H. et al. 2014)

Os três gráficos representam os dados de treino, validação e teste. A linha a tracejado

representa em cada parcela o resultado ideal: outputs = alvos. A linha sólida representa a melhor

linha de regressão de ajuste linear entre os resultados e os valores alvo. O valor de R é uma

indicação da relação entre os outputs e os alvos. Se R = 1, isso indica que há uma relação linear

exacta entre os outputs e os valores alvo. Se R é próximo de zero, então não há uma relação linear

entre os dados. (Demuth, H. et al. 2014)

Depois da rede ser treinada e validada, pode ser utilizada para calcular a resposta a qualquer

entrada de rede, com o comando: a = net(Inputs).

É importante destacar que, cada vez que uma rede neuronal é treinada pode resultar numa

solução diferente, devido a diferentes pesos e polerizadores iniciais e também devido à diferente

divisão do conjunto de dados em treino, validação e teste. Como resultado, diferentes redes

neuronais treinadas no mesmo problema podem dar resultados diferentes para a mesma entrada.

Para assegurar que se obtém uma rede com uma boa precisão é necessário treinar a rede várias

vezes. (Demuth, H. et al. 2014)

45

II - Caso de Estudo

1 Enquadramento do estudo Os sistemas de tratamento e abastecimento de água necessitam de grandes quantidades de

energia e, como tal, a redução no consumo de energia é um dos factores mais desejados pelos seus

gestores. Com o objectivo de melhorar a eficiência energética da ETAR e a par da importância dada

às questões ambientais e à preservação dos recursos naturais, as empresas deste sector

preocupam-se em assegurar o seu desenvolvimento sustentável, através da redução dos custos de

exploração através da optimização de processos de tratamento.

O recurso à utilização de fontes de energia renováveis é uma solução ideal para reduzir a

dependência dos combustíveis fósseis, que tem vindo a aumentar, impulsionado pela crescente

preocupação com os efeitos do aquecimento global e do consumo excessivo de combustíveis fósseis.

No caso da ETAR de Vila Franca de Xira, essa preocupação tem-se dirigido para a optimização do

funcionamento da etapa de Digestão Anaeróbia e para a gestão do biogás gerado.

Como tal, este estudo baseou-se na análise e tratamento de dados da Digestão Anaeróbia da

ETAR, para gestão de processo com recurso a redes neuronais artificiais. Com o objectivo de

relacionar algumas variáveis explicativas com a produção de biogás, para auxiliar a tomada de

decisões no processo de produção, com vista à optimização da produção de biogás.

2 A ETAR de Vila Franca de Xira 2.1 – Descrição da ETAR

O subsistema de Vila Franca de Xira é constituído pela ETAR e por 9 estações elevatórias,

de 25 Km de intercetores e emissários e destina-se a tratar o efluente proveniente das localidades de

Vila Franca de Xira, Castanheira do Ribatejo e Povos. A ETAR está dimensionada para um caudal de

576 L/s, e um caudal médio diário de 15936 m3/dia.

O efluente chega à ETAR através de condutas elevatórias, sofre uma gradagem mecânica do

tipo step screen e segue para os órgãos de patente Degrémont “SEDIPAC 3D”, onde se dá o

desarenamento, desengorduramento e decantação lamelar; sendo que, à entrada deste órgão é

adicionado cloreto férrico que funciona como coagulante.

A fase líquida segue para os reactores aeróbios de biomassa dispersa (de média carga) e de

seguida para os decantadores secundários rectangulares, onde se dá a clarificação e recirculação do

efluente. Após este tratamento, a descarga do efluente será efectuada no rio Tejo através de um

emissário final, sendo que uma parte é armazenada numa cisterna, após passar por um filtro de

areias, para posterior utilização na ETAR.

46

As lamas primárias, do SEDIPAC, são encaminhadas para o espessador gravítico, circular e

em betão, e são depois depositadas no tanque de lamas mistas, ao qual se juntam também as lamas

secundárias, depois de passarem pelo espessador mecânico constituído por duas grelhas mecânicas

de espessamento.

Do tanque de lamas mistas, as lamas são alimentadas ao digestor anaeróbio em betão, com

um volume de 1800 m3 e agitação por gás, através da recirculação e compressão do biogás

produzido. As lamas mistas são recirculadas e passam no permutador de calor para manter a

temperatura aproximadamente constante. As lamas digeridas seguem para as centrífugas, para

desidratação e é adicionada cal apagada para estabilização das mesmas. Depois de desidratadas

são armazenadas num silo de betão com 90 m3 e posteriormente expedidas para fertilizante na

agricultura.

O digestor anaeróbio encontra-se em equilíbrio de pressão com o gasómetro esférico. O

biogás produzido, após passar pelo purificador para eliminação do gás sulfídrico, vai para a caldeira

ou para o cogerador, que permite produzir 178 kWh de energia eléctrica e reduzir os custos

energéticos da instalação. Pode também seguir para a tocha em caso de impossibilidade de

utilização.

Este processo encontra-se representado na Figura II.1, no qual as linhas a azul

correspondem à linha de tratamento da fase líquida, as linhas a laranja à linha de tratamento de

lamas e as linhas a preto correspondem à produção e circulação de biogás.

47

Figura II.1 - Diagrama quantitativo da ETAR de Vila Franca de Xira

48

2.2 - Digestão anaeróbia e produção de biogás 2.2.1 – Processo de digestão anaeróbia

As lamas tratadas no digestor são provenientes do tanque de lamas mistas, as quais são

enviadas por dois grupos electrobomba de cavidade progressiva. O digestor anaeróbio tem uma

capacidade de 1800 m3 e é um tanque cilíndrico, de fundo cónico com cobertura fixa.

Tendo em conta o volume de 1800 m3 do digestor, é possível assegurar um volume de

armazenamento de lamas correspondente a 2 dias de produção normal, para fazer face a eventuais

emergências em que não seja possível a desidratação, para além de servir regularmente de pulmão à

desidratação, que está prevista para trabalhar 6 dias por semana.

A mistura das lamas no interior do digestor é um dos pontos fundamentais para assegurar

uma boa digestão das mesmas. Neste caso é efectuada através de uma injecção central de gás, que

apresenta uma grande taxa de circulação e evita a formação de flotantes na superfície do digestor.

Uma outra característica, também bastante importante, é a necessidade de se manter as

lamas a uma temperatura de 35ºC, para assegurar uma boa digestão. O sistema de aquecimento

funciona por recirculação das lamas em permutadores de calor do tipo tubular, num circuito externo.

Figura II.2 - Esquema do circuito de lamas.

(SIMTEJO)

No circuito de lamas, as lamas são aspiradas na base dos digestores, para recirculação até à

cuba de recepção das lamas frescas colocada sobre as cúpulas dos órgãos. Enquanto que no circuito

49

de água quente, a alimentação de água quente é efectuada a partir de uma caldeira que funciona a

biogás, ou alternativamente, a partir de um combustível alternativo, gás propano.

Relativamente ao circuito de gás, o digestor anaeróbio encontra-se em equilíbrio de pressão

com o gasómetro esférico de dupla membrana, com um volume de 570 m3, graças a uma rede

equipada com válvulas de pressão-depressão, corta-chamas e potes de purga.

A partir do gasómetro, o biogás produzido pode, então, alimentar três utilizadores: a caldeira

de queimador duplo capaz de fornecer a totalidade das calorias necessárias à digestão anaeróbia e

ao aquecimento; o grupo de cogeração; e o excesso é queimado numa tocha com um caudal nominal

de 150 Nm3/h.

É necessário ter em conta que as necessidades de calor da digestão correspondem à soma

das necessidades de reaquecimento das lamas que entram e das compensações das perdas por

permuta com o exterior ao nível do digestor. Quanto à caldeira, esta possui uma capacidade de 185

th/h, que permite também o aquecimento no Inverno.

2.2.2 - Recuperação energética a partir do biogás produzido a partir de cogeração

A partir do biogás, é produzida o máximo de energia eléctrica e a energia térmica necessária

para assegurar o aquecimento do digestor.

A partir do gasómetro, o biogás produzido pode alimentar três unidades:

- em primeiro lugar, após a passagem por uma torre de eliminação de H2S por óxido de ferro, um

moto-alternador que produz uma quantidade de energia mais ou menos constante, de 161 kW, à

saída do alternador. Quando há recuperação do calor dissipado no bloco e gases de escape, 261kW

que asseguram o reaquecimento dos digestores. Caso esta quantidade de calor produzido seja

superior às necessidades, o excesso é dissipado por intermédio de um aerorefrigerador.

- em seguida, para as necessidades do arranque da digestão, em socorro da cogeração e,

igualmente, durante as paragens do moto-alternador para manutenção. Existe uma caldeira de

queimador duplo, que é capaz de fornecer a totalidade das calorias necessárias à digestão anaeróbia

e que, neste caso, serve apenas para o arranque.

- finalmente, em caso de impossibilidade de utilização, uma tocha com um caudal nominal de

150 Nm3/h, que pode, em último caso, ser utilizada. Foi previsto para o grupo de cogeração a

possibilidade de queima de um combustível alternativo, neste caso, o gás natural, devido aos

menores custos de exploração.

Uma vez que, após o período de arranque, a digestão anaeróbia funciona de forma

constante, não é necessária nenhuma quantidade de biogás no circuito da caldeira. É também de

referir que, desde o arranque da digestão, são quase inexistentes as vezes em que foi necessária a

utilização da tocha. Portanto, considera-se que todo o biogás produzido é convertido em energia

eléctrica, razão pela qual se decidiu modelar a produção de energia, em kWh/dia, em substituição da

quantidade de biogás.

51

III - Materiais e Métodos Neste capítulo descrevem-se os materiais e métodos utilizados para o tratamento de dados e

para o desenvolvimento do modelo matemático com base na análise dos dados, sendo que as

amostras analisadas foram recolhidas de Janeiro de 2013 até Fevereiro de 2014, que corresponde a

56 conjuntos de dados e, posteriormente até Junho de 2014, fazendo um total de 72 conjuntos de

dados. Cada conjunto de dados representa a média dos valores medidos, para cada uma das

variáveis, relativos a uma semana.

1 Dados disponibilizados

Os dados disponibilizados para este estudo foram: os sólidos totais (g/L) e os sólidos

voláteis (g/L), tanto nas lamas mistas como nas lamas digeridas e a respectiva percentagem de

sólidos voláteis nos sólidos totais; o caudal médio (m3/dia) de lamas mistas; a quantidade de matéria

orgânica alimentada ao digestor (kg MO/dia) e a carga orgânica volumétrica (kg/dia.m3) nas lamas

mistas; o pH, que é medido na recirculação das lamas; o caudal médio (m3/dia) de lamas digeridas; a

quantidade de matéria orgânica retirada ao digestor (kg MO/dia); o tempo de retenção (dias); a

alcalinidade (mg/L) e os ácidos gordos voláteis (mg/L) na lama digerida, bem como a respectiva razão

de ácidos gordos voláteis sobre a alcalinidade. Por último, a energia média produzida por dia, a partir

do biogás, que corresponde à variável que se pretende prever.

Nas análises de dados efectuadas, as lamas mistas aparecerão com a sigla LM e as lamas

digeridas com a sigla LD. Os sólidos totais como ST e os sólidos voláteis como SV. A alcalinidade

representada por ALC e os ácidos gordos voláteis por AGV. A energia média produzida aparecerá

como kWh/dia.

Figura III.1- Representação dos dados disponibilizados.

É ainda de referir que para a análise de dados, inicialmente foram utilizadas apenas as

variáveis medidas directamente, ou que representam relações directas, e não as que resultam de

cálculos. Portanto, foram utilizadas as seguintes variáveis: ST LM, SV LM, SV/ST LM, Q LM, pH,

ALC, AGV, AGV/ALC, ST LD, SV LD, SV/ST LD, Q LD e kWh/dia.

52

Os pontos onde foram recolhidas as amostras (A) ou efectuadas as medições (M)

encontram-se representados no esquema seguinte (Figura III.2).

Figura III.2 - Diagrama das operações unitárias da ETAR em estudo.

53

2 Métodos de tratamento de dados Este estudo engloba a construção e análise de histogramas, mapas de correlações, análise

de componentes principais, análise de mínimos quadrados parciais e, por fim, a construção da rede

neuronal mais adequada ao problema em estudo.

Figura III.3 – Procedimentos para a construção do modelo da Rede Neuronal Artificial.

2.1 – Histogramas

Começou-se por construir histogramas para cada uma das variáveis possíveis de introduzir

no modelo, com o objectivo de perceber se os dados disponibilizados continham alguma

sazonalidade aparente relativamente às estações do ano (Verão e Inverno).

Neste caso de estudo, foram utilizados histogramas de frequência absoluta, com a respectiva

função da distribuição normal (Equação I.1).

54

2.2 – Mapa de correlações O passo seguinte passou por se construir um mapa de correlações, inicialmente sem as

variáveis Carga ST e Carga SV e posteriormente, com todas as variáveis. Com o objectico de

compreender melhor as relações entre cada uma das variáveis.

O coeficiente utilizado foi o coeficiente de correlação de Pearson (Equação I.2), o qual é

obtido dividindo a covariância de duas variáveis pelo produto dos seus desvios padrão.

2.3 – Análise multivariada de dados Na análise multivariada de dados tem-se a análise correspondente ao PCA e ao PLS. Estas

análises foram efectuadas no software SIMCA, numa versão de estudante (DEMO). No PCA

analisa-se o número de componentes principais a utilizar na construção do modelo, o score plot e o

loading plot. Com o objectivo de verificar se existe um pequeno número de componentes principais

que capture o máximo de variabilidade total associada ao conjunto de dados original, que preserve o

máximo de informação contida nos dados, quanto possível.

No PLS, após a selecção das variáveis no modelo de PCA e no Mapa de Correlações,

analisa-se o número de componentes principais, a importância de cada variável (VIP), o ajuste dos

dados de calibração e o ajuste dos dados de validação. Sendo que os dados de calibração

correspondem a 2/3 e os de validação a 1/3 do total dos dados.

2.4 - Neural Network Toolbox

As características da rede desenvolvida são as apresentadas de seguida. Sendo que o tipo

de rede utilizada foi o Perceptrão de Múltiplas Camadas, com algoritmo de retropropagação do erro.

2.4.1 - Definição da arquitectura da rede As primeiras características da rede a serem definidas foram o número de inputs e outputs, as

funções de activação e o número de nós na camada oculta.

2.4.1.1 - Inputs e Outputs A escolha do número de inputs depende essencialmente das particularidades do problema

que se analisa, tal como acontece com o número de outputs.

Sabe-se que demasiadas variáveis de entrada introduzem ruído na modelação do sistema.

Então, neste caso, o número de inputs foi estudado e ajustado através da análise multivariada de

dados, tendo sido seleccionadas as variáveis que tinham uma maior contribuição para o modelo.

Quanto ao número de outputs, este encontra-se bem definido e corresponde apenas à variável que

se pretende prever, kWh/dia.

2.4.1.2 - Funções de activação Normalmente, numa rede do tipo PMC, as funções de activação são escolhidas para cada

uma das camadas ocultas e para a camada de output. Sabe-se que a não-linearidade é importante, e

por isso, é imprescindível a utilização de funções de activação não-lineares nas camadas ocultas.

55

As opções existentes nesta toolbox são a função linear e as funções do tipo sigmóide: a

função logística e a função tangente hiperbólica. Como tal, esta foi uma das características em

estudo. Foram construídos dois tipos de rede, uma com a função logística na camada oculta e a

função linear na camada de output e outra, com a função tangente hiperbólica na camada oculta e a

função linear na camada de output. Estes dois modelos de rede distintos foram comparados através

da função de desempenho da rede (Equação I.11).

Na camada de output é sempre utilizada a função linear, para que não ocorram efeitos de

saturação das funções sigmóides.

2.4.1.3 - Número de nós na camada oculta O número de neurónios na camada oculta é um factor determinante na construção do

modelo. Sabe-se que, quanto mais neurónios tem uma RNA, mais potencial tem para armazenar a

informação contida nos dados, englobando o ruído. Por isso, a selecção do número de neurónios

adequado ao problema deve ter em conta que para um número demasiado reduzido, a função não é

convenientemente aproximada e para um número demasiado grande é possível que se perca a

capacidade de generalização.

A escolha foi proceder à experimentação com diferentes números de neurónios e comparar

os resultados obtidos, também através da função de desempenho da rede (Equação I.11). É

importante referir que, para o mesmo número de neurónios foram testadas os dois tipos de rede,

consoante a função de activação na camada oculta.

2.4.2 - Escolha do algoritmo de treino

Por ser o mais recomendado para treinar redes neurais feedforward de tamanho médio (até

várias centenas de pesos), o algoritmo de treino de Levenberg-Marquardt foi o tipo de algoritmo

escolhido.

O treino da rede ocorre de acordo com os parâmetros de treino do algoritmo trainlm, que

não foram alterados ao longo do estudo (Error! Reference source not found.).

2.4.3 - Selecção dos grupos de treino, validação e teste

Na ferramenta Neural Network Toolbox, está pré-definida uma divisão de 70% para o

subconjunto de treino e de 15% para cada um dos restantes subconjuntos, validação e teste. Sendo

que a selecção dos dados ocorre de forma aleatória.

2.4.4 - Avaliação do modelo Após a construção do modelo é necessário avaliar se o modelo construído foi o mais

adequado. Esta análise é feita através do gráfico de desempenho, que mostra o valor do EQM versus

o número de iteração (Figura I.41) e pode analisar-se tanto o desempenho da validação, como do

treino e do teste.

56

Uma outra forma de avaliar a rede desenvolvida é através dos gráficos de regressão, ao

analisar a relação entre os outputs da rede e os alvos (Figura I.42).

Por último, analisa-se os resíduos da variável prevista em relação aos valores experimentais.

Apesar de terem sido descritas as várias fases para a construção do modelo da rede

neuronal, na Figura III.4 apresenta-se um fluxograma para clarificar a metodologia proposta.

Figura III.4 - Fluxograma do treino da rede neural artificial. (Adaptado de Felipe, F.K., 2013)

57

IV - Resultados e Discussão 1 Histogramas

De acordo com o procedimento descrito na Secção III - 2.1 foram construídos histogramas, um

para cada uma das variáveis, com o objectivo de perceber se existe algum tipo de divisão nos dados.

Figura IV.1 - Histograma referente à distribuição dos dados para a variável kWh/dia.

No histograma apresentado, a linha a verde representa a densidade da função de distribuição

normal (Equação I.1), cuja escala se encontra no eixo vertical esquerdo. As barras de frequência

absoluta estão divididas, para cada classe, em Verão (a verde) e Inverno (a azul). Sendo que se

considerou como Verão os meses de Junho a Setembro e como Inverno os meses de Outubro a

Maio, inclusive. Foi utilizado um conjunto de 56 dados compreendidos entre Janeiro de 2013 e

Fevereiro de 2014.

A conclusão que se retirou dos vários histogramas analisados (Anexo II), foi o facto de não

existir uma separação marcada entre Verão e Inverno para a maioria das variáveis e, como tal, foi

decidido não repartir o conjunto de dados.

2 Mapa de Correlações Considerando-se o procedimento descrito na Secção III - 2.2, o mapa de correlações foi

inicialmente construído sem as variáveis Carga ST e Carga SV. Existem várias relações entre

variáveis que se podem destacar, que são analisadas de acordo com o que é descrito na

Secção I - 3.2. Como é o caso da relação AGV/ALC vs AGV que apresenta uma relação muito mais

forte do que AGV/ALC vs ALC, sugerindo que há uma maior variabilidade na variável AGV do que na

variável ALC. Quanto ao pH pode observar-se que este não varia significativamente, o que está de

acordo com o facto de manter uma gama bastante estreita ao longo do processo, sendo que AGV e

ALC não estão a ter interferência na variável pH, pode-se conluir que este é um processo robusto.

0,000

0,000

0,000

0,001

0,001

0,001

0,001

0,001

0,002

0,002

0,002

600 800 1000 1200 1400 1600 1800 2000

0

5

10

15

20

25

De

nsi

da

de

Energia produzida (kWh/dia)

Fre

q A

bso

luta

Inverno

Verão

Densidade

58

Em relação aos caudias, verifica-se que ambos apresentam uma baixa correlação com a

variável kWh/dia e baixa correlação entre si. O que indica que variações de Q LM não vão influenciar

Q LD. O que se deve ao facto de haver um elevado tempo de retenção (que varia entre 13 e 38 dias)

e, ao haver excesso de tempo de retenção, Q LD não vai influenciar a produção.

É ainda de referir que as variáveis que apresentam uma correlação mais forte entre si são:

ST LM vs SV LM, com uma correlação de 0,952; Carga SV vs Carga ST, com uma correlação de

0,966; AGV LD vs AGV/ALC com uma correlação de 0,920; e ST LD vs SV LD, com uma correlação

de 0,938.

As relações mais fortes com kWh/dia são referentes às variáveis ST LM, SV LM, Q LM, ALC,

ST LD e SV LD. Embora todas estas correlações sejam relativamente baixas, isto é, inferiores a 0,5.

Figura IV.2 - Mapa de correlções referente às variáveis em estudo.

Apesar de Q LM não ter muita influência na variável kWh/dia, é uma das que apresenta uma

correlação mais forte e portanto, decidiu-se introduzir as variáveis Carga SV e Carga ST. Uma vez

que as variáveis são agrupadas por combinações lineares, a melhor forma de criar uma correlação

entre Q LM e ST LM ou SV LM por multiplicação, foi a introdução destas duas novas variáveis.

:fghfB' = B'iA × jiA Equação IV.1 :fghfBk = BkiA × jiA Equação IV.2

Com isto, pode concluir-se que estas duas novas variáveis, Carga SV e Carga ST, passaram

a ser as variáveis com a relação mais forte com a variável kWh/dia. Pode ainda verificar-se que a

variável Carga SV apresenta uma relação mais forte com Q LM do que com SV LM, enquanto que a

variável Carga ST apresenta uma relação mais forte com ST LM do que com Q LM.

Conclusão, as variáveis com maior correlação com a variável kWh/dia são: ST LM, SV LM,

Q LM, Carga SV, Carga ST, ALC, ST LD e SV LD.

3 Análise de Componentes Principais Conforme descrito na Secção I - 3.3.1, o primeiro passo para começar esta análise é definir o

número de componentes principais. O primeiro componente principal tem a maior variância possível,

59

e assim sucessivamente para cada um dos componentes seguintes, como se pode observar na

Figura IV.3.

3.1 – Ajuste do modelo Ao analisar a capacidade de ajuste do modelo, decidiu-se utilizar 3 componentes principais,

uma vez que só a partir deste número é que se consegue representar mais do que 50% da

informação original. Não se justifica a utilização de mais componentes principais pois o modelo

tornar-se-ia cada vez mais complexo.

Figura IV.3 - Capacidade de ajuste do modelo, para cada um dos componentes principais.

3.2 – Score plot

Os scores fornecem a composição dos componentes principais em relação às amostras,

sendo que os dados representados a azul correspondem ao Inverno e os dados representados a

laranja correspondem ao Verão (Figura IV.4).

Figura IV.4 - Score plot correspondente aos dados em análise.

A principal conclusão a retirar é que existe uma sazonalidade associada apenas à

variável t[1]. Nas restantes variáveis, t[2] e t[3] essa sazonalidade não está marcada (Anexo III-1,

Figura 15 e Figura 16).

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

Comp [1] Comp [2] Comp [3] Comp [4] Comp [5]

R2X

R2X (cum)

R2X = 0,304R2X (cum) = 0,304

R2X = 0,143R2X (cum) = 0,447

R2X = 0,125R2X (cum) = 0,572

R2X = 0,098R2X (cum) = 0,67

R2X = 0,09R2X (cum) = 0,76

60

3.3 – Loading plot Os loadings fornecem a composição dos componentes principais em relação às variáveis. O

objectivo é seleccionar as variáveis que têm uma maior relação com a variável kWh/dia e comparar

os resultados com os obtidos no Mapa de Correlações (Figura IV.2).

Figura IV.5 - Loading plot correspondente aos dados em análise.

A principal conclusão que se pode retirar é que as variáveis Carga SV e Carga ST são

aquelas que apresentam uma maior correlação com a variável kWh/dia. No entanto, também as

variáveis ST LM, SV LM, ALC, ST LD e SV LD se encontram positivamente correlacionadas com

kWh/dia. Embora a diferença não seja muito significativa, Q LM acaba por ter um pouco mais de

influência na variável kWh/dia do que Q LD.

Tinha sido visto que AGV/ALC e AGV tinham uma relação forte entre si e de facto, nesta

análise verifica-se isso, pois essas duas variáveis aparecem com contribuições muito próximas e

pouco correlacionadas com kWh/dia.

Portanto, o componente principal 1 é essencialmente constituído pelas concentrações SV, ST

e ALC, enquanto que o componente 2 é essencialmente constituído por Q LM, Q LD e AGV.

Em primeira análise, as variáveis com maior peso são: Carga SV, Carga ST, SV LM, ST LM,

SV LD, ST LD, ALC e Q LM. Mas, como tinha sido visto no Mapa de Correlações (Figura IV.2), as

correlações entre Carga SV vs Carga ST, SV LM vs ST LM e SV LD vs ST LD são muito próximas

de 1. O que também se verifica no Loading Plot, pois estas variáveis aparecem com contribuições

muito semelhantes entre si. Uma vez que os sólidos totais são mais fáceis de medir que os sólidos

voláteis, decidiu-se prescindir das variáveis correspondentes aos sólidos voláteis. Portanto, as

variáveis seleccionadas para modelar este problema são: Carga ST, ST LM, ST LD, ALC e Q LM.

61

4 Análise de Mínimos Quadrados Parciais 4.1 – Análise do modelo

Seguindo a explicação apresentada na Secção I - 3.3.4, na análise de mínimos quadrados

parciais é necessário escolher as variáveix-X e as variáveis-Y. Neste caso, foram utilizadas como

variáveis-X as anteriormente seleccionadas: Carga ST, ST LM, ST LD, ALC e Q LM. E como

variável-Y a variável que se pretende modelar: kWh/dia.

Figura IV.6 - Capacidade de ajuste e capacidade de previsão para cada um dos componentes principais do modelo.

Ao analisar a capacidade de ajuste (R2X), percebe-se que o Componente 1 é o responsável

pela maior representação dos dados originais, como seria de esperar. Mas, os restantes

componentes têm uma representação bastante baixa e, como tal, a capacidade de ajuste cumulativa

mantém-se quase constante. Quanto à capacidade de previsão (Q2), ao contrário do que seria de

esperar, esta diminui com o aumento do número de componentes.

Decidiu-se construir um modelo com 2 Componentes Principais, uma vez que a capacidade

de previsão diminui, mas pouco significativamente e que a capacidade de ajuste pouco aumenta com

a introdução do terceiro componente. Assim, com 2 componentes, o modelo torna-se mais fácil de

interpretar.

Tanto a capacidade de ajuste, como a capacidade de previsão, apresentam valores um pouco

baixos para um bom modelo, por isso, é espectável que a variável kWh/dia não seja bem prevista

através destas relações lineares.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

Comp [1] Comp [2] Comp [3] Comp [4] Comp [5]

R2X (cum)

Q2 (cum)

R2X (cum) = 0,383Q2 (cum) = 0,207

R2X (cum) = 0,384Q2 (cum) = 0,141

R2X (cum) = 0,385Q2 (cum) = 0,100

R2X (cum) = 0,391Q2 (cum) = 0,091R2X (cum) = 0,352

Q2 (cum) = 0,279

62

Pode avaliar-se, na Figura IV.7, a importância de cada uma das variáveis em relação ao

Componente 1, que é o que apresenta uma maior contribuição para a construção do modelo. Como

se vê, existe uma grande variabilidade na importância das variáveis, pois apesar da variável Carga

ST ser a que tem uma maior contribuição para este componente, não é a única com um valor superior

a 1.

Figura IV.7 - Importância de cada uma das variáveis para a projecção, em relação ao Componente 1.

O passo seguinte é a divisão dos dados em dois conjuntos: calibração e validação. A

calibração corresponde a 2/3, e a validação a 1/3, do conjunto total de dados. Pode ver-se na Figura

IV.8 a distribuição dos dados de calibração (a verde) e de validação (a vermelho), de onde se verifica

que não há nenhuma tendência na selecção dos dados.

Figura IV.8 - Score plot correspondente ao modelo de PLS.A verde estão representados os dados de calibração e a vermelho os de validação.

-0,5

0

0,5

1

1,5

2

Carga ST ALC Q LM ST LM ST LD

VIP

[1

]

Var ID (Primary)

63

4.2 – Calibração A calibração do modelo pode ser avaliada pelo valor do RMSEE (Equação I.9) que, neste

caso, é 189 kWh/dia. Sendo a escala desta variável, aproximadamente, de 800 a 1800 kWh/dia, este

erro corresponde a 18,9%.

Figura IV.9 - Calibração para o modelo de PLS.

Se o modelo tivesse um bom ajuste, na Figura IV.9 os pontos deviam-se distribuir junto à

linha a vermelho, que corresponde ao ajuste perfeito. E na Figura IV.10, as linhas a laranja e a azul

deveriam estar sobrepostas.

Figura IV.10 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à calibração do modelo de PLS.

64

4.3 – Validação

A validação do modelo pode ser avaliada pelo valor de RMSEP, tal como na calibração. Para

este conjunto de dados, esse valor é 158 kWh/dia (Figura IV.11). Que corresponde a um erro de,

aproximadamente, 16%.

Figura IV.11 - Validação para o modelo de PLS.

Também na Figura IV.12 se pode perceber que este modelo não consegue prever bem a

variável kWh/dia, tal como seria de esperar pelos baixos valores de Q2.

Figura IV.12 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à validação do modelo de PLS

Após esta análise, é possível concluir que este modelo de PLS não é o melhor para o caso de

estudo. Para tentar perceber se este mau ajuste se deve ao facto de as estações do ano estarem a

ter interferência no modelo, dividiu-se os dados e foram construídos dois modelos diferentes, um para

65

o Verão e outro para o Inverno (Anexos III-2, Secções 3.1 e 3.2) que têm a desvantagem de conter

muito poucos dados cada. Construiu-se também um modelo univariável, apenas com a relação

Carga ST vs kWh/dia, com o objectivo de perceber se esta relação era melhor que a multivariável

(Anexos III-2, Secção 3.3). Estes resultados estão resumidos na Tabela IV.1.

Tabela IV.1 - Comparação entre as várias regressões.

PLS Multivariável Correlação

univariável Total Verão Inverno

Nº de dados para calibração 37 11 26 37

Nº de dados para validação 19 5 14 19

Nº de componentes principais utilizados 2 2 2 1

RMSE* (kWh/dia) Calibração 189 118 131 219

RMSE* (kWh/dia) Validação 158 98 217 164

* kWh/dia varia, aproximadamente, entre 800 e 1800.

Através destes resultados, percebe-se que as correlações multivariadas baseadas em

combinações lineares não deram origem a resultados muito favoráveis, no entanto melhores que na

correlação univariável. E, portanto, explorar as RNAs, poderá ser uma boa solução permitindo

explorar combinações não lineares.

5 Redes Neuronais Artificiais Como já foi referido, o tipo de rede utilizada foi o Perceptrão de Múltiplas Camadas, com

algoritmo de treino de Levenberg-Marquardt. Foi seguido o procedimento descrito na Secção III – 2.4.

5.1 – 5 inputs e 56 Conjuntos de dados A rede foi construída com 5 inputs: Carga ST, ST LM, ST LD, ALC e Q LM, que foram

seleccionados no Mapa de Correlações e no PCA. Para escolher a melhor rede, isto é, a rede com o

menor erro quadrático médio (mse), variou-se o número de nós na camada oculta e as funções de

activação: função logística (a verde) e função tangente hiperbólica (a azul). Cujos resultados se

encontram na Figura IV.13.

Para cada número de nós na camada oculta foram construídas 10 redes e calculada a

respectiva média dos vários erros quadráticos médios, bem como o desvio-padrão. Estes resultados

encontram-se representados na Figura IV.13 e tabelados no Anexo IV-1 (Figura 32 e Figura 33).

66

Ao observar a Figura IV.13, percebe-se que a melhor rede é constituída por 25 nós na

camada oculta e com a função de activação sigmóide logística.

Figura IV.13 – Variação do erro quadrático médio para cada número de nós na camada oculta e para cada

função de activação, para o caso com 5 inputs e 56 conjuntos de dados.

Entre as 10 redes construídas com 25 nós na camada oculta e com a função de activação

sigmóide logística, seleccionou-se a que tinha um menor erro quadrático médio, correspondente a

2266 (kWh/dia)2 neste caso. Que equivale a um valor de RMSE de 48 kWh/dia, ou seja, 4,5% de erro

para a gama de valores medidos. O resultado obtido através desta rede encontra-se representado na

Figura IV.14 e na Figura IV.15.

Figura IV.14 - Correlação entre os valores da variável kWh/dia experimentais e previstos pela rede, para o caso com 5 inputs e 56 conjuntos de dados.

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

5 10 15 20 25 30

Err

o q

ua

drá

tico

mé

dio

(V

ali

da

ção

)

Nº de nós na camada oculta

FT TANSIG

FT LOGSIG

800

1000

1200

1400

1600

1800

2000

800 1000 1200 1400 1600 1800 2000

kW

h/d

ia (

Exp

)

kWh/dia (Prev)RMSE = 48 kWh/dia

67

Figura IV.15 – Comparação entre os valores da variável kWh/dia experimentais (a azul) e previstos pela rede (a verde), para o caso com 5 inputs e 56 conjuntos de dados.

Com um novo conjunto de 16 dados (de Março a Junho de 2014), foi testada a rede

seleccionada e já construída. Os resultados obtidos encontram-se representados na Figura IV.16 e na

Figura IV.17, nas quais se pode observar que não são os mais favoráveis, com um erro de 32% para

a gama de valores medidos.

Figura IV.16 - Correlação entre os valores da variável kWh/dia experimentais e previstos pela rede, para a

mesma rede, com os 16 novos conjuntos de dados.

700

900

1100

1300

1500

1700

1900

2100k

Wh

/dia

Dia

kWh/dia (Exp)

kWh/dia (Prev)

800

1000

1200

1400

1600

1800

2000

800 1000 1200 1400 1600 1800 2000

kW

h/d

ia (

Exp

)

kWh/dia (Prev)RMSE = 265 kWh/dia

68

Figura IV.17 - Resultado obtido para a mesma rede, com os 16 novos conjuntos de dados. Estando os valores

da variável kWh/dia experimentais representados a azul e os previstos pela rede representados a verde.

Uma das desvantagens da construção de redes neuronais artificiais é o facto de serem

necessários muitos dados e, talvez por isso, este modelo ainda não seja o ideal. Como tal, decidiu-se

construir um novo modelo de rede, mas com um conjunto de 72 dados, compreendidos entre Janeiro

de 2013 e Junho de 2014.

5.2 – 5 inputs e 72 Conjuntos de dados Nesta etapa do estudo foi feita a mesma análise que no caso anterior, apenas mudou o

número de dados disponíveis. Os resultados representados na Figura IV.18, encontram-se tabelados

no Anexo III-2 (Figura 34 e Figura 35).

Figura IV.18 - Variação do erro quadrático médio para cada número de nós na camada oculta e para cada função de activação, para o caso com 5 inputs e 72 conjuntos de dados.

700

900

1100

1300

1500

1700

1900k

Wh

/dia

Dia

kWh/dia (Exp)

kWh/dia (Prev)

0

2000

4000

6000

8000

10000

12000

14000

16000

5 10 15 20 25 30

Err

o q

ua

drá

tico

mé

dio

(V

ali

da

ção

)


FT TANSIG

FT LOGSIG

69

Analisando a Figura IV.18, verifica-se que o melhor modelo de rede também é constituído por

25 nós na camada oculta e com a função de activação sigmóide logística. Entre as 10 redes

construídas (Anexo III-2, Figura 34) foi escolhida a que melhor se ajustou aos dados em análise. A

rede selccionada tem um valor de erro quadrático médio de validação de 745 (kWh/dia)2, que

corresponde a um valor de RMSE de 27 kWh/dia, ou seja, 2,5% de erro. O resultado obtido com esta

rede encontra-se representado na Figura IV.19 e na Figura IV.20.

Figura IV.19 - Correlação entre os valores da variável kWh/dia experimentais e previstos pela rede, para o caso com 5 inputs e 72 conjuntos de dados.

Figura IV.20 - Comparação entre os valores da variável kWh/dia experimentais (a azul) e previstos pela rede (a verde), para o caso com 5 inputs e 72 conjuntos de dados.

800

1000

1200

1400

1600

1800

2000

800 1000 1200 1400 1600 1800 2000

kW

h/d

ia (

Ex

p)

kWh/dia (Prev)

700

900

1100

1300

1500

1700

1900

kW

h/d

ia

Dia

kWh/dia (Exp)

kWh/dia (Prev)

70

O ajuste dos dados relativamente à rede construída, pode também ser analisado para cada

um dos conjuntos de treino, validação e teste na Figura IV.21, Figura IV.22 e Figura IV.23,

respectivamente. Sendo que, no caso do conjunto de treino, o erro corresponde a 10,1%. No de

validação 3,0% e no de teste 5,5%.

Figura IV.21 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos

pela rede (a azul), para o conjunto de treino, para o caso com 5 inputs e 72 conjuntos de dados.

Figura IV.22 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela rede (a verde), para o conjunto de validação, para o caso com 5 inputs e 72 conjuntos de dados.

Figura IV.23 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela rede (a vermelho), para o conjunto de teste, para o caso com 5 inputs e 72 conjuntos de dados.

750

950

1150

1350

1550

1750

1950

Out-2012 Jan-2013 Mai-2013 Ago-2013 Nov-2013 Mar-2014 Jun-2014 Set-2014

kW

h/d

ia

Dia

Treino

kWh/dia (Exp)

kWh/dia (Prev)

RMSE = 109 kWh/dia

750

950

1150

1350

1550

1750

1950


kW

h/d

ia

Dia

Validação

kWh/dia (Exp)kWh/dia (Prev)

RMSE = 27 kWh/dia

750

950

1150

1350

1550

1750

1950

Jan-2013 Mai-2013 Ago-2013 Nov-2013 Mar-2014 Jun-2014 Set-2014

kW

h/d

ia

Dia

Teste

kWh/dia (Exp)

kWh/dia (Prev)

RMSE = 49 kWh/dia

71

Pode ainda analisar-se os resíduos referentes aos dados experimentais e aos dados

previstos pelo modelo da rede construída, na Figura IV.24. Desta análise conclui-se que os dados

estão a ser previstos por excesso para valores mais baixos da variável kWh/dia e em defeito para

valores mais elevados da variável kWh/dia.

Figura IV.24 - Resíduos para os dados obtidos pelo modelo da rede construída, para o caso

com 5 inputs e 72 conjuntos de dados.

5.3 – 3 inputs e 72 Conjuntos de dados Por último, decidiu-se construir também um modelo de rede com apenas 3 inputs. Estes

3 inputs foram escolhidos por ser importante ter apenas dados de entrada no processo de digestão,

como é o caso das variáveis Carga ST, ST LM e Q LM.

A escolha da melhor rede para os dados em análise foi efectuada da mesma forma que para

os modelos anteriores. Os resultados representados na Figura IV.25, encontram-se tabelados no

Anexo III-3 (Figura 36 e Figura 37).

Figura IV.25 - Variação do erro quadrático médio para cada número de nós na camada oculta e para cada

função de activação, para o caso com 3 inputs e 72 conjuntos de dados.

-400

-300

-200

-100

0

100

200

300

400

750 950 1150 1350 1550 1750 1950

kW

h/d

ia (P

rev

) -k

Wh

/dia

(Exp

)

kWh/dia (Exp)

0

5000

10000

15000

20000

25000

5 10 15 20 25 30

Err

o q

ua

drá

tico

mé

dio

(V

ali

da

ção

)


FT TANSIG

FT LOGSIG

72

Através da Figura IV.25, percebe-se que, tal como nos casos anteriores, a rede que melhor

se ajusta aos dados em estudo é a rede com 25 nós na camada oculta e com a função de

transferência sigmóide logística.

Entre as 10 redes construídas com 25 nós na camada oculta (Anexo III, Figura 37),

seleccionou-se a que tinha um menor valor de erro quadrático médio, de 6039 (kWh/dia)2, que

corresponde a um RMSE de 78 kWh/dia, ou seja, 6,6% de erro. O resultado obtido com esta rede

está representado na Figura IV.26 e na Figura IV.27.

Comparando com a rede obtida anteriormente, com os mesmos dados mas com 5 inputs, é

visível que esta rede não se ajusta tão bem aos dados. E portanto, as variáveis retiradas são

importantes para a construção do modelo.

Figura IV.26 - Correlação entre os valores da variável kWh/dia experimentais e previstos pela rede, para o caso

com 3 inputs e 72 conjuntos de dados.

Figura IV.27 - Comparação entre os valores da variável kWh/dia experimentais (a azul) e

previstos pela rede (a verde) , para o caso com 3 inputs e 72 conjuntos de dados.

800

1000

1200

1400

1600

1800

2000

800 1000 1200 1400 1600 1800 2000

kW

h/d

ia (

Exp

)

kWh/dia (Prev)

700

900

1100

1300

1500

1700

1900

2100

kW

h/d

ia

Dia

kWh/dia (Exp)

kWh/dia (Prev)

73

O ajuste dos dados relativamente à rede construída, pode também ser analisado para cada

um dos conjuntos de treino, validação e teste na Figura IV.28, Figura IV.29 e Figura IV.30,

respectivamente. Sendo que, no caso do conjunto de treino, o erro corresponde a 14,6%. No de

validação a 4,3% e no de teste a 6,5%

Figura IV.28 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos

pela rede (a azul), para o conjunto de treino, para o caso com 3 inputs e 72 conjuntos de dados.

Figura IV.29 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela

rede (a verde), para o conjunto de validação, para o caso com 3 inputs e 72 conjuntos de dados.

Figura IV.30 - Comparação entre os valores da variável kWh/dia experimentais (a preto) e previstos pela rede (a vermelho), para o conjunto de teste, para o caso com 3 inputs e 72 conjuntos de dados.

750

950

1150

1350

1550

1750

1950

2150


kW

h/d

ia

Dia

Treino

kWh/dia (Exp)

kWh/dia (Prev)

RMSE = 173 kWh/dia

750

950

1150

1350

1550

1750

1950

Out-12 Jan-13 Mai-13 Ago-13 Nov-13 Mar-14 Jun-14

kW

h/d

ia

Dia

Validação

kWh/dia (Exp)

kWh/dia (Prev)

RMSE = 78 kWh/dia

750

950

1150

1350

1550

1750

1950

Out-12 Jan-13 Mai-13 Ago-13 Nov-13 Mar-14 Jun-14

kW

h/d

ia

Dia

Teste

kWh/dia (Exp)

kWh/dia (Prev)

RMSE = 122 kWh/dia

74

Ao analisar-se os resíduos referentes aos dados experimentais e aos dados previstos pelo

modelo da rede construída, na Figura IV.31, é visível que, também para este modelo, os dados estão

a ser previstos por excesso para valores mais baixos da variável kWh/dia e em defeito para valores

mais elevados da variável kWh/dia.

Figura IV.31 - Resíduos para os dados obtidos pelo modelo da rede construída, para o caso com 3

inputs e 72 conjuntos de dados.

Com esta análise, conclui-se que é possível a construção de um modelo com apenas

3 inputs, mas é importante ter em conta que o ajuste não funciona da melhor forma.

Tabela IV.2 - Comparação entre os vários modelos de predição.

PLS Multivariável Correlação

univariável

Redes Neuronais Artificiais

Total Verão Inverno 5 inputs 3 inputs

Nº Total de Conjuntos de Dados 56 56 56 56 72 72

Nº de dados para validação 19 5 14 19 11 11

Nº de componentes principais utilizados 2 2 2 1 - -

RMSE* (kWh/dia) Validação 158 98 217 164 27 78

* kWh/dia varia, aproximadamente, entre 800 e 1800.

Ao se observar a Tabela IV.2, é possível perceber que o melhor método de predição para

este caso de estudo é através de modelos não lineares. Embora seja mais prático e mais eficaz,

tendo em conta o processo de digestão aneróbia, utilizar o modelo com 3 inputs é com o modelo de

5 inputs que se obtém o melhor ajuste.

-500

-400

-300

-200

-100

0

100

200

300

400

500

750 950 1150 1350 1550 1750 1950

kW

h/d

ia (P

rev

) -k

Wh

/dia

(Exp

)

kWh/dia (Exp)

75

V - Conclusões e trabalho futuro

A modelação da digestão anaeróbia é um fenómeno complexo, motivo pelo qual as redes

neuronais demonstram ser uma ferramenta com boa capacidade para a modelação deste processo,

devido à aptidão que têm para distinguir as relações existentes num determinado conjunto de dados.

Neste caso de estudo, escolheu-se a aplicação de redes do tipo perceptrão de múltiplas camadas

com o algoritmo de treino Levenberg-Marquardt.

Ao analisar os resultados obtidos, é possível encontrar um conjunto de variáveis com maior

influência no processo de digestão, as quais foram definidas como inputs da rede. Estas variáveis

são: Carga ST, ALC, Q LM, ST LM e ST LD. O passo de selecção das variáveis foi bastante

importante no procedimento do estudo, pois permitiu clarificar o processo de construção das várias

redes analisadas, uma vez que demasiadas variáveis de entrada introduzem ruído na modelação do

sistema.

Através da metodologia proposta para as redes neuronais, foi possível obter um bom ajuste

aos dados reais, para o período compreendido entre Janeiro de 2013 e Junho de 2014, com um valor

de RMSE de 27 kWh/dia, no caso da melhor rede. A melhor rede foi obtida com 25 nós na camada

oculta e com a função de activação logística, do tipo sigmóide.

Como se pode obervar na Tabela IV.2, com o método linear, a análise de mínimos quadrados

parciais (PLS), não são obtidos ajustes muito favoráveis. No entanto, com o método das redes

neuronais, ou seja o método não linear, o ajuste melhora significativamente. É de reter a importância

da não linearidade neste caso de estudo.

É ainda de considerar o facto de que, com a rede com 5 inputs e 56 conjuntos de dados,

quando é feita a previsão do novo conjunto de 16 dados, o resulado não é muito favorável. Daí a

construção de um novo modelo com 72 conjuntos de dados. É importante, como trabalho futuro,

testar esta nova rede seleccionada também com um novo conjunto de dados e, caso o resultado

obtido também não seja o desejável, construir um novo modelo. Isto porque, as redes neuronais são

um método que necessita de bastantes dados para se obter um modelo que se ajuste bem a cada

caso de estudo.

Como sugestão para desenvolvimentos futuros, seria importante que, caso seja viável para a

empresa, se recolham e analisem uma maior quantidade de amostras destas variáveis. Uma vez que,

um aumento do número de dados disponíveis, poderá contribuir para a obtenção de melhores

resultados na modelação do processo de digestão anaeróbia.

Com este estudo, pode-se considerar que a utilização de redes neuronais artificiais para a

modelação do processo de digestão anaeróbia é um modelo vantajoso e que, eventualmente, poderá

ser adaptado a outros processos da ETAR.

77

Referências

AdP [Online] (26 de Agosto de 2014) Brochura Institucional. Obtido de:

http://www.adp.pt/files/1114.pdf

Baughman, D.R.; Liu, Y.A., Neural Networks in Bioprocessing and Chemical Engineering,

Dissertation submitted to the Faculty of the Virginia Polytechnic Institute and State University in partial

fulfillment of the requirements for the degree of Doctor of Philosophy in Chemical Engineering.

Cardon, A.; Müller, D.N., (1994) Introdução às Redes Neurais Artificiais, Universidade Federal do

Rio Grande do Sul, Instituto de Informática, Curso de Pós-Graduação em Ciência da Computação.

Castro, L.N.; Zuben, F.J.V., Tópico 5: Redes Neurais Artificiais, DCA/FEEC/Unicamp.

Demuth, H.; Beale, M.; Hagan, M., (2014) Neural Network ToolboxTM

User’s Guide (R2014a). Natick,

Massachusetts : The MathWorks, Inc., 2014.

Eriksson, L.; Johansson, E.; Kettaneh-Wold, N.; Trygg, J.; Wikström; Wold, S.; (2006) Multi- and

Megavariate Data Analysis, Part I: Basic Principals and Applications, 2ª Edição, Umetrics Academy.

ETAR & ETARI (2010) [online] http://csgquiagua.webnode.pt/etar/aguas-residuais/ Consultado em Abril de 2014.

ExcelFunctions The Excel CORREL Function (Consultado em Setembro 2014) [Online]

http://www.excelfunctions.net/Excel-Correl-Function.html

ExcelFunctions The Excel NORMDIST Function (Consultado em Setembro 2014) [Online]

http://www.excelfunctions.net/Excel-Normdist-Function.html

78

Felipe, F.K., (2013) MoniPrev, Centro de Ciências Exactas, Ambientais e de Tecnologias, Faculdade

de Engenharia de Computação, Pontifícia Universidade Católica de Campinas.

Gonçalves, F.V.; Ramos,H.M.; Reis,L.F.R, Produção de energia em sistemas de abastecimento

baseada em fontes renováveis: redes neurais, XVIII Simpósio Brasileiro de Recursos Hídricos.

Hair, J.F.; Black, B.; Babin, B.; Andreson, R.E.; Tatham, R.L.; (2009) Análise Multivariada de

Dados, 6ªEdição, Bookman Companhia Editora Lda.

Haykin S., 1999. Neural Networks – A Comprehensive Foundation. Pearson Education. Singapura

Kimura, H.; Huo, G.; Rasin, A.; Madden, S.; Zdonik,S. (2009) Correlation maps: a compressed

access method for exploiting soft functional dependencies. Journal Proceedings of the VLDB

Endowment, Digital Library.

Kurokawa, E. (2002) Utilizando o histograma como uma ferramenta estatística de análise da

produção de água tratada de Goiânia. XXVIII Congresso Interamericano de Ingeniería Sanitaria y

Ambiental, Cancún, México

Metcalf & Eddy, Inc. (1991) Wastewater Engineering: Treatment, Disposal and Reuse, 3ª edição,

McGraw-Hill, New York.

Moreira, M.A., (1997) Introdução às Redes Neuronais Artificiais.

Novais, J.M., (2003/04) Tecnologia Ambiental – Instituto Superior Técnico - Texto de apoio, AEIST,

Lisboa.

Qdais,H.A.; Hani,K.B.; Shatnawi,N.; 2009 Modeling and optimization of biogas production from a

waste digester using artificial neural network and genetic algorithm, ELSEVIER, ScienceDirect,

Resources, Conservation and Recycling.

79

Roisenberg, M; Vieira, R.C., Redes Neurais Artificiais: Um breve tutorial, Laboratório de

Conexionismo e Ciências Cognitivas (L3C), Universidade Federal de Santa Catarina, Florianópolis,

Brasil.

SIMTEJO, (2007), Empreitada de projecto e construção da estação de tratamento de águas residuais

de Vila Franca de Xira, Memória justificativa e descritiva da ETAR de Vila Franca de Xira,

Saneamento Integrado dos Municípios do Tejo e Trancão, S.A.

SIMTEJO, Manual de funcionamento do centro operacional de Vila Franca de Xira, Edição nº1,

Pág.81/261, Saneamento Integrado dos Municípios do Tejo e Trancão, S.A.

Strik, D. P.B.T.B.; Domnanovich, A.M.; Zani, L.; Braun, R.; Holubar,P.; 2004 Prediction of trace

compounds in biogas from anaerobic digestion using the MATLAB Neural Network Toolbox,

ELSEVIER, ScienceDirect, Environmental Modelling & Software .

Vellasco, M.M.B.R., (2007) Redes Neurais Artificiais, Laboratório de Inteligência Computacional

Aplicada, Pontifícia Universidade Católica do Rio de Janeiro.

Yegnanarayana, B.; 2006 Artificial Neural networks, New Delhi : Prentice-Hall of India.

I

Anexos

III

Anexo I - Dimensionameno de digestores anaeróbios

São conhecidos vários critérios de dimensionamento para digestores anaeróbios, entre os

quais alguns métodos empíricos que têm sido utilizados no dimensionamento de digestores de fase

única, entre os quais: (1) o tempo de retenção de sólidos, (2) a utilização de factores de carga

volumétrica, (3) os factores de carga com base na população e (4) a destruição de sólidos voláteis.

Tendo em conta a massa de sólidos no reactor (M) e a massa de sólidos que são removidos

diariamente (M/d), pode determinar-se o TRS para pela Equação 1.

TRS = MM dn Equação 1

O tempo de retenção de sólidos (TRS) pode ser determinado pela Equação 1, anteriormente

apresentada. Na Tabela podem observar-se valores típicos para este parâmeto em digestores

anaeróbios com mistura completa.

Tabela 1 - Tempos de retenção de sólidos correspondentes a diferentes temperaturas. (Adaptado de Metcalf & Eddy, 1991)

Temperatura (ºC) TRSmínimo

18 11

24 8

30 6

35 4

40 4

Um dos outros métodos para dimensionar digestores é determinar o volume necessário com

base num factor de carga. Embora existam vários factores de carga que possam ser tidos em conta,

os dois mais utlizados são baseados (1) na massa de sólidos voláteis adicionada por dia, por unidade

de volume da capacidade do digestor, e (2) na massa de sólidos voláteis adicionada ao digestor por

dia, por massa de sólidos voláteis do digestor. Destes dois, o primeiro método é preferido segundo a

literatura (Metcalf & Eddy, 1991).

Os factores de carga baseiam-se geralmente em condições de carga sustentada, geralmente

num pico de duas semanas ou de um mês de produção de sólidos com provisões para evitar cargas

excessivas durante períodos mais curtos. Na Tabela 2 são apresentados valores típicos de projecto

para dimensionamento de digestores anaeróbios mesófilos com mistura completa das lamas.

IV

Tabela 2 - Valores típicos de projecto para dimensionamento de digestores anaeróbios mesófilos com mistura completa das lamas. (Adaptado de Metcalf & Eddy, 1991)

Parâmetro Valores típicos Unidades

Critérios de volume:

Lamas pimárias 0,03 – 0,06 m3/habitante

Lamas primárias + Filtro-

gota de lamas (trickling-filter) 0,07 – 0,09 m3/habitante

Lamas primárias + Lamas

activadas 0,07 – 0,11 m3/habitante

Taxa de carga dos sólidos 1,6 – 4,8 Kgssv/m3.d

Tempo de retenção dos sólidos 15 - 20 d

O limite superior da taxa de carga dos sólidos voláteis é tipicamente determinada pela taxa de

acumulação de materiais tóxicos, em particular amónia, ou pelo washout de formadores de metano.

No entanto, taxas de carga dos sólidos voláteis excessivamente baixas podem originar projectos com

elevados custos de construção e problemáticos em termos de operação.

Deve ainda ser considerada uma medida cautelar devido a um potencial problema com a

toxicidade da amónia que pode ocorrer se os resíduos da lama activada forem espessados demais.

Assim, no planeamento do projecto e operação de digestores anaeróbios, deve-se considerar a

optimização na carga de sólidos voláteis para utilizar eficazmente a capacidade do digestor. O efeito

da concentração de sólidos e dos tempos de retenção hidráulica na carga de sólidos voláteis pode

ser observado na Tabela 3. Sendo que, o factor de carga em sólidos voláteis diminui com o aumento

do tempo de retenção hidráulica e aumenta com o aumento da concentração de sólidos nas lamas.

Tabela 3 - Variação do factor de carga de sólidos voláteis para diferentes concentrações de lama e diferentes tempos de retenção. (Adaptado de Metcalf & Eddy, 1991)

Factores de carga em sólidos voláteis* (kg/m

3.d)

Concentração de

lamas (%)

Tempos de retenção hidráulica

10 d 12 d 15 d 20 d

2 1,4 1,2 0,95 0,70

3 2,1 1,8 1,4 1,1

4 2,9 2,4 1,9 1,4

5 3,6 3,0 2,4 1,8

6 4,3 3,6 3,0 2,1

7 5,0 4,2 3,3 2,5

8 5,7 4,8 3,8 2,9

*baseado em 70 por cento de conteúdo volátil de lamas.

Tendo em conta a base populacional, os tanques de digestão também podem ser projectados

numa base volumétrica, com base num determinado número de metros cúbicos por habitante.

V

Os tempos de retenção variam entre 10 a 20 dias para digestores de alta taxa. Os critérios de

dimensionamento para digestores anaeróbios aquecidos, com base na população, são mostrados na

Tabela 2. Estes critérios devem ser aplicados apenas quando as análises e os volumes de lama a ser

digerida não estão disponíveis.

Por último, estimar a destruição de sólidos voláteis pode ser também um dos métodos para

dimensionar os tipo de digestores em estudo, uma vez que o grau de estabilização obtido é

frequentemente medido através da percentagem de redução de sólidos voláteis.

A redução nos sólidos voláteis pode estar relacionada com o tempo de retenção dos sólidos

ou com o tempo de retenção com base na alimentação das lamas não tratadas. A quantidade de

sólidos voláteis destruídos num digestor com elevada eficiência e mistura completa pode ser

estimado pela seguinte equação empírica:

Vp = 13,7 sF(SRTptu) + 18,9 Equação 2

onde a destruição de sólidos voláteis (Vd) é obtida na forma de percentagem.

Na execução do projecto, o cálculo da redução de sólidos voláteis deve ser feito

rotineiramente, como uma questão de registo. A alcalinidade e o teor de ácidos voláteis também

devem ser verificados diariamente como uma medida da estabilidade do processo de digestão.

VII

Anexo II - Histogramas

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,10

0 5 10 15 20 25 30

0

5

10

15

20

25

30

35

40

De

nsid

ad

e

SV LD (g/L)

Fre

q A

bso

luta

Inverno

Verão

Densidade

0,000

0,002

0,004

0,006

0,008

0,010

0,012

0,014

0,016

0,018

0,020

55 75 95 115 135 155 175 195 215

0

2

4

6

8

10

12

14

16

18

20

De

nsid

ad

e

Q LD (m3/dia)

Fre

q A

bso

luta

InvernoVerãoDensidade

0,000

0,005

0,010

0,015

0,020

0,025

0,030

0,035

0,040

0,045

5 15 25 35 45 55 65

0

5

10

15

20

25

30

De

nsi

da

de

ST LM (g/L)F

req

Ab

so

luta


0,000

0,010

0,020

0,030

0,040

0,050

0,060

0 10 20 30 40 50 60 70

0

5

10

15

20

25

30

35

40

De

nsid

ad

e

ST LD (g/L)

Fre

q A

bso

luta


0,000

0,005

0,010

0,015

0,020

0,025

40 50 60 70 80 90 100 110 120 130 140

0

2

4

6

8

10

12

14

16

18

20

De

nsid

ad

e

Q LM (m3/dia)

Fre

q A

bso

luta


0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

5 10 15 20 25 30 35 40

0

5

10

15

20

25

De

nsid

ad

e

SV LM (g/L)

Fre

q A

bso

luta

Inverno

Verão

Densidade

Figura 3 - Histograma referente à variável ST LD. Figura 4 - Histograma referente à variável SV LD.

Figura 5 - Histograma referente à variável Q LM. Figura 6 - Histograma referente à variável Q LD.

Figura 1 - Histograma referente à variável ST LM. Figura 2 - Histograma referente à variável SV LM.

VIII

0,000

0,000

0,000

0,000

0,000

0,001

0,001

400 1200 2000 2800 3600 4400 5200 6000

0

5

10

15

20

25

30

35

De

nsid

ad

e

Carga ST (kg/dia)

Fre

q A

bso

luta


0,000

0,000

0,000

0,000

0,000

0,001

0,001

0,001

0,001

0,001

0,001

435 1072 1477 1881 2286 2690 3095 3499

0

5

10

15

20

25

30

De

nsid

ad

e

Carga SV (kg/dia)

Fre

q A

bso

luta


0

1

2

3

4

5

6

7

0,00 0,35 0,40 0,45 0,50 0,55 0,60 0,65

0

5

10

15

20

25

De

nsid

ad

e

SV/ST LD

Fre

q A

bso

lutaInverno

Verão

Densidade

0

1

2

3

4

5

6

7

8

0,050 0,575 0,625 0,675 0,725 0,775 0,825 0,875 0,925

0

5

10

15

20

25

De

nsid

ad

e

SV/ST LM

Fre

q A

bso

luta


0,000

0,000

0,000

0,001

0,001

0,001

0,001

0,001

0,002

0,002

1375 1625 1875 2125 2375 2625 2875

0

5

10

15

20

25

De

nsid

ad

e

ALC LD (mg/L)

Fre

q A

bso

luta


0,000

0,001

0,002

0,003

0,004

0,005

0,006

0,007

0 125 175 225 275 325 375 425

0

2

4

6

8

10

12

14

16

18

De

nsid

ad

e

AGV (mg/L)

Fre

q A

bso

luta


0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

0,0 0,0 0,1 0,2 0,3

0

10

20

30

40

50

60

De

nsid

ad

e

AGV/ALC

Fre

q A

bso

luta

Inverno

Verão

Densidade

0,000

0,500

1,000

1,500

2,000

2,500

6,7 6,9 7,1 7,3 7,5 7,7 7,9 8,1

0

5

10

15

20

25

30

35

De

nsid

ad

e

pH

Fre

q A

bso

luta


Figura 7 - Histograma referente à variável Carga ST. Figura 8 - Histograma referente à variável Carga SV.

Figura 9 - Histograma referente à variável SV/ST LM. Figura 10 - Histograma referente à variável SV/ST LD.

Figura 11 - Histograma referente à variável ALC LD. Figura 12 - Histograma referente à variável AGV.

Figura 13 - Histograma referente à variável AGV/ALC. Figura 14 - Histograma referente à variável pH.

IX

Anexo III – Análise Multivariada

III – 1 Análise de Componentes Principais

Figura 15 - Score plot para os componentes t[1] vs t[3].

Figura 16 - Score plot para os componentes t[2] vs t[3].

III – 2 Análise de Mínimos Quadrados Parciais

3.1 - PLS correspondente aos dados de Verão

Figura 17 - Score plot com a selecção dos dados de calibração (a verde) e de

validação (a vermelho).

X

3.1.1 – Calibração

Figura 18 - Calibração para o modelo de PLS, correspondente aos dados de Verão.

Figura 19 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à calibração do modelo de

PLS, correspondente aos dados de verão.

3.1.2 – Validação

Figura 20 - Validação para o modelo de PLS, correspondente aos dados de Verão.

XI

Figura 21 - kWh/dia experimental (a azul) e kWh/dia previsto (a laranja), referentes à validação do modelo de

PLS, correspondente aos dados de verão.

3.2 - PLS correspondente aos dados de Inverno

Figura 22 - Score plot com a selecção dos dados de calibração (a verde) e de

validação (a vermelho).


Figura 23 - Calibração para o modelo de PLS, correspondente aos dados de Inverno.

XII


PLS, correspondente aos dados de Inverno.


Figura 25 - Validação para o modelo de PLS, correspondente aos dados de Inverno


PLS, correspondente aos dados de Inverno.

XIII

3.3 - PLS correspondente ao caso univariável Carga ST vs kWh/dia

Figura 27 - Score plot com a selecção dos dados de calibração (a vermelho) e de validação (a azul).


Figura 28 - Calibração para o modelo de PLS univariável.


PLS univariável.

XIV


Figura 30 - Validação para o modelo de PLS univariável.


PLS univariável.

XV

Anexo IV – Redes Neuronais Artificiais

IV – 1 5 inputs e 56 Conjuntos de dados

Figura 32 – Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 5 inputs e 56 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação logarítmica sigmóide.

Rede mse treino validação teste total Rede mse treino validação teste total

1 14936 80,29% 83,24% 95,67% 83,74% 1 6070 76,43% 97,49% 95,01% 81,66%

2 13546 81,61% 58,38% 91,08% 81,82% 2 7444 94,24% 76,39% 86,42% 90,49%

3 16714 84,43% 70,15% 77,09% 81,93% 3 6655 80,09% 88,60% 72,78% 81,26%

4 16997 85,26% 92,35% 81,02% 84,18% 4 6657 66,09% 91,73% 90,12% 73,07%

5 12565 81,61% 62,76% 79,22% 78,31% 5 6162 86,76% 92,06% 80,88% 85,03%

6 12797 84,99% 88,43% 95,64% 86,48% 6 9336 71,30% 88,00% 98,99% 75,25%

7 18565 73,67% 41,64% 85,76% 73,02% 7 9700 74,72% 81,70% 96,33% 81,72%

8 9893 84,36% 72,04% 77,15% 82,10% 8 5525 81,76% 88,86% 94,33% 83,95%

9 11048 73,51% 86,42% 80,59% 75,46% 9 8119 90,96% 38,06% 89,54% 90,12%

10 15262 94,16% 84,79% 74,99% 90,42% 10 8015 86,23% 90,39% 75,01% 84,67%

Média 14232 Média 7368

STDEV 2757 STDEV 1408


1 6516 82,86% 72,48% 96,00% 83,71% 1 7076 90,79% 91,07% 98,64% 91,25%

2 8757 90,17% 93,99% 92,27% 90,54% 2 6133 87,63% 94,36% 91,33% 88,59%

3 7583 89,85% 90,59% 98,93% 91,03% 3 6386 96,61% 53,34% 84,17% 93,02%

4 3477 93,27% 90,12% 77,28% 91,56% 4 7933 87,90% 57,52% 97,22% 87,99%

5 7576 70,02% 91,87% 87,42% 76,83% 5 5167 93,75% 94,97% 99,75% 94,93%

6 5336 85,80% 96,60% 95,88% 90,15% 6 5286 86,60% 86,71% 98,00% 88,75%

7 6870 88,37% 88,81% 74,53% 85,62% 7 4793 78,37% 96,57% 95,50% 85,85%

8 7217 90,18% 95,02% 61,59% 89,13% 8 5679 70,02% 96,82% 98,69% 78,17%

9 5410 86,94% 96,45% 60,53% 82,04% 9 4470 87,03% 97,01% 90,77% 89,17%

10 6902 63,36% 99,80% 77,89% 74,04% 10 5714 91,92% 72,59% 67,15% 89,65%




1 3591 90,37% 95,36% 95,65% 92,07% 1 7681 90,90% 95,10% 89,30% 91,50%

2 2832 93,41% 95,27% 90,37% 93,00% 2 7202 84,85% 80,84% 96,51% 86,99%

3 2266 87,92% 98,50% 98,14% 92,16% 3 9433 95,79% 95,26% 78,03% 88,86%

4 3051 77,76% 98,13% 100,00% 82,42% 4 5924 97,97% 87,42% 79,50% 94,43%

5 3259 84,93% 92,64% 77,00% 81,38% 5 6566 83,94% 83,68% 94,91% 85,65%

6 3742 74,92% 97,59% 75,61% 78,95% 6 9633 74,51% 95,38% 92,53% 80,09%

7 4049 92,58% 91,53% 88,98% 91,55% 7 5249 84,25% 95,82% 90,36% 86,52%

8 4082 85,40% 95,77% 95,82% 87,84% 8 5985 87,32% 83,14% 89,09% 87,80%

9 3765 74,43% 93,92% 80,40% 75,41% 9 7986 81,48% 90,46% 84,46% 81,73%

10 3190 75,29% 98,46% 72,88% 80,03% 10 7815 93,67% 91,97% 90,53% 93,37%



net_1_20

net_1_25 net_1_30

r

r r

net_1_5 net_1_10

net_1_15

r r

r

XVI

Figura 33 - Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 5 inputs e 56 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação tangente hiperbólica.


1 14105 76,51% 78,40% 79,19% 76,82% 1 13489 86,40% 87,20% 86,44% 85,46%

2 15063 85,78% 91,77% 39,70% 83,12% 2 12424 70,51% 91,72% 54,39% 70,87%

3 18877 82,52% 91,50% 47,20% 80,48% 3 10069 82,74% 90,18% 87,97% 83,91%

4 21633 80,72% 69,21% 69,22% 79,32% 4 10077 86,73% 93,81% 81,18% 88,00%

5 18846 82,01% 86,50% 86,09% 81,05% 5 12680 80,71% 82,51% 93,79% 83,18%

6 11554 84,92% 76,64% 63,76% 84,44% 6 6726 90,63% 96,70% 93,11% 92,70%

7 14018 82,18% 69,09% 89,11% 80,86% 7 8269 82,68% 89,85% 74,07% 82,70%

8 21306 91,62% 59,84% 92,48% 88,68% 8 13785 93,87% 90,20% 92,02% 92,40%

9 11890 79,86% 94,17% 69,53% 83,08% 9 9254 79,38% 94,66% 93,24% 84,24%

10 15280 87,07% 93,82% 57,84% 87,66% 10 14630 76,68% 92,31% 73,01% 78,78%




1 5820 88,70% 92,50% 97,05% 90,42% 1 12026 93,42% 92,09% 91,82% 93,18%

2 9302 62,78% 93,33% 96,32% 69,80% 2 6310 90,65% 93,34% 86,53% 90,31%

3 8657 87,22% 93,81% 98,56% 90,36% 3 11970 90,33% 71,29% 87,80% 88,60%

4 8537 79,44% 93,20% 69,69% 78,85% 4 5611 92,16% 97,44% 94,99% 93,89%

5 7199 89,86% 93,89% 94,33% 90,61% 5 7380 84,96% 96,48% 92,88% 88,82%

6 7802 76,82% 95,48% 96,27% 84,85% 6 10454 89,78% 89,10% 94,99% 89,77%

7 7091 95,07% 92,61% 97,17% 94,80% 7 11224 94,35% 92,41% 82,26% 93,11%

8 7304 88,74% 96,67% 98,09% 91,59% 8 6952 80,60% 94,66% 96,97% 84,83%

9 7156 85,27% 93,89% 95,35% 88,45% 9 6512 91,27% 96,70% 85,01% 90,58%

10 11008 87,75% 64,80% 98,70% 88,67% 10 5396 88,24% 90,64% 92,89% 88,79%




1 6598 68,70% 96,21% 94,76% 76,74% 1 4293 90,38% 97,84% 91,00% 90,96%

2 4379 90,42% 97,55% 98,82% 92,66% 2 7736 77,55% 96,47% 88,17% 80,41%

3 2358 92,18% 99,30% 99,36% 93,88% 3 4612 91,54% 93,28% 96,94% 92,89%

4 4776 59,34% 97,61% 96,51% 71,55% 4 7627 86,31% 96,17% 93,95% 90,47%

5 7510 84,53% 95,31% 96,81% 89,87% 5 2581 92,34% 98,23% 92,73% 93,37%

6 5975 92,02% 93,49% 59,67% 89,29% 6 9605 85,30% 93,02% 82,90% 86,28%

7 3070 81,87% 96,00% 96,83% 86,21% 7 6685 91,67% 95,74% 97,54% 93,58%

8 5450 81,63% 85,49% 98,01% 86,10% 8 8340 94,13% 84,87% 55,87% 90,00%

9 6284 94,58% 85,55% 96,35% 94,41% 9 6856 85,37% 93,99% 98,98% 89,95%

10 5536 91,46% 96,31% 84,63% 91,64% 10 9723 77,72% 93,33% 95,65% 84,82%



r

net_1_25 net_1_30

r r

net_1_20

r

net_1_5 net_1_10

r r

net_1_15

XVII


Figura 34 - Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 5 inputs e 72 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação logarítmica sigmóide.


1 10911 82,16% 97,15% 86,11% 84,65% 1 7639 72,96% 84,78% 94,89% 76,86%

2 6837 63,58% 91,36% 96,01% 76,47% 2 4153 77,71% 94,89% 87,97% 81,50%

3 10409 79,97% 93,36% 64,33% 82,99% 3 7528 88,04% 93,31% 77,52% 86,77%

4 12371 71,56% 88,90% 71,21% 73,46% 4 7988 75,07% 79,74% 87,92% 76,91%

5 8185 72,94% 74,58% 61,06% 71,79% 5 7862 74,27% 97,36% 72,36% 80,88%

6 10613 78,89% 92,50% 87,26% 80,84% 6 4368 79,00% 94,91% 77,60% 80,32%

7 8493 75,01% 92,91% 72,98% 77,31% 7 8199 85,27% 70,48% 74,26% 82,74%

8 8935 73,94% 91,99% 83,91% 76,79% 8 6952 77,84% 94,00% 70,15% 80,18%

9 7064 70,03% 93,81% 73,92% 75,66% 9 5624 81,37% 96,94% 61,95% 85,24%

10 7900 81,72% 83,42% 86,16% 82,21% 10 4200 63,75% 97,22% 91,90% 75,20%




1 5868 75,54% 93,35% 71,58% 73,28% 1 5174 78,83% 83,00% 44,43% 76,06%

2 5475 80,51% 80,09% 81,20% 80,95% 2 5543 82,19% 95,71% 91,86% 86,22%

3 4923 76,29% 96,17% 80,83% 80,17% 3 5301 79,96% 88,07% 54,64% 77,62%

4 3251 79,19% 97,58% 71,85% 80,37% 4 6346 76,33% 95,65% 82,91% 82,12%

5 6424 79,43% 90,92% 64,69% 80,20% 5 5567 73,63% 93,95% 91,66% 81,09%

6 7761 70,03% 83,87% 94,24% 76,74% 6 2563 87,68% 96,29% 84,27% 88,49%

7 6248 75,50% 95,77% 71,71% 78,09% 7 2571 82,19% 98,58% 43,87% 84,22%

8 6526 81,69% 94,99% 78,04% 84,34% 8 4232 91,09% 97,30% 87,82% 91,81%

9 5495 86,55% 91,86% 80,86% 83,57% 9 6383 76,10% 95,96% 97,02% 82,05%

10 7786 88,06% 91,53% 63,16% 85,68% 10 5222 90,84% 91,95% 86,33% 89,48%




1 3139 64,11% 98,93% 77,07% 76,88% 1 3923 84,90% 96,40% 61,26% 84,58%

2 2713 82,49% 97,52% 93,52% 86,57% 2 3055 71,59% 97,30% 66,39% 75,89%

3 3240 85,18% 96,39% 93,92% 86,50% 3 5862 88,29% 84,11% 85,52% 87,42%

4 2728 77,19% 98,49% 92,23% 86,23% 4 6582 85,57% 88,35% 87,21% 85,31%

5 2726 87,78% 97,26% 92,81% 89,71% 5 5721 80,75% 79,41% 69,71% 78,10%

6 550 87,40% 99,51% 69,81% 84,55% 6 5057 80,14% 95,47% 75,12% 81,18%

7 2352 90,73% 97,21% 94,88% 91,88% 7 6499 86,14% 93,75% 83,65% 87,09%

8 2405 62,94% 97,55% 86,37% 68,56% 8 6023 75,52% 96,26% 69,28% 77,66%

9 3030 86,30% 96,64% 78,68% 85,99% 9 4329 83,10% 97,15% 94,28% 86,88%

10 745 86,30% 99,37% 98,47% 90,96% 10 3787 82,38% 97,29% 65,99% 83,54%



net_1_25 net_1_30

r r

net_1_5 net_1_10

r r

net_1_15

r

net_1_20

r

XVIII



1 10695 72,60% 66,42% 73,60% 71,89% 1 10461 86,14% 94,34% 64,90% 81,86%

2 14054 80,50% 90,87% 75,78% 81,81% 2 11583 66,61% 89,89% 91,08% 73,21%

3 14837 78,56% 90,89% 42,33% 77,14% 3 10454 83,47% 92,07% 93,38% 87,34%

4 14292 64,48% 85,19% 62,87% 68,22% 4 11291 71,61% 92,34% 85,97% 77,43%

5 10360 83,49% 79,04% 65,80% 80,26% 5 10912 72,10% 73,02% 63,03% 71,34%

6 13255 81,30% 80,21% 75,62% 79,09% 6 11777 65,70% 70,47% 94,91% 71,21%

7 10015 67,54% 73,71% 94,97% 74,47% 7 9346 79,44% 88,71% 88,01% 80,79%

8 10277 61,99% 90,24% 77,36% 70,32% 8 10225 82,08% 84,46% 85,11% 83,11%

9 12002 66,62% 88,56% 81,25% 70,19% 9 9109 81,22% 59,12% 73,04% 79,15%

10 12040 80,75% 72,21% 78,81% 79,20% 10 9936 79,67% 87,03% 51,32% 78,22%




1 8409 82,98% 87,45% 84,48% 83,43% 1 3833 73,34% 97,06% 61,79% 78,02%

2 9156 85,63% 88,99% 94,02% 87,35% 2 5800 70,46% 93,99% 97,69% 80,56%

3 9441 88,71% 88,18% 67,71% 86,76% 3 6404 62,42% 95,33% 87,03% 72,12%

4 8608 91,86% 80,75% 83,47% 89,15% 4 7914 65,41% 94,36% 84,05% 72,14%

5 6139 67,74% 84,40% 91,40% 73,91% 5 4883 69,19% 91,36% 96,07% 77,79%

6 7509 85,06% 93,98% 88,83% 87,30% 6 3751 68,51% 96,88% 90,75% 75,95%

7 8519 72,72% 94,44% 83,66% 76,78% 7 6153 85,45% 87,40% 81,51% 84,80%

8 6722 83,27% 94,92% 90,45% 86,04% 8 6311 88,51% 78,06% 76,03% 86,66%

9 9665 68,91% 94,38% 83,00% 75,10% 9 6469 89,12% 93,97% 79,64% 88,49%

10 6571 70,96% 87,39% 72,82% 72,68% 10 4965 82,65% 95,55% 72,74% 83,44%




1 2433 62,29% 98,75% 88,73% 73,86% 1 5638 78,21% 95,70% 69,11% 79,67%

2 2182 85,00% 96,95% 84,85% 85,89% 2 5804 76,34% 83,72% 76,01% 76,48%

3 3831 82,50% 87,66% 58,68% 81,65% 3 4252 79,75% 93,64% 67,40% 78,51%

4 3962 76,70% 93,27% 94,26% 80,48% 4 4644 85,01% 98,41% 89,95% 88,09%

5 3940 86,86% 94,97% 95,19% 88,27% 5 6717 62,16% 95,12% 79,05% 70,31%

6 4547 74,61% 95,46% 84,06% 79,20% 6 4099 87,32% 95,29% 87,65% 88,13%

7 3282 72,87% 95,58% 90,59% 78,74% 7 1938 94,47% 97,92% 97,80% 95,09%

8 3751 93,26% 86,42% 70,75% 90,96% 8 7922 78,35% 93,54% 95,83% 83,49%

9 3884 89,73% 96,41% 71,90% 88,03% 9 3004 76,67% 97,41% 95,93% 84,50%

10 5642 74,67% 91,06% 93,64% 79,05% 10 4696 82,52% 97,02% 77,40% 85,45%



net_1_20

r

net_1_25 net_1_30

r r

net_1_5 net_1_10

r r

net_1_15

r

XIX


Figura 36 - Valores de erro (mse) e de correlação (r) para cada uma das redes construídas, com 3 inputs e 72 Conjuntos de dados . Com 5, 10, 15, 20, 25 e 30 nós na camada oculta e função de activação logarítmica sigmóide.


1 13303 47,83% 56,22% 82,97% 52,52% 1 16652 49,15% 92,02% 88,93% 63,53%

2 15228 57,23% 66,05% 71,96% 58,60% 2 14486 68,19% 88,42% 45,89% 69,11%

3 18056 52,41% 41,18% 78,19% 56,06% 3 14411 56,89% 36,93% 60,58% 57,57%

4 18615 59,54% 86,89% 31,38% 59,90% 4 10860 57,59% 60,77% 92,17% 62,65%

5 12347 65,67% 92,21% 56,09% 68,83% 5 13721 42,01% 71,11% 65,50% 44,55%

6 17502 31,27% 84,70% 80,98% 53,94% 6 14347 60,91% 88,42% 80,17% 68,95%

7 18167 71,29% 80,89% 60,08% 68,60% 7 16419 64,29% 76,81% 36,69% 59,99%

8 17590 53,41% 60,17% 80,74% 56,24% 8 13744 68,10% 78,41% 54,66% 66,55%

9 14411 49,53% 85,90% 47,27% 56,07% 9 16342 56,92% 79,84% 62,66% 62,05%

10 13495 48,40% 84,41% 74,58% 57,47% 10 12289 56,82% 94,18% 49,70% 62,17%




1 13374 53,94% 89,54% 84,68% 63,12% 1 8845 74,52% 91,77% 45,74% 68,85%

2 13217 62,86% 74,91% 72,46% 65,67% 2 11920 65,81% 93,82% 44,20% 72,25%

3 13720 72,91% 80,97% 77,96% 73,07% 3 9615 54,53% 91,84% 82,05% 69,28%

4 12789 64,38% 72,49% 47,29% 61,59% 4 10349 53,69% 92,99% 96,77% 71,75%

5 10545 46,35% 92,98% 74,87% 58,89% 5 8970 53,90% 70,64% 68,84% 58,05%

6 13649 59,55% 76,37% 55,43% 61,99% 6 9842 75,23% 83,27% 42,10% 76,41%

7 13425 76,32% 78,11% 79,97% 76,89% 7 12519 77,87% 60,14% 49,67% 74,16%

8 15727 50,84% 82,54% 80,58% 58,65% 8 11077 69,41% 86,74% 67,21% 72,34%

9 11587 59,82% 84,56% 53,84% 61,99% 9 10171 67,59% 70,69% 82,66% 71,18%

10 11013 37,05% 89,94% 84,01% 58,89% 10 8442 68,37% 92,45% 87,65% 75,54%




1 6039 67,19% 93,30% 75,71% 71,67% 1 8577 80,79% 82,58% 60,47% 78,86%

2 7164 62,94% 95,31% 82,24% 68,09% 2 9195 67,68% 72,39% 67,71% 68,33%

3 8551 74,88% 89,77% 64,44% 68,01% 3 10133 58,51% 83,04% 63,04% 62,28%

4 7570 72,21% 93,50% 86,07% 78,39% 4 8208 57,98% 95,28% 80,47% 66,31%

5 7826 80,18% 83,52% 66,81% 76,72% 5 9843 60,49% 94,85% 39,10% 64,48%

6 8539 65,77% 87,49% 78,59% 70,39% 6 9945 76,68% 84,34% 80,01% 76,77%

7 8744 70,59% 67,75% 86,44% 73,51% 7 11396 53,80% 90,40% 72,34% 63,19%

8 8262 72,56% 89,50% 82,84% 76,66% 8 9557 65,63% 74,17% 87,33% 72,84%

9 7768 80,47% 84,66% 68,10% 78,43% 9 10129 77,30% 51,07% 85,68% 76,77%

10 7071 75,13% 38,63% 81,24% 75,39% 10 8774 81,23% 79,20% 61,57% 74,63%


STDEV 836 STDEV 931

net_1_25 net_1_30

r r

net_1_5 net_1_10

r r

net_1_15

r

net_1_20

r

XX



1 15093 57,12% 65,45% 53,96% 56,60% 1 11343 61,46% 72,01% 58,65% 65,76%

2 22660 73,21% 63,09% 73,09% 71,84% 2 14470 47,76% 81,38% 50,32% 52,64%

3 18077 58,48% 66,30% 49,23% 57,08% 3 10845 58,48% 80,38% 63,27% 59,87%

4 16399 51,73% 73,63% 50,07% 52,75% 4 16022 70,74% 57,25% 70,99% 69,83%

5 19659 43,70% 86,89% 75,27% 63,46% 5 15502 60,81% 40,73% 56,08% 55,80%

6 21042 53,96% 82,38% 64,23% 58,81% 6 14795 26,70% 81,41% 48,62% 41,09%

7 18983 60,73% 75,94% 60,62% 61,89% 7 16440 68,15% 66,42% 54,39% 65,09%

8 20164 47,03% 86,44% 81,00% 65,03% 8 17469 66,42% 81,93% 74,57% 69,83%

9 20998 63,46% 80,93% 82,65% 71,84% 9 16578 62,25% 72,74% 87,62% 67,90%

10 20022 59,82% 74,90% 75,68% 65,13% 10 16714 75,24% 82,64% 41,76% 73,31%




1 12257 53,94% 75,38% 87,83% 63,65% 1 9165 74,34% 83,67% 68,30% 69,80%

2 11526 73,39% 81,92% 64,17% 72,12% 2 9958 66,34% 76,62% 83,12% 72,80%

3 7169 75,96% 82,57% 87,41% 77,35% 3 11274 81,05% 83,49% 52,37% 79,00%

4 9066 60,81% 83,09% 72,35% 66,35% 4 11510 69,96% 49,16% 85,83% 71,68%

5 15326 68,16% 76,74% 78,15% 71,30% 5 12847 75,95% 76,16% 57,66% 73,00%

6 8951 47,23% 86,05% 92,68% 60,32% 6 12870 64,49% 90,43% 84,34% 74,22%

7 12095 68,89% 38,18% 82,14% 70,17% 7 11009 60,76% 74,02% 85,31% 64,78%

8 11767 63,41% 86,36% 79,73% 67,93% 8 8885 60,93% 92,62% 82,58% 70,38%

9 10355 56,91% 73,64% 24,21% 54,80% 9 10973 69,93% 69,90% 73,72% 69,68%

10 9596 53,52% 82,75% 43,25% 45,98% 10 11905 54,51% 71,91% 78,55% 61,57%




1 8627 59,18% 94,03% 79,69% 67,32% 1 11025 77,96% 89,20% 76,45% 79,41%

2 6440 83,70% 83,38% 52,52% 80,63% 2 11294 74,07% 90,27% 70,90% 75,35%

3 9544 65,28% 91,01% 65,71% 70,05% 3 6824 73,49% 96,40% 34,79% 74,76%

4 7503 75,92% 94,28% 65,37% 78,73% 4 12027 53,99% 88,11% 92,76% 75,95%

5 6700 61,53% 87,57% 62,51% 62,92% 5 7550 44,52% 87,40% 80,87% 54,37%

6 8565 58,37% 92,65% 72,85% 66,34% 6 11232 40,45% 65,84% 75,35% 45,69%

7 9299 64,32% 88,83% 63,82% 68,57% 7 7106 70,77% 77,56% 80,20% 71,19%

8 7578 70,41% 82,92% 87,79% 75,11% 8 11238 63,38% 70,96% 599,89% 65,30%

9 7365 67,34% 70,40% 85,58% 71,30% 9 9070 69,58% 88,06% 81,28% 73,65%

10 9097 54,47% 79,61% 83,09% 57,59% 10 8477 72,24% 92,78% 79,11% 76,82%



net_1_20

r

net_1_25 net_1_30

r r

net_1_5 net_1_10

r r

net_1_15

r

modelação da digestão anaeróbia da etar de vila franca de ... · conselhos que sempre me deu e...

Documents