sistemas inteligentes de gestão de energia em … · sistemas inteligentes de gestão de energia...

82
Sistemas Inteligentes de Gestão de Energia em Edifícios de Escritório Carlos Jorge Garbacz Gomes Dissertação para obtenção do Grau de Mestre em Engenharia Mecânica Orientadores: Prof. Carlos Augusto Santos Silva Prof. Paulo Manuel Cadete Ferrão Júri Presidente: Prof. Mário Manuel Gonçalves da Costa Orientador: Prof. Carlos Augusto Santos Silva Vogal: Prof. Paulo Jorge Fernandes Carreira Outubro 2014

Upload: hoanglien

Post on 04-Oct-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Sistemas Inteligentes de Gestão de Energia em Edifícios de

Escritório

Carlos Jorge Garbacz Gomes

Dissertação para obtenção do Grau de Mestre em

Engenharia Mecânica

Orientadores: Prof. Carlos Augusto Santos Silva

Prof. Paulo Manuel Cadete Ferrão

Júri

Presidente: Prof. Mário Manuel Gonçalves da Costa

Orientador: Prof. Carlos Augusto Santos Silva

Vogal: Prof. Paulo Jorge Fernandes Carreira

Outubro 2014

II

1

Agradecimentos

Em primeiro lugar gostaria de agradecer ao meu orientador Carlos Augusto Santos Silva,

pela sua orientação e mais que tudo, pela paciência e ajuda que me deu ao longo deste semestre.

Um especial agradecimento ao Henrique Pombeiro, por ter sido a pessoa que mostrou mais

disponibilidade na resolução de qualquer crise que tenha ocorrido, especialmente nas últimas

semanas. Pela sua opinião, revisão e ajuda no meu trabalho, o meu ‘’muito obrigado’’. E ainda pelo

espaço que disponibilizou no seu gabinete para eu poder trabalhar.

Agradeço também ao João Fumega, à Filipa Amorim, à Vilma e ao Ricardo Gomes pelo seu

contributo, por me terem deixado usar os seus gabinetes para os ensaios da aplicação.

Há minha família pelos valores que me transmitiu e ao apoio dado ao longo destes 5 anos.

E aos meus amigos pela motivação e força dadas em alturas fundamentais.

2

RESUMO

Os atuais sistemas de gestão energética, em edifícios de escritórios, não são flexíveis o

suficiente para minimizar o consumo de energia e ao mesmo tempo maximizar o conforto dos

usuários. Estes sistemas utilizam funções gerais de conforto que, muitas vezes, não descrevem as

preferências individuais.

O objetivo desta tese é a conceção de um sistema de gestão de energia para edifícios de

escritórios que seja capaz de reconhecer as preferências individuais utilizando algoritmos de

aprendizagem e ajustando os sistemas de climatização para maximizar o conforto do utilizador, mas

ao mesmo tempo minimizar o consumo de energia. Este sistema foi validado nos gabinetes no 2º

andar do Instituto Superior Técnico – Tagus Park que está equipado com um sistema de domótica.

Foi implementado um algoritmo de controlo de aprendizagem reforçada, recorrendo ao

software Matlab, para o sistema de climatização de forma a determinar um perfil de conforto

específico de cada utilizador, recorrendo à análise das ações de controlo do ambiente do seu

gabinete.

Com os ensaios realizados, foi possível concluir que o sistema foi capaz de determinar de

forma automática o nível de conforto do ocupante. Para as mesmas condições e diferentes

utilizadores, obteve-se níveis diferentes de conforto e o sistema conseguiu performances satisfatórias

ao conseguir regular a temperatura do gabinete muito próxima da temperatura de conforto aprendida.

Palavras-chave: domótica, energia, conforto térmico, controlo, aprendizagem, gestão

3

ABSTRACT

The current energy management systems in office buildings are not adjustable enough to

minimize power consumption while maximizing comfort to users. To do this, these systems consider

general comfort functions which often do not describe individual preferences.

The aim of this thesis is to design a power management system for office buildings which can

recognize the individual user's preferences using learning algorithms and adjusting the lighting and air

conditioning equipment to maximize user comfort, but simultaneously minimize the energy

consumption. This was tested in the offices on the 2nd floor of the Instituto Superior Técnico - Tagus

Park equipped with an automation system.

The main purpose is to implement different control and learning algorithms, with the aid of the

Matlab software, for lighting and air conditioning and try to get a suitable profile for each user. This

was to achieve by analyzing the user’s control actions in the office.

After the tests, it was reached the conclusion that the system was able to automatically

determine the occupant’s comfort level, and for the same conditions, different users have different

levels of comfort. The system obtained good performances by adjusting a temperature very close to

the user’s comfort temperature learned.

Key-words: building automation, energy, thermal comfort, control, learning, management

4

Índice

AGRADECIMENTOS .......................................................................................................................................... 1

RESUMO .......................................................................................................................................................... 2

ABSTRACT ........................................................................................................................................................ 3

ÍNDICE ............................................................................................................................................................. 4

LISTA DE FIGURAS ............................................................................................................................................ 6

ABREVIATURAS E SIMBOLOGIA ....................................................................................................................... 8

1. INTRODUÇÃO ............................................................................................................................................... 9

1.1. ENQUADRAMENTO ......................................................................................................................................... 9 1.2. MOTIVAÇÃO ............................................................................................................................................... 10 1.3. TRABALHOS RELACIONADOS........................................................................................................................... 11 1.4. OBJETIVOS E CONTRIBUTOS ........................................................................................................................... 12 1.5. ESTRUTURA DA TESE ..................................................................................................................................... 12

2. SISTEMAS DE GESTÃO DE ENERGIA EM EDIFÍCIOS ...................................................................................... 14

2.1. DEFINIÇÕES DE EDIFÍCIO INTELIGENTE .............................................................................................................. 14 2.2. DEFINIÇÃO DE UM BUILDING ENERGY MANAGEMENT SYSTEM (BEMS) ................................................................. 14 2.3. DESVANTAGENS DOS BEMS ATUAIS ................................................................................................................ 15 2.4. DOMÓTICA DE EDIFÍCIOS ............................................................................................................................... 16

2.4.1. Arquitetura geral de um BEMS ..................................................................................................... 17 2.4.2. Tipos de Domótica e Sistemas de controlo .................................................................................. 18 2.4.3. Protocolos e interligações ............................................................................................................ 19

2.4.3.1. BACnet Emerge ................................................................................................................................... 19 2.4.3.2. O Arranque da LonWorks .................................................................................................................... 20

2.4.4. Protocolo KNX .............................................................................................................................. 21

3. CONFORTO................................................................................................................................................. 23

3.1. DEFINIÇÃO DE CONFORTO TÉRMICO ................................................................................................................ 23 3.2. FATORES QUE INFLUENCIAM O CONFORTO TÉRMICO ........................................................................................... 24

3.2.1. Metabolismo ................................................................................................................................ 24 3.2.2. Roupa ........................................................................................................................................... 25 3.2.3. Temperatura do ar ....................................................................................................................... 26 3.2.4. Temperatura radiante media ....................................................................................................... 26 3.2.5. Velocidade do ar ........................................................................................................................... 27 3.2.6. Humidade Relativa ....................................................................................................................... 27

3.3. MODELOS DE CONFORTO TÉRMICO .................................................................................................................. 27 3.3.1. Temperatura efectiva ................................................................................................................... 27 3.3.2. Voto Médio Estimado (Predicted Mean Vote) ............................................................................. 28 3.3.3. Modelo adaptativo ....................................................................................................................... 30

3.4. CONSIDERAÇÕES SOBRE O CONFORTO TÉRMICO ................................................................................................ 31 3.4.1. Adaptação Física ........................................................................................................................... 34 3.4.2. Adaptação Comportamental ........................................................................................................ 35 3.4.3. Efeitos de ventilação natural no conforto térmico ...................................................................... 35 3.4.4. Relação com o Clima Exterior ....................................................................................................... 35 3.4.5. Sensibilidade térmica do individuo .............................................................................................. 36 3.4.6. Diferenças Sexuais ........................................................................................................................ 37 3.4.7. Pessoas nos Edifícios .................................................................................................................... 37

5

4. DESCRIÇÃO DO CASO DE ESTUDO .............................................................................................................. 38

4.1. LOCALIZAÇÃO .............................................................................................................................................. 38 4.2. DESCRIÇÃO DETALHADA ................................................................................................................................ 38 4.3. SISTEMA DE CONTROLO ATUAL ....................................................................................................................... 39 4.4. SISTEMA DE CONTROLO PROPOSTO ................................................................................................................. 41

5. REINFORCEMENT LEARNING ...................................................................................................................... 42

5.1. DESENVOLVIMENTO INICIAL DE ALGORITMOS .................................................................................................... 42 5.2. DESVANTAGENS E PONTOS FRACOS ................................................................................................................. 43 5.3. INTRODUÇÃO E CONCEITOS ............................................................................................................................ 44 5.4. ELEMENTOS DO REINFORCEMENT LEARNING ......................................................... ERROR! BOOKMARK NOT DEFINED. 5.5. ARQUITETURA DE REINFORCEMENTE LEARNING ................................................................................................. 46 5.6. Q-LEARNING ............................................................................................................................................... 47

6. ALGORITMO DE REINFORCEMENT LEARNING DESENVOLVIDO................................................................... 49

6.1. IMPLEMENTAÇÃO DO PROGRAMA ................................................................................................................... 49 6.2. TEMPERATURA IDEAL DO UTILIZADOR ............................................................................................................... 50 6.3. CONTROLO AUTOMÁTICO .............................................................................................................................. 53

7. RESULTADOS EXPERIMENTAIS ................................................................................................................... 58

7.1. ALGORITMO COM TEMPERATURA DE CONFORTO FIXA .......................................................................................... 58 7.1.1. Gabinete 2N-14.16 ....................................................................................................................... 58 7.1.2. Gabinete 2N-14.24 ....................................................................................................................... 59 7.1.3. Gabinete 2N-14.28 ....................................................................................................................... 60

7.2. ALGORITMO COM TEMPERATURA DE CONFORTO AJUSTÁVEL ................................................................................. 61 7.2.1. Gabinete 2N-14.16 ....................................................................................................................... 61 7.2.2. Gabinete 2N-14.14 ....................................................................................................................... 61

7.3. LIMITAÇÕES VERIFICADAS .............................................................................................................................. 62

8. CONCLUSÕES E TRABALHO FUTURO .......................................................................................................... 64

BIBLIOGRAFIA ................................................................................................................................................ 66

ANEXO I ......................................................................................................................................................... 70

6

Lista de figuras

Figura 1 – Desagregação do Consumo Total de Energia Final em 2009 [5] .................................................... 9

Figura 2 – Integração de sistemas de domótica ............................................................................................... 16

Figura 3 – Dispositivos que um BEMS tem de controlar [12] .......................................................................... 18

Figura 4 – Rede de um sistema KNX e portas BUS [15] .................................................................................. 22

Figura 6 – Balanço Térmico do corpo humano ................................................................................................ 26

Figura 5 - Zona de Conforto pela ASHRAE numa carta psicométrica [27]..................................................... 28

Figura 7 – Gráfico que relaciona o PPD com o PMV e o limite de 10% de ocupantes insatisfeitos [30] ..... 29

Figura 8 – Gráfico Adaptativo Segundo a ASHRAE Standard 55-2010 [25] ................................................... 30

Figura 9 – Variação do PMV com a temperatura média, cada ponto é o valor médio de cada pesquisa [31] ........................................................................................................................................................................ 32

Figura 10 – Variação da temperatura de conforto com a temperatura média indoor; em vários estudos realizados por todo o mundo estudo [31] ......................................................................................................... 32

Figura 11 - Variação da temperatura de conforto com a temperatura média indoor; num conjunto particular de climas; Europa (linha traçada), e Paquistão mas em diferentes partes do ano [31]. ............. 33

Figura 12 – Paquistão, a proporção de utilizadores de escritório que estiveram confortáveis a diferentes temperaturas indoor. Em várias ocasiões os usuários estiverem em desconforto nulo. Conclui-se que os edifícios no Paquistão encontram-se confortáveis num intervalo de temperaturas entre 20 e 30ºC [31]. ............................................................................................................................................ 34

Figura 13 – Variação da temperatura de conforto com a temperatura média do mês. Cada ponto representa um estudo à parte [31]. É possível distinguir os prédios com ventilação natural e os com sistema de arrefecimento/aquecimento. ........................................................................................................... 36

Figura 14 – Instituto Superior Técnico, campus Tagus Park [45] ................................................................... 38

Figura 15 – Vista Aérea do Edifício do Tagus Park [46] .................................................................................. 38

Figura 16 – Planta dos gabinetes dos docentes do núcleo 2N-14 .................................................................. 39

Figura 17 – Interface do utilizador do atual sistema instalado nos gabinetes a serem testados ................ 40

Figura 18 – Anel de controlo do sistema instalado .......................................................................................... 40

Figura 19 – Anel de controlo do sistema instalado desenvolvido. ................................................................. 41

Figura 20 – Anel de Controlo final com o algoritmo de aprendizagem .......................................................... 41

Figura 21 – Esquema do relacionamento entre estado – ação – recompensa [51]. ...................................... 46

7

Figura 22 – Esquema com a relação entre o sistema (meio ambiente) e o agente (com a função de criticar e atuar) [52] .......................................................................................................................................................... 47

Figura 23 – Interface do programa inicial antes do funcionamento ............................................................... 50

Figura 24 – Funcionamento do algoritmo Temperatura de Conforto. ............................................................ 53

Figura 25 - Interface da Aplicação durante o 1º modo - Temperatura de Conforto. ...................................... 53

Figura 26 -- Interface da Aplicação durante o 2º modo - Controlo Automático ............................................. 54

Figura 27 – Fluxograma do Algoritmo de aprendizagem do controlo do Ar Condicionado ......................... 56

Figura 28 – Exemplos de como funciona o algoritmo para duas Temperaturas diferentes lidas na sala (a – 27ºC; b – 26ºC) ..................................................................................................................................................... 57

Figura 29 – Teste realizado no gabinete 2N-14.16 ............................................................................................ 58

Figura 30 - Teste realizado no gabinete 2N-14.24 ............................................................................................ 59

Figura 31 – Teste ao gabinete 2N-28 onde se verifica uma convergência da temperatura da sala para -1ºC da temperatura de conforto aprendida ............................................................................................................. 60

Figura 32 – Teste ao gabinete 2N-14.16 onde se observa uma mudança da temperatura conforto de 2ºC durante o controlo automático .......................................................................................................................... 61

Figura 33 – Teste simulado no gabinete 2N-14 onde se verificou uma descida na temperatura de conforto de 2ºC ................................................................................................................................................................... 62

8

Abreviaturas e Simbologia AC: Ar Condicionado

ASHRAE: American Society of Heating, Refrigerating and Air-Conditioning Engineers

AVAC: Ar Condicionado, Aquecimento e Ventilação

BEMS: Building Energy Management System

CIIST: Centro de Informática do Instituto Superior Técnico

DDC: Digital Direct Control

EHSA: European Home System Association

EIBA: European Installation Bus Association

EIBG: European Intelligent Building Group

EPBD: Energy Performance of Building Directive

EUA: Estados Unidos da América

HR: Humidade Relativa

IBI: Intelligent Building Institute

IST: Instituto Superior Técnico

MDP: Markov Decision Process

MIT: Massachussets Institute of Technology

PMV: Predicted Mean Vote

PPD: Predicted Percentage Dissatisfied

RFID: Radio Frequency Identification

RL: Reinforcemente Learning

SOAP: Simple Object Access Protocol

UE: União Europeia

URL: Uniform Resource Locator

XML: Extensible Markup Language

WSN: Wireless System Network

9

1. Introdução

1.1. Enquadramento

Os edifícios são o setor que mais energia final consome no mundo, correspondendo a cerca

de 40% do total. Fazendo a divisão entre edifícios comercias e residenciais, a distribuição do

consumo energético dos edifícios residenciais europeus, em 2005 [1] rondava os 40% para o

aquecimento de espaços, 7% para o arrefecimento de espaços, 13% para iluminação e 40% para o

restante. Embora o consumo residencial, incluindo o aquecimento de espaços, não tenha diminuído

nos últimos 15 anos, a utilização e manutenção de equipamentos elétricos aumentou entre 10 e 13%,

representando mais de metade da eletricidade consumida, assim criando uma diminuição na

intensidade, mais serviços utilizando menos energia [2 e 3].

A operação de equipamento de escritório é responsável por 40% da energia elétrica

consumida num edifício de escritórios [4]. Estando o próprio setor em crescimento e

desenvolvimento, proporcionalmente também irá aumentar o consumo energético num cenário

provável onde o desenvolvimento da eficiência energética não consegue acompanhar este

crescimento. Torna-se assim essencial procurar formas de otimizar a utilização de energia nestes

espaços e minimizar os custos de operação de equipamentos tornando-os automáticos com um

ambiente amigável para o utilizador.

Figura 1 – Desagregação do Consumo Total de Energia Final em 2009 [4]

Numa tentativa de promover a sustentabilidade dos edifícios, e dada a intensa atividade

económica no sector da construção (que abrange um oitavo da atividade económica total da União

Europeia, empregando mais de oito milhões de pessoas) [3], em conjunto com a necessidade da

10

economia de energia e política de proteção do meio ambiente, a UE sentiu necessidade de criar uma

diretiva intitulada ‘’Energy Performance of Buildings Directive’’ (EPBD) [3]. Esta apela aos países

membros que definam regras mais estritas sobre o uso eficiente de energia, sendo essencial, para

edifícios com melhor sustentabilidade, a implementação de novos sistemas de controlo de energia.

Por esta razão, um dos principais objetivos dos sistemas de controlo avançado, aplicados aos

edifícios, é minimizar o seu consumo de energia.

Contudo, as exigências de conforto térmico, visual e de qualidade do ar interior têm

aumentado, especialmente no contexto da evolução tecnológica, do rápido crescimento da

população e das flutuações de preços de matérias-primas. Neste sentido, os esforços são

atualmente canalizados para a satisfação das necessidades energéticas dos edifícios (assegurando

as necessidades operacionais) mas garantindo a otimização dos seus recursos: eficiência máxima

vs. custo mínimo e proteção do meio ambiente.

1.2. Motivação

Com a tecnologia existente hoje, o mundo poderia operar com o mesmo nível de

funcionalidade e conforto utilizando 30% menos energia [5]. Em particular, nos edifícios de serviços

estima-se que seja possível reduzir pelo menos em 17% o consumo de energia [1].

Durante anos, a curva da procura de energia aumentou muito mais do que a curva da oferta

(numa estrutura “supply follows demand”), o que significa que para conseguir qualquer nível de

sustentabilidade, existe uma clara necessidade de tornar mais eficiente a produção, entrega e

consumo de energia.

Existem hoje em dia inúmeras soluções inovadoras nos vários elementos da cadeia de

energia, desde a utilização de energias renováveis, as redes inteligentes, a sistemas de gestão

energética de edifícios, e a utilização de medidores inteligentes. No entanto, importantes melhorias

podem ser ainda desenvolvidas combinando a experiência obtida ao longo dos anos com a

tecnologia já existente. Este desenvolvimento terá um rápido impacto na gestão da energia global, e,

portanto, para a possível e necessária poupança de energia e custos. O ponto crucial é a

convergência entre o sistema de automação, a inteligência digital e a infraestrutura energética, cuja

necessidade culminou na criação dos Building Energy Management Systems (BEMS).

Os BEMS são geralmente aplicados para o controlo de sistemas ativos, ou seja, de

aquecimento, ventilação e ar condicionado (AVAC), determinando também os seus padrões de

funcionamento. O seu desempenho está diretamente relacionado com a quantidade de energia

consumida nos edifícios e conforto dos seus ocupantes. Estes têm seguido os avanços das

tecnologias de informação e telecomunicações e tem sido propostas, na literatura internacional, um

número de técnicas e métodos modernos para melhorar o controlo dos sistemas específicos [6]. No

entanto, e de acordo com a mesma referência, estas técnicas, já utilizadas na área da robótica e

11

inteligência artificial, nunca foram exploradas neste campo, ou seja, nunca foi tida a preocupação de

avaliar e integrar o nível de conforto dos seus ocupantes de forma inteligente (reconhecimento do

comportamento humano).

É neste âmbito que se integram os algoritmos de aprendizagem já desenvolvidos nas áreas

acima mencionadas e que se pretendem integrar neste trabalho. A proposta é a criação de

algoritmos de aprendizagem com capacidade para analisar o comportamento humano na ocupação

de espaços, na procura das constantes dos níveis de conforto ideais num determinado espaço físico,

e reproduzir estas condições individuais otimizando simultaneamente o consumo energético do

edifício.

1.3. Trabalhos Relacionados

Nesta área já foram realizadas inúmeras tentativas de técnicas de controlo AVAC, como

pólo-colocação, regulador ideal e controlo adaptativo. Foram também propostas para a otimização

dos sistemas de climatização específicos de controlo métodos mais informatizados, tais como

algoritmos genéticos e redes neurais, regras ponderadas de linguística difusa, otimização de

simulação e controlo adaptativo em linha. Foram ainda desenvolvidos, testados e aplicados sistemas

integrados de controlo que utilizam algoritmos genéticos, controladores de otimização para a gestão

ambiental interna e previsão de ocupação, com base na informação recolhida a priori da

implementação do algoritmo [6].

O presente caso de estudo é um laboratório de tecnologias inteligentes, localizando-se no

campus do Instituto Superior Técnico (IST) Tagus Park, onde um sistema de controlo foi

desenvolvido numa plataforma tecnológica que usa o protocolo KNX.

Diversos trabalhos no âmbito da gestão de sistemas energéticos têm sido desenvolvidos

neste espaço, nomeadamente o desenvolvimento de um algoritmo de controlo do sistema de

automação do laboratório que combina a gestão da procura com o sistema de produção de energia

renovável. Neste contexto, os diversos sistemas de produção e armazenamento foram coordenados,

mantendo um equilíbrio entre a procura e a produção, procurando também a incorporação de

critérios de sustentabilidade destes sistemas na redução de emissões de gases com efeito de estufa

[7].

Uma outra dissertação foi desenvolvida com o objetivo de analisar os resultados da

implementação de algumas regras de gestão ativa da eletricidade de um sistema de domótica,

avaliando o seu impacto na redução de consumo de energia enquanto se mantêm ou se melhoram

os padrões de conforto dos ocupantes. Para isso foi comparado um controlo manual onde o utilizador

tomou todas as decisões, com um sistema automático, onde o computador, a partir dos dados da

sala, criou e implementou certas regras [8].

12

Os ensaios realizados permitiram concluir que, a nível de redução de consumo, a

implementação deste sistema não se demonstrou. A diminuição de consumo conseguida através

duma otimização utilização dos equipamentos pode ser menor que o consumo do sistema de

automação. Contudo, a partir de outros estudos já comprovados e da potencialidade vista no ensaio

efetuado, a implementação deste sistema em espaços de maiores dimensões (escola, hospital, etc),

onde se registam consumos muito superiores, pode permitir consideráveis reduções na utilização de

energia elétrica.

1.4. Objetivos e Contributos

O objetivo desta tese é a conceção de um sistema de gestão de energia para edifícios de

escritórios que é capaz de reconhecer as preferências do usuário utilizando algoritmos de

aprendizagem e ajustar os sistemas de climatização para maximizar o seu conforto, ao mesmo

tempo que minimiza o consumo de energia. Este conceito foi validado nos escritórios do núcleo de

escritórios 2N-14 no IST-Taguspark.

Foi assim criado um algoritmo, para a aplicação em escritórios individuais, que com a

intervenção do utilizador, fosse capaz, num curto espaço de tempo, de aprender uma temperatura de

conforto apenas baseado nas análises feitas à utilização do ar condicionado. De seguida, com uma

temperatura de conforto ideal aprendida era acionado o controlo automático, que por um sistema de

recompensas e probabilidades fosse capaz de conseguir regular a temperatura do gabinete muito

próxima da temperatura de conforto aprendida.

1.5. Estrutura da tese

Esta dissertação está organizada em oito capítulos onde diferentes assuntos são descritos

de forma simplificada.

A motivação e os objetivos da tese são introduzidos no primeiro capítulo com uma visão geral

do tópico da tese.

No segundo e terceiro capítulo foram introduzidos os temas mais importantes relacionados

com o tema desta dissertação, os sistemas inteligentes de gestão de energia e conforto. Estes

capítulos mostram as pesquisas e o trabalho feito até agora sobre estes dois tópicos.

No capítulo 4 é apresentado o caso de estudo, o local onde foram feitas as simulações finais

do algoritmo. É ainda apresentado o sistema de controlo antigo e as diferenças principais que foram

implementadas com este trabalho.

13

De seguida, no capítulo 5 é introduzido o tema da aprendizagem reforçada, para no sexto

capítulo ser finalmente apresentado a interface e o algoritmo criados na forma de esquemas,

imagens e fluxogramas.

No capítulo 6 são apresentados os resultados obtidos na forma de gráficos e as suas

respetivas análises.

Nas conclusões é feito um comentário aos resultados, ao significado da tese e futuras

contribuições para a continuação do desenvolvimento dos sistemas inteligentes de gestão de

energia.

14

2. Sistemas de Gestão de Energia em Edifícios

2.1. Definições de Edifício Inteligente

Em 1986 foi criada nos Estados Unidos da América (EUA) a organização Intelligent Buildings

Institute (IBI), com o objetivo de promover e apoiar todos os aspetos relacionados com os edifícios

inteligentes. Uma das primeiras missões foi a tentativa de criar uma definição para o conceito de

edifício inteligente. A que reuniu mais consenso foi a seguinte:

‘‘Um edifício inteligente é aquele que oferece um ambiente produtivo e que é

economicamente racional através da otimização dos seus quatro elementos básicos – estrutura,

sistemas, serviços e gestão – e das interligações entre eles.” [9].

Segundo European Intelligent Building Group (EIBG) um edifício inteligente é aquele que:

‘’… incorpora os melhores conceitos, materiais, sistemas e tecnologias disponíveis de

integração destes para alcançar um edifício que atende ou excede os requisitos de desempenho dos

stakeholders do edifício, onde estão incluídos os proprietários, os gestores e os usuários, bem como

o local e a comunidade global.’’ [9].

Com a análise destas definições, podemos resumir que um edifício inteligente é aquele que:

1. Concentra-se no benefício dos usuários ao criar um ambiente interno desejado para os

ocupantes e permite uma gestão eficaz dos recursos com custos mínimos de vida,

centrando-se no benefício dos administradores e no impacto ambiental e económico. Tem

sempre em consideração que o ambiente construído deve ser produtivo, seguro, saudável,

térmico, auditivo e visualmente confortável.

2. O edifício tem que ter potencial para servir as gerações futuras, ou seja, a sustentabilidade e

adaptabilidade ao longo do ciclo de vida do edifício, e ainda a proteção os recursos da terra e

do meio ambiente.

2.2. Definição de um Building Energy Management System

(BEMS)

Um Sistema de Gestão de Energia de Edifícios (BEMS, em inglês) é um sistema de controlo

instalado em edifícios que supervisiona equipamentos mecânicos e elétricos do edifício, tais como

ventilação, iluminação, sistemas de energia, sistemas de incêndio e sistemas de segurança. Um

15

BEMS consiste numa plataforma integrada de software e hardware. O BEMS é geralmente

configurado de uma maneira hierárquica, usando protocolos tais como C-bus, Profibus, mas também

podem ser encontradas no mercado soluções de BEMSs que se integram protocolos de Internet e

padrões abertos, como DeviceNet, SOAP, XML, BACnet, LonWorks e Modbus.

Um BEMS pode melhorar o desempenho do edifício e a facilidade das operações ao longo

do seu ciclo de vida [10]. O objetivo primário de um edifício com BEMS é minimizar os custos a longo

prazo da posse das instalações aos proprietários, ocupantes e meio ambiente. Neste tipo de edifícios

todos os componentes do edifício são integrados, a fim de trabalhar em conjunto. Isso melhora o

desempenho operacional, aumenta o conforto e satisfação dos ocupantes, e disponibiliza ao

proprietário sistemas, tecnologias e ferramentas para gerir e minimizar o consumo de energia.

Possuir um edifício com um BEMS significa ter acesso a [10]:

• Informações práticas sobre o desempenho dos sistemas de construção e das instalações;

• Monitorização e deteção proactiva de erros ou deficiências nos sistemas de construção;

• Um nível de integração dos sistemas de negócios da empresa, que gera relatórios em tempo

real, sobre a utilização de operações de gestão, energia e conforto dos ocupantes;

• Ferramentas, tecnologias, recursos e práticas que contribuem para a conservação da energia

e da sustentabilidade ambiental;

2.3. Desvantagens dos BEMS atuais

Os BEMS atuais geralmente operam de acordo com horários fixos e em pressupostos de

conceção baseadas em máxima ocupação, ou seja, nas ordens e no controlo feito pelo sistema é

assumido que o edifício está com a sua ocupação máxima nas horas de expediente e com a

ocupação mínima nas horas restantes. No entanto, na maioria das instalações comerciais, os valores

de referência (set points) de temperatura, fluxo de ar e iluminação podem ser controlados

digitalmente através do BEMS centralizado, os quais são determinados e programados manualmente

[11]. Normalmente, as definições operacionais são ditadas de acordo com os períodos com e sem

ocupação assumidos diariamente e não considera uma ocupação apenas parcial. Nas observações

de ocupação em tempo real, encontra-se um valor médio de ocupação que pode representar, no

máximo, um terço de seu projeto de ocupação, mesmo em horários de pico do dia [11].

Existe, portanto, um grande potencial para reduzir o consumo de energia num edifício,

adequando os sistemas de controlo às necessidades reais de ocupação. Sobre esta temática, têm

sido implementadas e testadas várias soluções de deteção de ocupantes para entender as

necessidades reais de ocupação comparando-as com os pressupostos de conceção de ocupação

máxima. Tecnologias de deteção de ocupantes incluem sensores de movimento, câmaras, sensores

infravermelhos, RFID (identificação por radiofrequência), WSN (redes de sensores sem fio) e

16

sensores de CO2. Simulações teóricas de energia concluíram que a entrada de informações de

ocupação em tempo real pode reduzir o consumo de energia dos sistemas AVAC em 10-20% e pode

reduzir o consumo de energia de iluminação até 30% [11].

Outro fator apontado aos BEMS tem a ver com o conforto dos utilizadores ser geralmente

determinado através de medições ambientais que é mantido por estes sistemas e regulado pelos

padrões da indústria. Isto faz com que os códigos sejam programados em intervalos para garantir as

temperaturas, ventilação e luminosidade satisfatórias, durante o uso do espaço. Muitas vezes, os

intervalos de conforto dos ocupantes são maiores e mais indulgentes do que os limites previsíveis,

criando assim um potencial para a redução de consumo de energia do edifício, onde há espaço para

uma maior flexibilidade e adaptabilidade ao controlo dos AVAC.

2.4. Domótica de Edifícios

Domótica é um sistema automático de controlo baseado na utilização de uma rede de

dispositivos eletrónicos projetados para monitorizar e controlar os sistemas de ventilação mecânica,

segurança, incêndio e segurança hidráulica, iluminação (especialmente iluminação de emergência),

AVAC e controlo de humidade num edifício [1], como mostrado na figura 2. Apesar de originalmente

se referir à automação de residências, é hoje em dia um termo utilizado para se referir aos sistemas

de automação em edifícios.

Figura 2 – Integração de sistemas de domótica [12]

17

A popularidade da domótica tem vindo a crescer nos últimos anos devido à simplicidade e à

acessibilidade da conectividade dos smartphones e tablets.

Os sistemas podem variar desde simples controlos de luzes quando uma pessoa entra ou sai

de um espaço até redes baseadas em computadores / microcontroladores complexos, com vários

graus de inteligência e automação, capazes não só de controlo de presença mas também

reconhecer quem é a pessoa e definir as suas preferências como luz, temperatura, nível de som,

canais televisivos, tendo em conta o dia da semana, hora do dia, entre outros. As principais razões

da adoção da domótica são a facilidade de instalação, segurança e eficiência energética.

Domótica também pode fornecer uma interface de controlo remoto para eletrodomésticos ou

o próprio sistema de automação, para fornecer controlo e monitorização num smartphone ou página

web.

As secções seguintes descrevem a evolução do desenvolvimento da domótica aplicada aos

BEMS, explicando as abordagens tecnológicas e de penetração no mercado dos diferentes

componentes.

2.4.1. Arquitetura geral de um BEMS

A maior parte do sistema de domótica está camuflado aos olhos dos seus utilizadores, com

dispositivos de hardware montados nos equipamentos ou escondidos sob o piso ou no teto. Alguns

controlos personalizados podem ser disponibilizados por meio de dispositivos semelhantes a

termostatos. A partir de uma perspetiva de gestão central, o BEMS reside como software numa

estação de trabalho do operador (computador) ou está disponível através de uma página web.

Genericamente, um BEMS é composto por vários tipos de controladores que gerem

equipamentos e partes da rede, e por sensores que fornecem dados de entrada para o controlador.

A figura 3 mostra uma visão generalizada de um BEMS:

18

Figura 3 – Dispositivos que um BEMS tem de controlar [13]

2.4.2. Tipos de Domótica e Sistemas de controlo

Os primeiros sistemas de controlo desenvolvidos eram mecânicos, à base de atuação

pneumática, e foram concebidos para controlar vários aspetos do sistema de climatização.

Dispositivos comuns incluem controladores pneumáticos, sensores, atuadores, válvulas,

posicionadores e reguladores. Devido à sua grande base de instalação ao longo dos anos 1960 e

1970, os sistemas de controlo pneumático estão em vigor na maioria dos edifícios existentes,

especialmente nas áreas metropolitanas estabelecidas [14].

Os dispositivos de controlo eletrónico analógico tornaram-se populares em toda a década de

1980. Forneceram uma resposta mais rápida e com maior precisão do que a pneumática.

No entanto, só depois da década de 1990, quando apareceram os dispositivos de controlo

digital (ou DDC), foi possível construir um sistema de automação no verdadeiro sentido da palavra.

Mas, como não havia padrões estabelecidos para esta comunicação digital, vários fabricantes

criaram os seus próprios métodos de comunicação [14]. Deste modo, o sistema de automação

estaria totalmente funcional, mas não era interoperável ou capaz de misturar produtos de vários

fabricantes. Por isso, um edifício poderia ficar comprometido com um fabricante específico. Isso não

seria necessariamente um problema a menos que a relação com o prestador de serviço associado

fosse difícil [14].

19

Até o final dos anos 1990, e especialmente já nos anos 2000, havia associações à procura

de padronizar os sistemas de comunicação "abertos". A American Society of Heating, Refrigerating

and Air-conditioning Engineers (ASHRAE) desenvolveu o protocolo de comunicação BACnet que

acabou por se tornar o padrão aberto da indústria [14].

2.4.3. Protocolos e interligações

Os conceitos de interoperacionalidade e integração estão intimamente associados à estrutura

de um BEMS. Estes conceitos não são temas novos, sendo que a interoperabilidade é apenas a

evolução atual da domótica empresarial [14].

Controlos DDC (Direct Digital Control) trouxeram uma infinidade de novos benefícios para a

domótica, mas a interoperabilidade não era um deles. Assim como os sistemas pneumáticos foram

padronizados na faixa de pressão de 3 a 15 psi, sistemas de controlo computadorizados tornaram-se

populares e introduziram novos métodos próprios para desempenhar funções semelhantes. Embora

cada fornecedor tivesse um método próprio diferente de controlo, o novo sistema realizava benefícios

suficientes que atraíram clientes ao ponto em que quase todos os novos sistemas instalados eram

DDC [14].

Os controlos DDC tornaram-se comuns em pouco tempo. Os proprietários dos edifícios

começaram a sentir que os fabricantes desses sistemas próprios estavam a comportar-se de forma

injusta pois tornou-se comum para os fornecedores baixar os preços para as primeiras fases de

grandes projetos, gerando um lucro maior em ofertas de adição e manutenção posteriores.

Durante o final dos anos 1980, vários grupos de interesse e fabricantes começaram a

trabalhar ativamente sobre os métodos de interoperabilidade. Várias empresas publicaram os seus

protocolos, proclamando que se todos adotassem a sua linguagem, poderiam comunicar entre si.

Outros lançaram protocolos de nível mais baixo para as suas redes próprias, que permitiam aos

fabricantes criar dispositivos que pudessem existir na extremidade inferior de um sistema hierárquico

próprio, mantendo os protocolos de nível superior por si mesmos, mantendo, assim, o monopólio do

sistema de controlo [14].

2.4.3.1. BACnet Emerge

Enquanto alguns fabricantes libertaram parcelas de seus protocolos próprios, surgiu outra

tentativa para a interoperacionalidade voltada especificamente para a automação dos sistemas

AVAC. O comité BACnet (ou SPC 135P, como era anteriormente conhecido) era patrocinado pela

ASHRAE, que tinha criado centenas de normas (pela primeira vez no início de 1987) para criar um

protocolo de controlo interoperável com o foco em automação de edifícios.

20

A tarefa revelou-se extremamente difícil de concluir pois não foi fácil implementar a

cooperação entre os fabricantes. De modo a ganhar consenso, várias opções e escolhas foram

incluídas mas várias outras questões, tais como testes de conformidade do produto, foram adiadas.

Estes testes asseguram que os procedimentos ou mecanismos de uma empresa aderem às

exigências regulamentares, às práticas da indústria, às políticas corporativas e que estejam a

funcionar adequadamente. Só em 1995, a especificação BACnet de 501 páginas, foi lançada ao

público.

Hoje, existem quatro fabricantes com os sistemas originalmente BACnet e 44 fabricantes que

fazem pelo menos um produto BACnet. Do total desses fabricantes, mais de 90 por cento criam

portas de entrada para dispositivos de controlo de propriedade ou sistemas.

2.4.3.2. O Arranque da LonWorks

Como o comité BACnet estava a ter dificuldades com a interoperacionalidade da automação

dos sistemas AVAC, também a Echelon, uma start-up de Silicon Valley que tinha criado um protocolo

de controlo conhecido como LonTalk foi usada para lidar com as questões de interpretação e de

conformidade do produto [14]. A empresa colocou uma implementação da sua nova linguagem

LonTalk num circuito integrado de baixo custo, o "Neuron", e tomou a liberdade de licenciar direitos

para construir o chip para diversos fabricantes do circuito. O chip e as ferramentas utilizadas para

incorporá-lo nos produtos foi chamado de "LonWorks", e os fabricantes dos sistemas de controlo

puderam rapidamente incorporar o LonTalk nos produtos para a interoperacionalidade. O sucesso foi

tal que o protocolo LonTalk tornou-se assim um padrão do Instituto Nacional Americano de Padrões

(ANSI).

Os chips LonWorks eram pequenos e baratos o suficiente para serem usados até mesmo

nos aparelhos mais pequenos, fornecendo apenas a integração a nível de sistema que estava sendo

usada pela BACnet. Hoje em dia, uma série de tecnologias desde atuadores e sensores de presença

para luzes de emergência e estações meteorológicas, rapidamente começaram a incorporar

LonWorks, e cerca de 4.000 fabricantes oferecem produtos compatíveis.

Para lidar com os testes de conformidade, a Echelon recrutou fabricantes de dispositivos

LonTalk e em 1994 formou a associação de interoperacionalidade LonMark. Esta coligação sem fins

lucrativos criou diretrizes para os produtos interoperacionais e testa esses produtos contra as suas

próprias diretrizes. Os custos dos testes e das certificações são reunidos e utilizados para publicitar

os benefícios da certificação.

Os membros da LonMark incluem fabricantes de controlos de climatização, estores,

elevadores, iluminação, acesso, segurança, incêndio e segurança de vida e redes. Mais de 300

produtos LonMark certificados já estão disponíveis para compradores.

21

O edifício do IST TagusPark utiliza sistemas de LonWorks para o controlo de iluminação das

áreas comuns (corredores e átrios) e de climatização ao nível de núcleos (ou seja, é possível limitar

o acesso ao sistema de AVAC em conjuntos de gabinetes ou salas).

2.4.4. Protocolo KNX

A história do KNX começou no dia 5 maio de 1990, em Bruxelas, Bélgica, onde 15

fabricantes europeus de sucesso do setor elétrico fundaram a European Installation Bus Association

(EIBA), tendo como objetivo a criação de instalações eletrónicas próprias para Tecnologia Bus. De

acordo com o site da Konex Association [15], em 1991, o primeiro Manual de Open Specification foi

publicado para tornar a tecnologia Bus apta para o futuro. Todos os membros da EIBA concordaram

em usar o mesmo sistema, o chamado "Standard".

Em 1997, as soluções de Batibus, EHS e EIB apareceram, e quando o ano de 2001 chegou,

a nova Associação Konnex publicou o KNX Standard com a EIBA como sua base. Finalmente em

2003, o protocolo KNX, bem como os meios de comunicação TP e PL, foram aprovados pelos

Comitês Nacionais europeus e retificados pela CENELEC Bureau Technique como EN 50090

Standard.

Hoje em dia, os produtos rotulados com a marca comercial KNX têm a obrigação de “falar e

compreender” a linguagem KNX, ou seja, conseguir interpretar corretamente os sinais analógicos no

suporte a que estão ligados. Todos os produtos com certificação KNX podem ser configurados por

uma só ferramenta de engenharia independente do fabricante.

A abordagem acima contribuiu em grande medida para o sucesso da KNX hoje em dia,

sobretudo no sector de edifícios residenciais. Sem a conjugação rigorosa acima mencionada, seria

impossível:

• Permitir aos fabricantes desenvolverem produtos especializados que, graças à

interoperabilidade com o resto do sistema, oferecem funcionalidade que um só fabricante

nunca conseguiria oferecer;

• Facilitar o desenvolvimento de passagens entre a KNX e outros sistemas (como DALI e

BACnet);

• Neste protocolo, todos os equipamentos do barramento de dados (bus) são ligados por cabo

de bus, radiofrequência, linha de potência ou IP/Ethernet, permitindo um controlo em serie

entre todos os dispositivos. Assim, estes comunicam diretamente entre si, sem recorrer a

uma hierarquia, nem a um dispositivo central de controlo, o que torna o sistema muito

flexível. Os equipamentos de “bus” podem ser sensores ou atuadores necessários ao

controlo e gestão do edifício. Neste sistema, todas as funções podem ser controladas,

22

monitorizadas e sinalizadas através de um sistema único sem necessidade de uma unidade

de controlo central;

Na Figura 4 está representado de forma esquemática o funcionamento deste protocolo.

Figura 4 – Rede de um sistema KNX e portas BUS [16]

O edifício do IST Tagus Park tem neste momento duas zonas a funcionar com KNX: o

laboratório de energia e o núcleo de escritórios do segundo andar (2N14.10), o local onde foi

desenvolvido o trabalho experimental da tese.

23

3. Conforto

3.1. Definição de Conforto Térmico

A definição e o controlo das condições internas para alcançar o conforto térmico em edifícios

são difíceis de ser estabelecidos. Como a satisfação térmica depende de vários parâmetros, vários

trabalhos de pesquisa sobre conforto térmico foram realizados e alguns índices de conforto foram

propostos ao longo dos últimos 50 anos.

A neutralidade térmica é mantida quando o calor gerado pelo metabolismo humano é

dissipado, mantendo assim o equilíbrio térmico com o meio envolvente. Os principais fatores que

influenciam o conforto térmico são aqueles que determinam o ganho ou a perda de calor, ou seja,

taxa de metabolismo, o isolamento das roupas, a temperatura do ar, a temperatura radiante média, a

velocidade do ar e a humidade relativa. Existem também parâmetros psicológicos que afetam o

conforto térmico tais como expectativas individuais [17].

O objetivo de uma lei de controlo baseada no conforto térmico é o de manter as condições

higrotérmicas interiores dentro da zona de conforto ou dentro dos limites de conforto baseados em

indicadores. Além disso, é procurado um compromisso entre a otimização do conforto térmico e do

consumo de energia.

A satisfação com o ambiente térmico é importante para o próprio bem do ser humano,

influenciando a produtividade e a saúde. Trabalhadores de escritório que estão satisfeitos com o

ambiente térmico são mais produtivos [18].

O desconforto térmico tem provocado sintomas de ‘’síndroma dos edifícios doentes’’ [19].

Este termo é usado para descrever situações de desconforto laboral e/ou de problemas agudos de

saúde referidos pelos trabalhadores, que parecem estar relacionados com a permanência no interior

de alguns edifícios. Muitas vezes não é possível estabelecer-se qualquer diagnóstico específico ou

identificar-se as eventuais causas do desconforto de saúde. As queixas podem estar relacionadas

com um compartimento ou área específica, ou com a totalidade do edifício. Frequentemente, os

problemas surgem quando a manutenção do edifício, ou as atividades e tarefas desenvolvias no seu

interior são pouco consistentes com a estrutura e operacionalidade adequadas, ou seja, os

problemas que ocorrem no interior dos edifícios resultam muitas vezes de um desenho estrutural

desajustado, considerando as atividades dos seus ocupantes (i.e. edifício não adequado aos fins

para que é utilizado) [20].

Adicionalmente, a combinação de alta temperatura e alta humidade relativa do ar pesa na

redução do conforto térmico e da qualidade do ar interior [21].

24

Embora uma única temperatura estática possa ser confortável, o prazer térmico (alliesthesia)

geralmente é causado pela variação de sensações térmicas. Modelos adaptativos de conforto

térmico permitem flexibilidade na conceção de edifícios ventilados naturalmente que têm as mais

variadas condições interiores [22].

3.2. Fatores que Influenciam o Conforto Térmico

Uma vez que existem grandes variações de pessoa para pessoa em termos de satisfação

física e psicológica, é difícil encontrar uma temperatura ideal para todos os ocupantes num

determinado espaço. Com os dados laboratoriais e de campo, normalmente definem-se as condições

confortáveis para uma determinada percentagem de ocupantes.

Há seis principais fatores que afetam diretamente o conforto térmico que podem ser

agrupados em duas categorias: fatores pessoais, relacionados com as características dos ocupantes,

e fatores ambientais, relacionados com as condições do ambiente térmico. Os primeiros fatores

correspondem ao metabolismo e nível de vestuário, sendo os últimos a temperatura do ar,

temperatura radiante média, velocidade e humidade do ar. Mesmo que todos esses fatores possam

variar no tempo, os padrões geralmente se referem a um estado de equilíbrio para estudar o conforto

térmico, apenas permitindo variações de temperatura limitadas.

3.2.1. Metabolismo

As pessoas têm diferentes metabolismos que podem flutuar devido ao nível de atividade e

condições ambientais [23]. A Norma ASHRAE 55-2010 define a taxa metabólica como o nível de

transformação de energia química e trabalho mecânico em calor e por atividades metabólicas dentro

do organismo, normalmente expressa em termos de unidade de área da superfície total do corpo. A

taxa metabólica é expressa em unidades de met, que são definidos como:

� ��� = ��, ��� (Eq. 1)

A taxa metabólica é igual à energia produzida por unidade de superfície de uma pessoa

média sentada em repouso. A área da superfície de uma pessoa média é de 1,8 m² (19 pés (feet) ²).

A norma ASHRAE 55 fornece ainda uma tabela de taxas met para uma variedade de

atividades. Alguns valores comuns são 0,7 met para dormir, 1,0 met para uma posição sentada e

quieta, 1,2-1,4 met para atividades leves em pé, 2,0 met ou mais para as atividades que envolvem

movimento, a pé, elevação de cargas pesadas ou operar máquinas. Para as atividades intermitentes,

os estados padrão que são admissíveis a utilização de uma taxa metabólica média ponderada no

tempo, usam-se quando os indivíduos estão a realizar atividades que variam ao longo de um período

25

de uma hora ou menos. Para períodos mais longos, diferentes taxas metabólicas devem ser

consideradas [1].

Os hábitos de alimentação também podem ter uma influência sobre o metabolismo, o que

indiretamente influencia as preferências térmicas [24]. Estes efeitos podem mudar dependendo da

comida e bebida ingerida. A forma do corpo é outro fator que afeta o conforto térmico. A dissipação

de calor depende da área de superfície corporal. Assim, uma pessoa alta e magra tem uma maior

proporção superfície-volume, podendo dissipar o calor mais facilmente, e pode tolerar temperaturas

mais altas, mais do que uma pessoa com uma forma de corpo arredondada.

3.2.2. Roupa

A quantidade de isolamento térmico usado por uma pessoa tem um impacto substancial

sobre o conforto térmico, uma vez que influencia a perda de calor e consequentemente o equilíbrio

térmico. Camadas de roupas isolantes evitam a perda de calor e podem ajudar a manter uma pessoa

quente ou levar a sobreaquecimento. Geralmente, quanto mais espesso for o vestuário, maior é a

capacidade de isolamento. Dependendo do tipo de material que a roupa é feita, a circulação do ar e

a humidade relativa podem diminuir a capacidade de isolamento do material [25].

A unidade que mede o isolamento térmico relacionado com a roupa vestida é definida como

clo. 1 clo é um valor indicativo que corresponde, em termos aproximados, ao uso de umas calças,

uma camisa de manga comprida e um casaco. Valores de isolamento para outros conjuntos comuns

ou roupas podem ser encontradas na norma ASHRAE 55.

� �� = �. ��� �² • � / � (Eq. 2)

26

Figura 5 – Balanço Térmico do corpo humano

Qcon – perdas de calor por condução pela pele

Qrad – perdas de calor por radiação pela pele

Qevap – perdas de calor por evaporação pela pele

Qres.sens – perdas de calor sensíveis devido à respiração

Qres.lat – perdas de calor latentes devido a respiração

3.2.3. Temperatura do ar

A temperatura do ar é a temperatura média do ar em torno do ocupante, no que diz respeito

à localização e tempo. De acordo com a ASHRAE 55, a média espacial leva em conta os níveis do

tornozelo, cintura e cabeça, que variam para os ocupantes sentado ou em pé. A média temporal é

baseada em intervalos de três minutos com pelo menos 18 pontos igualmente espaçados no tempo.

A temperatura do ar é medida com um termómetro de bolbo seco e por esta razão, é também

conhecido como a temperatura de bolbo seco [26].

3.2.4. Temperatura radiante media

A temperatura radiante está relacionada com a quantidade de calor de radiação transferida

de uma superfície, e que depende da capacidade do material para absorver ou emitir calor, ou a sua

emissividade. A média da temperatura de radiação depende das temperaturas e valores de

emissividade das superfícies circundantes, bem como o fator de forma. Assim, a temperatura

27

radiante média experimentada por uma pessoa numa sala com luz solar incidente, varia de acordo

com a quantidade do seu corpo que está à exposição solar [26].

3.2.5. Velocidade do Ar

A velocidade do ar é definida como a taxa de circulação do ar num ponto, sem ter em conta a

direção. De acordo com o Padrão ASHRAE 55, é a velocidade média do ar para que o corpo é

exposto, no que diz respeito à localização e tempo. De acordo com o modelo termo-fisiológico SET a

média espacial baseia-se no pressuposto de que o corpo é exposto a uma velocidade uniforme de ar.

No entanto, alguns espaços podem proporcionar campos de velocidade de ar fortemente não

uniformes e consequentes perdas de calor da pele que não podem ser considerados uniformes [26].

3.2.6. Humidade Relativa

A humidade relativa é a razão entre a quantidade de vapor de água no ar, a quantidade de

vapor de água que o ar poderia conter, à temperatura e pressão específicas. Enquanto o corpo

humano possui sensores no interior da pele que são bastante eficientes em sentir o calor e frio, a

humidade relativa é detetada indiretamente. Suar é um mecanismo eficaz da perda de calor que

depende de evaporação a partir da pele. No entanto em ambientes muito húmidos, o ar tem perto da

sua máxima capacidade de vapor de água que ele pode conter, que faz com que a evaporação e,

portanto, a perda de calor é diminuída. Por outro lado, os ambientes muito secos (UR <20-30 %) são

também desconfortáveis devido ao seu efeito sobre as membranas mucosas. O nível de humidade

recomendado no interior está na gama de 30-60 % em edifícios com sistemas AVAC, mas nas novas

normas, tais como o modelo adaptativo prevê, são permitidas humidades mais baixas e mais altas,

dependendo dos outros fatores envolvidos no conforto térmico [27].

3.3. Modelos de Conforto Térmico

3.3.1. Temperatura Efetiva

Um exemplo é o índice de conforto térmico chamado temperatura efetiva, que é calculado em

função da temperatura interior e dos sinais de humidade relativa, os quais foram adotados pela

ASHRAE durante décadas [28].

O conforto térmico é a condição da mente que expressa a satisfação com o ambiente térmico

e é avaliado subjetivamente pela ASHRAE. Um dos objetivos mais importantes dos engenheiros de

projeto AVAC é a manutenção deste padrão de conforto térmico para os ocupantes de edifícios [26].

O conforto térmico pode ser identificado por uma zona de conforto no interior de uma carta

psicrométrica. A zona de conforto definida pela ASHRAE é mostrado na figura 5.

28

Figura 6 - Zona de Conforto pela ASHRAE numa carta psicométrica [28]

3.3.2. Voto Médio Estimado (Predicted Mean Vote)

Para a avaliação do conforto térmico dos utilizadores, o índice mais utilizado é o PMV

(Predicted Mean Vote), que combina as variáveis e parâmetros ambientais individuais. Foi

desenvolvido utilizando os princípios de equilíbrio térmico e os dados experimentais obtidos numa

câmara climática em condições controladas de estado estacionário [29]. Este índice é baseado num

modelo teórico combinado com os resultados de experiências com cerca de 1.300 indivíduos, e pode

ser descrita como uma função de quatro variáveis ambientais: temperatura, humidade relativa,

temperatura radiante média, e velocidade do ar, e dois parâmetros individuais: taxa metabólica e

índice de roupa [28].

O modelo PMV/PPD foi desenvolvido por P.O. Fanger que usou equações de balanço de

calor e estudos empíricos sobre a temperatura da pele para definir conforto. Em pesquisas de

conforto térmico padrão foi pedida a inúmeras pessoas a opinião sobre a sua sensação térmica

numa escala de sete pontos, do frio (-3) a quente (+3). As equações de Fanger são usadas para

calcular o Voto Médio Estimado (PMV) de um grande grupo de indivíduos para uma determinada

combinação de temperatura do ar, temperatura radiante média, humidade relativa, velocidade do ar,

29

metabolismo, e isolamento de roupas [29]. Zero é o valor ideal, e representa neutralidade térmica, e

a zona de conforto é definida por todas as combinações dos seis parâmetros onde o PMV está

dentro dos limites recomendados (-0,5 <PMV <0,5). Embora a previsão da sensação térmica de uma

população seja um passo importante para determinar quais as condições confortáveis, é mais útil

considerar se as pessoas vão ficar satisfeitas.

Fanger desenvolveu outra equação para relacionar o PMV ao Percentual Previsto Insatisfeito

(PPI). Esta relação foi baseada em estudos em que as pessoas eram observadas numa câmara

onde as condições internas podiam ser controladas com precisão. Este método trata todos os

ocupantes do mesmo modo e desconsidera a localização e adaptação ao ambiente térmico.

Basicamente, afirma que a temperatura interna não deve mudar na mesma taxa que as estações do

ano. Em vez disso, deve haver um conjunto pouco flutuante de temperaturas definido durante todo o

ano. Esta é uma tomada de posição mais passiva que os seres humanos não têm de se adaptar a

diferentes temperaturas, uma vez que a temperatura interna será sempre pouco variável [30].

O padrão ASHRAE 55-2010 usa o modelo PMV para definir os requisitos para as condições

térmicas no interior. Este padrão exige que pelo menos 90% dos ocupantes estejam satisfeitos.

Figura 7 – Gráfico que relaciona o PPD com o PMV e o limite de 10% de ocupantes insatisfeitos [31]

30

3.3.3. Modelo Adaptativo

O modelo adaptativo, por outro lado, foi desenvolvido com base em centenas de estudos de

campo com a premissa de que os ocupantes interagem dinamicamente com o seu ambiente. Os

ocupantes controlam o seu ambiente térmico por meio de roupas, janelas operáveis, ventiladores,

aquecedores pessoais e óculos de sol [32].

Figura 8 – Gráfico Adaptativo Segundo a ASHRAE Standard 55-2010 [26]

O modelo adaptativo é baseado na ideia de que o clima exterior influencia o conforto interior,

porque os seres humanos podem se adaptar a diferentes temperaturas durante diferentes épocas do

ano. A hipótese adaptativa prevê que os fatores contextuais, como ter acesso aos controlos

ambientais e ao histórico térmico do edifício, influencia as preferências e as expectativas dos

ocupantes [33]. Inúmeros pesquisadores realizaram estudos de campo em todo o mundo em que

fizeram o levantamento da opinião dos ocupantes em edifícios sobre o seu conforto térmico enquanto

simultaneamente realizavam medições ambientais. Analisando um banco de dados de resultados de

160 destes edifícios, foi revelado que os ocupantes dos edifícios ventilados naturalmente aceitam e

até preferem uma ampla gama de temperaturas do que os seus homólogos não ventilados, edifícios

com sistemas AVAC, porque a sua temperatura preferida depende das condições exteriores. Estes

resultados foram incorporadas na norma ASHRAE 55-2004 como o modelo de conforto adaptativo. O

gráfico adaptativo relaciona a temperatura de conforto interior para prevalecer a temperatura exterior

e define zonas de 80% e 90 % de satisfação.

31

A abordagem adaptativa do conforto térmico é baseada nas conclusões de pesquisas de

conforto térmico realizados em campo. Os investigadores recolhem dados sobre o ambiente térmico

e da resposta térmica simultânea de indivíduos sobre suas vidas quotidianas. A resposta térmica é

geralmente medida, pedindo-lhes para uma opinião de conforto numa escala descritiva, como a

escala ASHRAE. As intervenções dos investigadores são mantidas a um mínimo. Num estudo

realizado por Sharma et al. [34], foram usados métodos estatísticos para analisar os dados através

da variabilidade natural das condições térmicas. O objetivo foi o encontro da temperatura ou

combinação de variáveis térmicas (temperatura, humidade e velocidade do ar) que possam ser

consideradas neutras ou confortáveis. Esta análise foi, então, usada para prever as temperaturas de

conforto ou as condições de conforto, que seriam encontradas aceitáveis em circunstâncias

semelhantes noutros lugares.

Podem ser encontrados diversos obstáculos com a utilização de um ensaio de terreno. Em

primeiro lugar, as condições ambientais são inerentemente variáveis e difíceis de medir com

precisão, e os erros nos dados de entrada podem dar origem a erros nas relações não previstas pela

análise estatística. Em segundo lugar, é difícil generalizar, a partir da análise estatística, os

resultados de uma pesquisa, pois muitas vezes a natureza, qualidade e tratamento dos dados

experimentais diferem da anterior experiência, mesmo em circunstâncias semelhantes [35].

O pressuposto fundamental da abordagem adaptativa é expressa pelo princípio adaptativo:

se ocorrer uma mudança, de modo a produzir desconforto, as pessoas reagem de maneiras que

tendem a restaurar o seu conforto. As opções que as pessoas têm para reagir irão refletir a sua

situação: aqueles com mais oportunidades de se adaptarem ao meio ambiente ou o ambiente para

as suas próprias necessidades, serão menos propensos a sofrer desconforto.

Em geral, o modelo PMV pode ser aplicado aos edifícios com ar condicionado, enquanto o

modelo adaptativo é geralmente aplicado em edifícios onde não há sistemas mecânicos instalados.

Não há consenso sobre qual modelo de conforto deve ser aplicado para os edifícios que estão

parcialmente ligados com ar condicionado espacial ou temporalmente.

3.4. Considerações sobre o Conforto Térmico

Num estudo realizado por Nicol et al. [36] foram apresentados dados que sugerem que o

PMV mudou menos com temperatura interna de clima para clima do que se poderia esperar.

Humphreys [37] confirmou este fenómeno numa ampla variedade de climas. A taxa de variação da

temperatura com o PMV é caracteristicamente muito menor de uma pesquisa para outra do que é em

qualquer pesquisa em particular (figura 9). O corolário desta descoberta é que nos inquéritos de

terreno a temperatura de conforto está intimamente correlacionada com a temperatura média

medida. Este caso foi considerado em pesquisas realizadas ao longo de uma ampla variedade de

climas interiores (figura 10). Um efeito semelhante foi encontrado quando os dados foram

32

colecionados ao longo de um ano a partir de um determinado grupo: pesquisas no Paquistão e na

Europa [32] foram realizadas em intervalos mensais durante todo o ano (figura 11). A variedade de

temperaturas interiores, especialmente no Paquistão, é notável. A forte relação com a temperatura

de conforto é clara.

Figura 9 – Variação do PMV com a temperatura média, cada ponto é o valor médio de cada pesquisa [32]

Figura 10 – Variação da temperatura de conforto com a temperatura média indoor; em vários estudos

realizados por todo o mundo estudo [32]

33

Figura 11 - Variação da temperatura de conforto com a temperatura média indoor; num conjunto

particular de climas; Europa (linha traçada), e Paquistão mas em diferentes partes do ano [32].

Um exemplo de como efetivamente as medidas de adaptação podem ser usadas para

alcançar o conforto, é possível observar na figura 12 a proporção real de indivíduos confortáveis

entre os trabalhadores de escritório no Paquistão em diferentes temperaturas interiores. Os dados

foram recolhidos ao longo de um período de um ano, de modo que a temperatura de conforto foi

mudando continuamente. Os principais meios com que esses trabalhadores tiveram de controlar o

seu conforto foi: mudando as suas roupas e usando o movimento do ar, com ventiladores disponíveis

em todos os escritórios paquistaneses. A curva mostra a probabilidade média de conforto calculada

através da análise de Probit, este modelo é um tipo de regressão em que a variável dependente só

pode ter dois valores. Cada ponto representa a proporção de indivíduos confortáveis numa

determinada cidade, num determinado mês.

34

Figura 12 – Paquistão, a proporção de utilizadores de escritório que estiveram confortáveis a diferentes

temperaturas indoor. Em várias ocasiões os usuários estiverem em desconforto nulo. Conclui-se que os

edifícios no Paquistão encontram-se confortáveis num intervalo de temperaturas entre 20 e 30ºC [32].

Existem basicamente três categorias de adaptação térmica: comportamental, fisiológica e

psicológica [32]. Este último, sendo uma perceção e reação térmica alterada devido a experiências e

expectativas passadas, é um fator importante para explicar a diferença entre as observações de

campo e previsões do PMV (baseado no modelo estático) em edifícios naturalmente ventilados.

Nestes edifícios a relação com as temperaturas exteriores é duas vezes mais forte que o previsto.

3.4.1. Adaptação Física

O corpo tem vários mecanismos de regulação térmica para sobreviver em ambientes de

temperaturas drásticas. Num ambiente frio o corpo utiliza vasoconstrição, o que reduz o fluxo de

sangue para a pele, a temperatura da pele e a dissipação de calor. Num ambiente acolhedor, a

vasodilatação aumenta o fluxo sanguíneo para a pele, transporte de calor, a temperatura da pele e a

dissipação de calor. Se há um desequilíbrio, apesar dos ajustes vasomotores listados acima, num

ambiente quente a produção de suor vai começar e fornecer arrefecimento evaporativo. Se isto não

for suficiente, a hipertermia irá acontecer, em conjunto, a temperatura do corpo pode chegar a 40 ° C

e um acidente vascular cerebral pode ocorrer. Num ambiente frio tremendo começam a surgir

tremores, involuntariamente, forçando os músculos para o trabalho e aumentando a produção de

calor até um fator de 10. Se o equilíbrio não for restaurado, a hipotermia irá acontecer, o que pode

ser fatal. Ajustes a longo prazo para temperaturas extremas de alguns dias a seis meses podem

resultar em ajustes cardiovasculares e endócrinos. Um clima quente pode criar um aumento do

volume sanguíneo, melhorando a eficácia da vasodilatação, melhor desempenho do mecanismo de

suor, e o reajuste de preferências térmicas. Em condições de frio, a vasoconstrição pode tornar-se

permanente, resultando na diminuição do volume sanguíneo e aumento do metabolismo do corpo

[38].

35

3.4.2. Adaptação Comportamental

Em edifícios ventilados naturalmente os ocupantes tomam várias ações para se manterem

confortáveis quando as condições internas derivam para desconforto. Janelas e ventiladores,

persianas/sombras, mudando a roupa, o consumo de alimentos e bebidas são algumas das

estratégias adaptativas comuns. Entre essas, janelas de ajuste é o mais comum. Os ocupantes que

tomam esse tipo de ações tendem a sentir se melhor em temperaturas mais elevadas do que

aqueles que não o fazem [39].

Essas ações comportamentais influenciam significativamente as entradas de simulação de

energia, e as atuais pesquisas têm vindo a desenvolver modelos de comportamento para melhorar a

precisão dos resultados da simulação. Por exemplo, há muitos modelos da abertura de janelas que

foram desenvolvidos até à data, mas não há consenso sobre os fatores que desencadeiam a

abertura de uma janela [40].

3.4.3. Efeitos de ventilação natural no conforto térmico

Muitos edifícios usam uma unidade de AVAC para controlar o seu ambiente térmico. Outros

edifícios são naturalmente ventilados e não confiam em tais sistemas mecânicos para proporcionar

conforto térmico. Dependendo do clima, isso pode reduzir drasticamente o consumo de energia. Às

vezes, é visto como um risco, porém, as temperaturas interiores podem ser muito radicais se o prédio

for mal projetado. Edifícios ventilados naturalmente adequadamente projetados mantem as

condições internas dentro da faixa onde abrir janelas e usar ventiladores no verão ou vestir roupa

extra no inverno pode manter as pessoas confortáveis termicamente.

3.4.4. Relação com o Clima Exterior Humphreys [9] determinou a temperatura de conforto interior através de uma série de

pesquisas realizadas em todo o mundo e comparou-as com a temperatura média mensal exterior no

momento da pesquisa. Os resultados são mostrados na figura 13. Foi verificada uma clara divisão

entre as pessoas em edifícios naturalmente ventilados no momento da pesquisa e aqueles em que

os edifícios foram aquecidos ou resfriados. A relação no caso dos edifícios com ventilação natural foi

aproximadamente linear. Para edifícios aquecidos e refrigerados a relação foi mais complexa.

36

Figura 13 – Variação da temperatura de conforto com a temperatura média do mês. Cada ponto

representa um estudo à parte [32]. É possível distinguir os prédios com ventilação natural e os com

sistema de arrefecimento/aquecimento.

Num outro estudo realizado por Dunn et al. [26] foi feita uma divisão entre os edifícios

equipados com sistemas de ar condicionado central e aqueles que são naturalmente ventilados,

onde se argumenta que as expectativas dos ocupantes de cada um dos dois tipos de edifício são

diferentes. No entanto, parece pouco provável que os utilizadores devam modificar as suas respostas

em relação ao edifício, com base nas suas expectativas de serviços de construção. De facto, essa

distinção não é apoiada por evidências em ensaios fora de laboratórios [41]. Assim, tem sido

argumentado que apenas o uso da temperatura exterior para calcular as temperaturas de conforto

ignora uma série de outros fatores, como a humidade e o movimento do ar. A temperatura de

conforto é claramente uma função de mais do que apenas a temperatura exterior, tal como já foi

apontado anteriormente. A relação é de certa forma uma 'caixa preta empírica", porque as

interligações não estão totalmente definidas.

3.4.5. Sensibilidade térmica do individuo

A sensibilidade térmica de um indivíduo é quantificada pelo fator Fs, que assume valores

mais elevados para os indivíduos com menor tolerância a condições térmicas não-ideais. Este grupo

inclui mulheres grávidas, pessoas com deficiência, bem como as pessoas cuja idade está abaixo dos

catorze ou acima de sessenta, que é considerado idade adulta. A literatura existente fornece

evidências consistentes de que a sensibilidade de superfícies quentes e frias diminui com a idade.

Há também algumas evidências de uma redução gradual na eficácia do corpo na termorregulação

após a idade de sessenta anos. Isto acontece principalmente devido a uma resposta mais lenta dos

mecanismos de oposição na parte inferior do corpo, que são usados para manter a temperatura no

37

centro do corpo em valores ideais [42]. Fatores situacionais incluem a saúde, atividades psicológicas,

sociológicas e profissional das pessoas.

3.4.6. Diferenças Sexuais

Embora as preferências de conforto térmico entre os sexos pareçam ser pequenas, existem

algumas diferenças. Estudos descobriram que os homens relatam desconforto devido ao aumento da

temperatura muito mais cedo do que as mulheres. Os homens também estimam níveis mais altos de

sensação de desconforto do que as mulheres. Um estudo recente testou homens e mulheres nas

mesmas roupas de algodão, realizando trabalhos mentais, enquanto relatavam o seu conforto

térmico em função da temperatura em mudança. Frequentemente, as mulheres preferem

temperaturas mais altas. No entanto, enquanto as mulheres foram mais sensíveis a temperaturas, os

homens tendem a ser mais sensíveis aos níveis de humidade relativa [43].

3.4.7. Pessoas nos Edifícios

Os edifícios diferem num inúmero de maneiras: para além da sua forma física individual,

diferem nos seus serviços, em que tipo de sistema de aquecimento ou arrefecimento é fornecido e se

ele é usado; nas possibilidades que eles oferecem para os ocupantes de controlar o seu ambiente e

nas políticas de gestão sobre se há um código de vestuário e assim por em diante.

Há outros aspetos na construção de edifícios que afetam o conforto dos ocupantes. Leaman

e Bordass [44] demonstraram que existe uma maior tolerância por parte dos utilizadores em edifícios

em que os ocupantes têm maior acesso aos controlos das condições. Tolerância pode ser definida

como a facilidade dos ocupantes do edifício serem afetados por deficiências no ambiente térmico.

Baker et al. [45] identificam uma ‘’oportunidade adaptativa" oferecida por um edifício que vai

afetar o conforto dos seus ocupantes. Oportunidade adaptativa é geralmente interpretada como a

possibilidade de abrir uma janela, subir um estore, usar um ventilador, etc., mas também deve incluir

práticas de trabalho, código de vestuário e outros fatores que influenciam a interação entre o

ocupante e a construção. Mudanças no vestuário, atividades e postura e a promoção da circulação

do ar mudará as condições que as pessoas consideram confortáveis. Muitas das oportunidades de

adaptação disponíveis em edifícios não terão efeito direto sobre as condições de conforto, mas vai

permitir que os ocupantes possam alterar as condições de acordo com as suas necessidades. O

comportamento adaptativo real é uma amálgama de dois tipos de ações: a alteração das condições

de modo a estar de acordo com o conforto e a alteração da temperatura de conforto de modo a estar

de acordo com as condições prevalecentes. A gama de condições consideradas confortáveis é

afetada pelas características do edifício e pelas oportunidades de adaptação individual dos

ocupantes.

38

4. Descrição do Caso de Estudo

4.1. Localização

O caso de estudo apresentado no âmbito desta tese é o núcleo de Gabinetes 2N-14 usados

por docentes do Instituto Superior Técnico, sediado na Av. Prof. Doutor Aníbal Cavaco Silva, em

Oeiras. Este localiza-se no 2º andar do Tagus Park.

Figura 14 – Instituto Superior Técnico, campus Tagus Park [46]

4.2. Descrição detalhada

O núcleo 2N-14 situa-se na fachada oeste do edifício, virado para Sudoeste como se vê na

figura 15.

Figura 15 – Vista Aérea do Edifício do Tagus Park [47]

39

As plantas dos gabinetes são apresentadas na figura 16.

Figura 16 – Planta dos gabinetes dos docentes do núcleo 2N-14

Como se pode observar, existem 14 gabinetes e um corredor. Em 7 destes gabinetes, o sol

incidirá diretamente na parte envidraçada da sala ao fim da tarde.

O primeiro gabinete a sul do corredor tem 17m2 e os restantes 14m2, a norte do corredor o

primeiro gabinete tem 22m2 e os restantes 19m2.

4.3. Sistema de Controlo Atual

O controlo dos gabinetes é feito recorrendo á tecnologia de domótica KNX. Este sistema

permite controlar a iluminação e o sistema AVAC. Para isso dispõe de um controlador de iluminação

e de temperatura no gabinete.

Os dados medidos pelos sensores são possíveis de ser lidos no interface do sistema (figura

17). Este sistema é composto por um painel de interface onde também é possível controlar o nível de

iluminação (ON-OFF) e ajustar uma temperatura padrão que o utilizador desejar.

40

Figura 17 – Interface do utilizador do atual sistema instalado nos gabinetes a serem testados

O sistema instalado até à data é muito simplificado; o utilizador tem de ajustar uma

temperatura de conforto o (setpoint de temperatura) e o ar condicionado ligar-se-á consoante a

diferença de temperaturas entre o setpoint e a temperatura no interior da sala no mesmo instante. À

medida que a diferença de temperaturas diminui, também diminui a velocidade do ar condicionado.

Este sistema tem três velocidades possíveis e ainda a opção de desligado. Quando a

temperatura de conforto ajustada é igual ou 1ºC menor que a temperatura medida da sala, o AC liga-

se na velocidade 1. Quando se regista uma diferença de -2ºC, é acionada a velocidade 2, e maior ou

igual que -3ºC, a velocidade 3. Este nível de ordens é representado no anel de controlo na figura 18.

Figura 18 – Anel de controlo do sistema instalado

41

4.4. Sistema de Controlo Proposto

Este trabalho foi desenvolvido com o objetivo de desenvolver as capacidades de controlo do

sistema instalado e ainda a capacidade de ajustar um setpoint por um algoritmo de aprendizagem

como indicado na figura 19.

Figura 19 – Anel de controlo do sistema instalado desenvolvido.

Através deste novo algoritmo de controlo, será possível encontrar a temperatura de conforto

de cada usuário do gabinete e ainda aprender quais as velocidades do ar condicionado consoante a

sensibilidade do usuário, assim como o modelo térmico sala. O anel de controlo final é demonstrado

na figura 20.

Figura 20 – Anel de Controlo final com o algoritmo de aprendizagem

42

5. REINFORCEMENT LEARNING

5.1. Desenvolvimento Inicial de Algoritmos

O controlo de um sistema de gestão de energia tem o potencial para reduzir o consumo de

energia, aumentar a satisfação do ocupante e diminuir os custos de manutenção. Nos últimos 20

anos, inúmeros esquemas de controlo de supervisão têm sido propostos. O progresso rápido neste

campo é resultado do aumento da experiência industrial, da melhor compreensão da construção de

sistemas de energia, grandes avanços na disciplina de otimização e inteligência artificial, e, mais

importante, do uso de simulações de edifícios em computador. No entanto, apesar dos avanços

teóricos, o controlo baseado em regras ainda é dominante na prática. Aplicações bem-sucedidas de

abordagens avançadas de controlo para o a construção de sistemas de energia de supervisão

raramente são reportados porque os esquemas modernos de controlo ótimo são amplamente

considerados pelos praticantes como não confiáveis, excessivamente complexos em termos de

conceção, e de ajuste e manutenção demorada. A maioria dos métodos de otimização baseados em

modelos requerem modelos precisos do sistema de construção, que são muito complexos e o seu

tempo de convergência é longo [48].

Outra abordagem menos exigente computacionalmente consiste no ajuste de um modelo de

supervisão com controlador online, ou seja, em tempo real. No entanto, a sintonia online de um

controlador de supervisão não é uma tarefa fácil, uma vez que [49]:

1. A avaliação de uma decisão atual não pode ser determinada de forma isolada em cada

passo de tempo, mas deve basear-se num somatório dos custos num horizonte temporal.

Uma boa decisão será um compromisso entre os interesses de curto prazo e os interesses

de longo prazo (um chamado atraso na recompensa). Portanto, uma série de decisões ao

longo do horizonte temporal devem ser avaliadas em conjunto, como se o todo fosse

abrangido apenas por uma política.

2. Exemplos da relação entre o rendimento global e as decisões de controlo não podem ser

observadas diretamente ou calculadas explicitamente, como é o caso da aprendizagem

supervisionada, porque um modelo suficientemente preciso não está disponível. O algoritmo

de ajuste tem de aprender a partir de sua própria experiência ou através da gravação de

experiências anteriores.

3. Como a afinação é feita em tempo real, o desempenho durante o processo de ajuste também

é motivo de preocupação. O desempenho global pode realmente piorar se um período

demasiado longo do tempo é gasto na procura de uma estratégia de controlo ideal. No

entanto, o algoritmo não pode dizer se as decisões de controlo atuais são melhores do que

as decisões que nunca foram tentadas, se não for autorizado a explorar um território inédito.

43

Este problema é chamado equilíbrio entre a exploração (exploration) e aproveitamento

(exploitation) [49].

Pelos motivos mencionados, o Reinforcement Learning (RL) é um poderoso sistema sem

supervisão de aprendizagem [48], que tem sido amplamente estudada por investigadores como

Kaelbling, Littman, Moore, Barto, Sutton, Watkins e Mahadevan, todos eles autores de vários artigos

e livros sobre o tema, como já tem sido referenciado ao longo deste capítulo. RL é o nome dado a

um grupo de métodos para lidar com os problemas de aprendizagem, quando um agente tem de

encontrar o comportamento ótimo, interagindo com um ambiente desconhecido, envolvendo

geralmente um atraso na recompensa. Vários algoritmos de RL têm sido sugeridos, dependendo se a

função de valor de estado é aprendida ou a função de estado - ação é aprendida; e como os valores

de estado de ação são alterados. Entre muitos outros algoritmos RL, o Q-learning é considerado

como ''um dos avanços mais importantes de RL'', e favorecido por muitos pesquisadores para

aplicações práticas, pois é relativamente simples, converge de forma confiável e tem uma sólida

formação teórica [50]. O algoritmo Q-learning será explicado na secção 5.6.

5.2. Desvantagens e Pontos Fracos

Existem algumas limitações para o uso de RL. A dificuldade principal enfrentada é que os

métodos RL tendem a aprender muito lentamente [51]. Isso pode levar a um fraco desempenho em

ambientes dinâmicos. Outro ponto fraco dos métodos de RL é o equilíbrio entre a exploração e o

aproveitamento. Embora os agentes RL estejam a tentar alcançar um objetivo o mais rapidamente

possível (aproveitamento), devem também procurar saber mais informações sobre o seu ambiente, a

fim de melhorar o desempenho futuro (exploração).

A transferência do conhecimento de um agente para outro é outra dificuldade quando se

considera sistemas RL. Isto acontece devido ao facto de ser um método global de aprendizagem que

contém toda a informação obtida acerca do ambiente numa única função de valor.

O conhecimento obtido por um agente RL é muito específico para o ambiente em que o

agente operou, e não pode ser facilmente transferido para outro agente, mesmo que os ambientes

sejam muito semelhantes. Por exemplo, o conhecimento adquirido por um agente RL que aprendeu a

conduzir desde a cidade A até a cidade B não poderia ser transferido para um agente que estivesse

a tentar conduzir da cidade A até a cidade C. Mesmo que os domínios do problema sejam muito

semelhantes, e embora possa parecer que muito do conhecimento geral obtido a partir de um agente

possa beneficiar o outro, não existe um método eficiente para a transferência desse conhecimento.

44

5.3. Introdução, Conceitos e Elementos do Reinforcement

Nas próximas subsecções, todas as informações não referenciadas foram retiradas do livro

chamado “Reinforcement Learning - An Introduction’’ escrito por Sutton e A. G. Barto [52].

RL é aprender o que fazer - como mapear situações de ações - de modo a maximizar um

sinal de recompensa numérico. Ao agente que aprende não é dito que ações tomar, como na maioria

das formas de aprendizagem de máquina, mas em vez disso deve descobrir quais as ações que

produzem a maior recompensa por experimentação. Nos casos mais interessantes e desafiadores,

as ações podem afetar não só a recompensa imediata, mas também a próxima situação e, por isso,

todas as recompensas posteriores. Essas duas características - pesquisa de tentativa-e-erro e

recompensa adiada - são as duas características distintivas mais importantes do RL.

RL é definido não como caracterizando métodos de aprendizagem, mas por caracterizar um

problema de aprendizagem. Qualquer método que é bem adequado para resolver esse problema, é

considerado um método de RL.

A ideia básica consiste simplesmente capturar os aspetos mais importantes do problema real

diante de um agente disposto a aprender e a interagir com o seu ambiente para atingir um objetivo.

Claramente, esse agente tem de ser capaz de detetar o estado do meio ambiente em certa medida e

deve ser capaz de tomar ações que afetem o estado. O agente também deve possuir uma ou mais

metas relativas ao estado do ambiente. A formulação pretende incluir apenas estes três aspetos -

sensação, ação e objetivo - nas suas formas mais simples possíveis, sem banalizar nenhum deles.

Um dos desafios que surgem no RL e não em outros tipos de aprendizagem é o trade-off

entre a exploração e aproveitamento. Para obter um grande montante de recompensa, um agente de

RL deve preferir ações que tenha encontrado e tentado no passado para ser eficaz na produção da

mesma. Mas, para descobrir essas ações, tem que tentar ações que ainda não escolheu antes. O

agente tem de explorar o que já sabe, a fim de obter uma recompensa, mas também tem de explorar

a fim de fazer melhores seleções - ações no futuro. O dilema é que nem exploração, nem o

aproveitamento podem ser executados exclusivamente sem falhar na tarefa. O agente deve tentar

uma variedade de ações e, progressivamente, favorecer aquelas que parecem ser melhores. Numa

tarefa estocástica, cada ação deve ser tentada inúmeras vezes para obter uma estimativa digna de

confiança da sua recompensa esperada.

Além do agente e do ambiente, é possível identificar quatro principais subelementos de um

sistema de RL: uma política, uma função de recompensa, uma função de valor, e, opcionalmente, um

modelo do ambiente.

A política define o caminho do agente de aprendizagem de se comportar num determinado

momento. De grosso modo, a política é um mapeamento de estados do ambiente para ações a

45

serem tomadas em função desses estados. Este mapeamento corresponde ao que em Psicologia

seria chamado um conjunto de regras estímulo-resposta ou associações. Em alguns casos, a política

pode ser uma função simples ou tabela de referência, enquanto em outros pode envolver extensa

computação, como um processo de busca. A política é o núcleo de um agente de RL, no sentido de

que por si só é suficiente para determinar o seu comportamento. Em geral, as políticas podem ser

estocásticas.

A função de recompensa define o objetivo de um problema de RL. Mapeia cada estado (ou

par estado-ação) do ambiente de um único número, uma recompensa, indicando o desejo intrínseco

daquele estado. O único objetivo de um agente de RL é o de maximizar a recompensa total que

recebe a longo prazo. A função de recompensa define quais são os bons e os maus eventos para o

agente. Num sistema biológico, não seria inapropriado identificar recompensas como prazer e dor.

Eles são os recursos imediatos e definidores do problema enfrentado pelo agente. Como tal, a

função de recompensa deve necessariamente ser inalterável pelo agente. Pode, no entanto, servir

como uma base para a alteração da política. Por exemplo, se uma ação selecionada pela política é

seguida por uma baixa recompensa, então a política pode ser alterada para selecionar uma outra

ação nessa mesma situação no futuro. Em geral, as funções de recompensa podem ser estocásticas.

Enquanto que a função de recompensa indica o que é bom num sentido imediato, uma

função de valor especifica o que é bom a longo prazo. O valor de um estado é a quantidade total de

recompensa que um agente pode esperar a acumular ao longo do futuro, a partir desse estado. Para

fazer uma analogia humana, as recompensas são como o prazer (se altas) e dor (se baixas), ao

passo que os valores correspondem a um juízo mais refinado e perspicaz de quão satisfeito ou

insatisfeito estamos de que nosso ambiente está num estado particular.

É dada preferência às ações que provocam estados de maior valor, não mais alta

recompensa, pois essas ações obtêm a maior recompensa a longo prazo. No momento da decisão e

planeamento, a quantidade derivada do chamado valor é aquela a que damos mais atenção.

Infelizmente, é muito mais difícil determinar os valores do que determinar recompensas.

Recompensas são, basicamente, dadas diretamente pelo meio ambiente, mas os valores devem ser

estimados repetidamente ao longo das sequências de observações de um agente ao longo de toda

sua vida útil. De facto, o componente mais importante de quase todos os algoritmos de RL é um

método para estimar os valores de forma eficiente.

O quarto e último elemento de alguns sistemas de RL é um modelo do ambiente. Este tenta

imitar o comportamento do meio ambiente. Por exemplo, dado um estado e uma ação, o modelo

pode prever o próximo estado resultante e a próxima recompensa. Vários modelos são usados para

o planeamento, ou seja, qualquer forma de decidir sobre um curso de ação, considera possíveis

situações futuras antes de serem realmente experimentadas. A incorporação de modelos de

planeamento em sistemas de RL é um desenvolvimento relativamente novo. No entanto, aos poucos

tornou-se claro que os métodos de aprendizagem de reforço estão intimamente relacionados com os

46

métodos de programação dinâmica, que fazem uso de modelos, e que por sua vez estão

intimamente relacionados com os métodos de planeamento de espaço de estado.

5.4. Arquitetura de Reinforcement Learning

O problema de RL é destinado a ser um enquadramento simples para o problema de

aprender a partir duma interação para alcançar um objetivo. O aprendiz e o tomador de decisões são

chamados de agente. O único elemento com que o agente interage, ou seja, tudo o que está para

além das suas fronteiras, é chamado o meio ambiente. Estes interagem continuamente, o agente

selecionando ações novas e o meio ambiente respondendo a essas ações e apresentando novas

situações ao agente. O ambiente também gera recompensas, valores numéricos especiais que o

agente tenta maximizar com o tempo. A especificação completa de um ambiente define uma tarefa,

um elemento crucial no problema de RL.

Mais especificamente, o agente e o ambiente interagem em cada sequência de passos de

tempo discretos, t = 0, 1, 2, 3…. Em cada passo de tempo t, o agente recebe uma representação do

estado do meio ambiente st ϵ S, onde S é o conjunto de estados possíveis, e com base nisso

seleciona um ação at ϵ A(st), onde A(st) é o conjunto de ações disponíveis no estado st. Um passo

mais tarde, em parte como consequência de sua ação, o agente recebe uma recompensa numérica

rt+1 ϵ R, e encontra-se num novo estado st+1.

Figura 21 – Esquema do relacionamento entre estado – ação – recompensa [52].

Em cada passo de tempo, o agente implementa um mapeamento dos estados para

probabilidades de seleção de cada ação possível. Este mapeamento é chamado como política do

agente e é indicado como πt, onde πt(s,a) é a probabilidade de que at = a se st = s. Os métodos de

RL especificam como o agente muda sua política, como resultado da sua experiência. O objetivo do

agente, em termos genéricos, é maximizar a quantidade total de recompensa que recebe ao longo do

tempo.

47

5.5. Q-learning

Q-learning é uma técnica de reforço de aprendizagem livre de modelos de ambiente. Pode

ser usado para encontrar uma política de ação-seleção ideal para qualquer processo finito de

decisão de Markov (MDP) [52]. Funciona através da aprendizagem de uma função de valor de ação

que dá o valor esperado de tomar uma determinada ação em um determinado estado e finalizado

pela política ótima posteriormente.

A política de decisão consiste numa regra que o agente segue em ações de seleção, dado o estado

em que se encontra. Quando a função valor-ação é aprendida, a política ótima pode ser construída,

bastando selecionar a ação com o valor mais alto em cada estado. Um dos pontos fortes de Q-

learning é a capacidade de comparar a utilidade esperada das ações disponíveis sem necessitar de

um modelo do ambiente. Além disso, Q-learning pode lidar com problemas com transições

estocásticas e recompensas, sem a necessidade de qualquer adaptação. Provou-se que para

qualquer processo finito de decisão, Q-learning, eventualmente, encontra uma política ótima, no

sentido em que o valor esperado da recompensa total sobre todos os passos sucessivos, a partir do

estado atual, é o máximo atingível.

Figura 22 – Esquema com a relação entre o sistema (meio ambiente) e o agente (com a função de criticar e atuar) [53]

48

Um modelo Q-learning é composto por um agente, um conjunto de estados S e um conjunto

de ações por estado A. Ao realizar uma ação, o agente pode passar de um estado para outro. A

execução de uma ação num estado específico fornece uma recompensa ao agente (um número real

ou natural). O objetivo do agente é o de maximizar a sua recompensa total feito através da

aprendizagem que a ação é o ideal para cada estado, no sentido de o valor esperado da recompensa

total sobre todos os passos futuros a partir do estado atual, e não apenas a recompensa imediata

resultante da par ação-estado.

Assim, o algoritmo tem uma função que calcula a qualidade de uma combinação de estado-

ação:

(Eq. 3.1)

Antes de aprendizagem começar, o valor Q retorna um valor fixo arbitrário, escolhido por

quem implementa o sistema. Cada vez que o agente seleciona uma ação, é selecionada uma

recompensa e um novo estado que tanto pode depender do estado anterior como da ação

selecionada. O núcleo do algoritmo é, então, uma atualização do valor iterado que vai corrigir o valor

antigo com base na nova informação.

(Eq. 3.1)

49

6. Algoritmo de Reinforcement Learning

Desenvolvido

Neste capítulo é apresentada a construção do algoritmo de aprendizagem reforçada. São

abordados todos os parâmetros de controlo escolhidos para a implementação do programa, e

explicado todo o código programado.

Este capítulo é dividido em vários subcapítulos que descrevem: a interface criada entre o

utilizador e o sistema, um algoritmo que encontra a temperatura de conforto ideal do utilizador e um

algoritmo que incita uma aprendizagem ao sistema de ar condicionado de que velocidade ligar,

dependendo da temperatura do gabinete.

6.1. Implementação

Foi criado um algoritmo constituído por duas partes:

1. modo em que o sistema aprende a temperatura ideal de conforto (necessária a intervenção

do utilizador na interface do programa);

2. modo usado depois de a temperatura de conforto ter sido descoberta, capaz de aprender

qual a velocidade do sistema de ar condicionado (AC) ligar consoante a temperatura do

gabinete e o estado de conforto do ocupante (desnecessária a intervenção do ocupante).

Este modo chama-se ‘Controlo Automático’

Quando o programa inicia, é apresentado ao utilizador uma interface que permite o início do

controlo do AC através de um botão. Esta interface vai indicar a temperatura atual da sala e a

velocidade do AC. Existe um slider, permitindo que o utilizador mude a velocidade do AC como

desejar, e ainda um botão capaz de controlar as luzes do gabinete. É apresentado um gráfico com a

temperatura da sala e a velocidade do AC desde que o controlo foi ligado. Por fim existe um campo

chamado ‘Aprendizagem’ onde se pode observar em que modo o algoritmo se encontra. Esta

interface é apresentada na figura 23.

50

Figura 23 – Interface do programa inicial antes do funcionamento

6.2. Temperatura ideal do utilizador

Este cenário passa-se num gabinete do IST no campus TagusPark. De modo a podermos

construir um perfil de temperatura, conforto e sensibilidade para uma certa pessoa, devemos

começar por descobrir qual a temperatura ideal de conforto padrão para o utilizador.

Com esse objetivo foi feito um algoritmo de aprendizagem reforçada com a equação do

reforço a ser dependente do interesse do utilizador em mudar o ambiente da sala por iniciativa

própria. Neste modo o utilizador terá liberdade total para proceder às alterações que considerar mais

convenientes para se encontrar num estado de conforto ideal. Esta parte do algoritmo está apenas

limitada a verificar se o utilizador alterou o AC e em que temperaturas correntes da sala o fez. É

assumido que a temperatura da sala em que se verificou menos, ou nenhumas, alterações por parte

do utilizador num certo espaço de tempo, é a temperatura de conforto ideal deste utilizador.

51

Algoritmo:

1. Inicia Matriz das probabilidades (temperaturas,ΔAC)

2. While nenhuma probabilidade < 0.85

3. Lê Temperatura do gabinete

4. Verifica se utilizador mexeu no Ar Condicionado

5. Recompensa dada em função da diferença de nível de velocidades do AC

��� = ������ !"!� �� "#��$ �$% − ������ !"!� �� "�'"�% (Eq. 4)

$����(�#)" = * − ��� (Eq. 5)

6. Rearranja a matriz das probabilidades de modo a dar ser sempre igual a 1

7. Compasso de espera de 5 minutos

8. Repete pontos 3 a 7 enquanto ponto 2 não é validado

No seguimento deste algoritmo, é-nos possível dizer qual é a temperatura ideal de conforto

padrão do utilizador pois a matriz de probabilidades ao fim de um certo tempo terá, na coluna do

ΔAC = 0, uma das probabilidades superior a 0.85 (valor limite estabelecido para ser considerado

válido). A linha em que isto suceder corresponderá à temperatura procurada. O exemplo da matriz na

tabela 1 ilustra este modo

Tabela 1 – As probabilidades iniciam-se com 0.5, pois apenas existem duas hipóteses, se o utilizador alterou ou não, o AC. Como as probabilidades se alteram depende da mudança de velocidade

T[ºC] ��� = 0 ��� > 0

22 0.5 0.5

23 0.5 0.5

24 0.5 0.5

25 0.5 0.5

26 0.5 0.5

27 0.5 0.5

28 0.5 0.5

52

Tabela 2 – Matriz onde é observado o resultado para um utilizador onde a temperatura de conforto ideal é

de 25ºC.

T[ºC] |���| = � |���| , �

21 0.5 0.5

22 0.5 0.5

23 0.5 0.5

24 0.723 0.2767

25 0.89 0.11

26 0.54 0.46

27 0.7 0.3

28 0.5 0.5

De seguida é apresentado na figura 24 um fluxograma explicando como o algoritmo funciona

e na figura 25 são descritos os elementos mostrados na interface durante o modo ‘Temperatura de

conforto’.

53

Figura 24 – Funcionamento do algoritmo Temperatura de Conforto.

Figura 25 – Interface da Aplicação durante o 1º modo - Temperatura de Conforto.

6.3. Controlo Automático

O objetivo neste modo é que o sistema aprenda qual a velocidade da ventoinha que deve ser

ligada, ou não ligar de todo, consoante a temperatura atual e a temperatura ideal de conforto do

utilizador. Assim a interface mudará e terá um aviso colocado “Controlo Automático” a avisar que o

segundo modo está em funcionamento, como mostrado na figura 26.

54

Figura 26 - Interface da Aplicação durante o 2º modo - Controlo Automático

É de notar que o agente irá aprender qual a velocidade ideal do AC com base nas escolhas

certas e erradas. Deste modo, no início, não tem qualquer conhecimento de qual a velocidade do AC

que deve ligar, seja qual for a temperatura do gabinete e seja qual for a temperatura de conforto.

Consequentemente fazemos um mapeamento da política do agente, isto é, as probabilidades de que

velocidade ligar primeiro, e obviamente, no início, todas elas serão iguais:

-����% = -����% = -���% = -���*% =

.= �. �

(Eq. 6)

55

O algoritmo é iniciado com a leitura do estado (�)�"!� �% do gabinete, neste caso, a

temperatura interior.

De seguida começará a ligar o ar condicionado em um nível aleatoriamente escolhido (AC =

0,1,2 ou 3) consoante a sua política (probabilidades). No espaço temporal programado de cinco

minutos, a temperatura do gabinete será alterada e lida mais uma vez. Este será o estado �� + �%.

O reforço, ou recompensa, será dependente do estado do conforto da pessoa (PMV), e será

dada ao agente na forma de um número, o quanto mais elevado melhor. Esta recompensa terá um

impacto na política do agente, a qual terá efeitos no remapeamento dos possíveis estados, ou seja,

nas probabilidades de seleção de cada ação possível.

Sabendo a temperatura de conforto ideal já antes aprendida pelo algoritmo anterior, temos

uma expressão baseada no PMV de:

-01 = 2�"�'"�% − 2���#3�$��% (Eq. 7)

Para fim de melhor compreensão do leitor, é apresentado um exemplo onde é assumida uma

Temperatura de Conforto de 25ºC, pelo que os próximos resultados serão apresentados consoante

esta.

Temos então os seguintes resultados:

Temperatura (°C) 22 23 24 25 26 27 28

PMV -3 -2 -1 0 1 2 3

Tabela 3 – Relação entre a Temperatura do gabinete e o PMV do utilizador consoante a eq. 7

Como a recompensa é maior quanto maior for o conforto, temos que expressá-la da seguinte

forma:

4����(�#)" = * − |-01| (Eq. 8)

Deste modo, a recompensa terá um valor máximo igual a 3 que corresponde ao valor do

PMV neutro �-01 = �%.

Consoante a recompensa, haverá um rearranjo das probabilidades da política do agente.

Consequentemente, a probabilidade correspondente à velocidade do AC recompensada subirá

sempre no valor de $����(�#)"/*�, ou seja, 0.1 se a recompensa for de 3, e 0.033 se a

recompensa for de 1. As outras 3 probabilidades (correspondentes às restantes 3 velocidades do AC

que não foram escolhidas) descerão cada uma um terço da probabilidade que subiu, ou seja,

$����(�#)"/5�.

56

De seguida na figura 27 é apresentado um fluxograma para melhor entendimento do

funcionamento do algoritmo.

Figura 27 – Fluxograma do Algoritmo de aprendizagem do controlo do Ar Condicionado

57

Abaixo são apresentados, em forma de tabela, dois exemplos de como o programa se irá

comportar com algumas temperaturas lidas no gabinete.

Figura 28 – Exemplos de como funciona o algoritmo para duas Temperaturas diferentes lidas na sala (a –

27ºC; b – 26ºC)

58

7. Resultados Experimentais

Neste capítulo serão apresentados os resultados obtidos e feita uma análise dos mesmos. O

algoritmo foi testado em quatro gabinetes distintos do núcleo do IST, campus Tagus Park. Os

resultados são apresentados por gabinete e, de seguida, é feita uma análise do comportamento de

cada um dos modos do algoritmo.

Durante o período experimental foi possível testar o algoritmo, mais que uma vez, em certos

gabinetes e observar diferentes linhas de aprendizagem, principalmente devido a fatores ambientais

externos como precipitação e tempo de exposição solar do gabinete e até o abrir e fechar portas.

Enquanto a aplicação foi testada, foi também atualizada conforme eram verificados erros de

programação, e foi possível observar certas dificuldades na execução do algoritmo.

É de notar que em qualquer figura futuramente apresentada, dos históricos do AC e da

temperatura, o início da linha vermelha (temperatura de conforto) representa a mudança do 1º modo

(temperatura de conforto) para o 2º modo (controlo automático).

7.1. Algoritmo com temperatura de conforto fixa

7.1.1. Gabinete 2N-14.16

No gabinete 2N-14.16, observa-se que o 1º modo esteve ativo até 19 espaços temporais, isto

é, durante 1h35, onde aprendeu uma temperatura de conforto de 26ºC (figura 29).

Figura 29 –Teste realizado no gabinete 2N-14.16

A partir da iteração 20, o sistema passou a ser controlado automaticamente, e observa-se o

início das ordens do AC a ser ligado aleatoriamente, pois todas as velocidades têm sensivelmente

probabilidades semelhantes de serem ligadas.

-1

0

1

2

3

4

22

23

24

25

26

27

28

0 10 20 30 40 50 60 70 80 90 100

Vel

oci

dad

e A

C

Tem

per

atu

ra S

ala

Espaços Temporais (5min)

Temperatura gabinete T. Conforto AC

59

Na iteração 30 até à 53, ou seja, após 2h30 da aplicação ter sido ligada, nota-se que a

temperatura do gabinete começa a ser constante à volta do valor de 26.5ºC, com uma diferença de

0.5ºC para a temperatura de conforto, inicialmente aprendida. No entanto ainda se assiste a uma

elevada aleatoriedade nas velocidades do AC até à iteração 45, 3h45 depois. Observa-se ainda, de

seguida, um valor constante na temperatura e na velocidade do AC até à iteração 53, 4h25 depois do

algoritmo ter sido iniciado.

Da iteração 53 em diante, verifica-se um comportamento semelhante ao descrito entre as

iterações 20-53, possivelmente iniciado por um elemento externo, como por exemplo, uma janela ou

porta aberta.

7.1.2. Gabinete 2N-14.24

No gabinete 2N-14.24 (figura 30), a aplicação ficou ligada durante 4h35, e deparou-se com a

ativação do 2º modo na iteração 18. O 1º modo ficou ligado durante 1h30 e registou uma temperatura

de conforto de 25ºC.

Figura 30 - Teste realizado no gabinete 2N-14.24

É possível observar uma boa performance em termos de diferença de temperaturas entre a

temperatura de conforto e a temperatura em tempo real do gabinete. Apesar de existir a já esperada,

aleatoriedade nas velocidades do AC nas primeiras iterações do 2º modo (18-25), constata-se, com

sucesso, uma temperatura aproximadamente constante em torno da temperatura de conforto (24.6ºC

– 25.4ºC). Nos últimos 50 minutos regista-se um abrupto aumento da temperatura do gabinete,

provavelmente devido à abertura da porta para o corredor, pois o corredor está constantemente com

uma temperatura mais elevada que a dos gabinetes, com AC ligado.

-1

0

1

2

3

4

24

24.5

25

25.5

26

26.5

27

0 10 20 30 40 50

AC

Tem

per

atu

ra S

ala

Espaços Temporais (5min)

Temperatura gabinete T. Conforto AC

60

7.1.3. Gabinete 2N-14.28

O gabinete 2N-14.28 é diferente dos espaços anteriores, pois é um gabinete interior e é um

gabinete partilhado por mais de um utilizador.

Em certas simulações foi-se deparando com resultados inesperados, visto que a temperatura

da sala certas vezes convergia para uma temperatura diferente da temperatura de conforto

aprendida (+/- 1ºC), como se pode observar no teste do gabinete 2N-14.28 (figura 31). Foi então

concluído que a temperatura de conforto de um certo utilizador, mesmo depois de aprendida, poderia

mudar ao longo do dia, e se o algoritmo tivesse esta mudança em conta, poderia operar com uma

melhor performance do que a observada. Estas alterações podem ser motivadas pela mudança de

utilizador, com um nível de conforto diferente, ou pelo simples facto de haver mais uma pessoa na

sala.

Figura 31 – Teste ao gabinete 2N-28 onde se verifica uma convergência da temperatura da sala para -1ºC da temperatura de conforto aprendida

Assim, sabendo que o algoritmo consiste em dois modos separados (temperatura de conforto

e controlo automático), e tendo em consideração que o controlo automático funciona em função da

temperatura de conforto aprendida anteriormente, era vantajoso que a temperatura de conforto

aprendida pudesse mudar ao longo do controlo automático, caso o algoritmo notasse um certo

desconforto do ocupante.

Foi assim feita a seguinte alteração no algoritmo do controlo automático: caso o utilizador dê

pelo menos três ordens contrárias à do sistema, o algoritmo verifica qual foi a mudança, e a

temperatura de conforto terá uma alteração. Se esta terceira ordem for ligar o AC na velocidade 2 ou

3, a temperatura de conforto descerá 1ºC, pois supõe-se que o ocupante estava com demasiado

calor. Caso a velocidade ligada seja 0 ou 1, a temperatura de conforto subirá 1ºC, pois o utilizador

estava com frio.

-0.5

0

0.5

1

1.5

2

2.5

3

3.5

24

24.5

25

25.5

26

26.5

0 10 20 30 40 50 60

AC

Tem

per

atu

ra S

ala

Espaços Temporais (5min)

Temperatura Gabinete T. Conforto AC

61

7.2. Algoritmo com Temperatura de Conforto Ajustável

7.2.1. Gabinete 2N-14.16

Com a nova versão do algoritmo, constata-se uma performance melhor comparada com a

anterior, e uma capacidade de o sistema conseguir incutir uma temperatura à sala bem mais próxima

da temperatura de conforto.

É possível observar, na figura 32, a mudança para o controlo automático na iteração 13,

1h05 depois da aplicação ter sido acionada, com uma temperatura de conforto aprendida de 24ºC,

deparando-se logo de seguida com uma rápida mudança de temperatura de conforto para os 26ºC.

Esta abrupta mudança é justificada pelas ordens anteriores, dadas pelo ocupante, para continuar a

ter o AC na velocidade 0. Como se verifica, seis ordens seguidas de acionar o AC na velocidade 0

geraram uma subida de 2ºC na temperatura de conforto. No restante tempo, até ao fecho da

aplicação, verifica-se uma boa leitura da temperatura do gabinete, nunca ultrapassando a diferença

de +/- 0.3ºC em relação à temperatura de conforto.

Figura 32 – Teste ao gabinete 2N-14.16 onde se observa uma mudança da temperatura conforto de 2ºC

durante o controlo automático

7.2.2. Gabinete 2N-14.14

Na simulação observada na figura 33, houve um comportamento muito semelhante ao anterior,

caracterizando uma temperatura de conforto aprendida no 1º modo de 26ºC, com uma rápida

descida de 2ºC, 50 minutos depois de ter sido acionado o controlo automático. Esta alteração foi

justificada pelas ordens dadas pelo utilizador ao sistema de ligar a velocidade 3 repetidamente

durante as iterações 24 e 30.

-1

0

1

2

3

4

23

23.5

24

24.5

25

25.5

26

26.5

0 10 20 30 40 50

AC

Tem

per

atu

ra S

ala

[ºC

]

Espaços Temporais (5min)

Temperatura Gabinete T. Conforto AC

62

Figura 33 – Teste simulado no gabinete 2N-14.14 onde se verificou uma descida na temperatura de conforto de 2ºC

7.3. Limitações Verificadas

Durante a realização deste projeto, foram notadas algumas limitações, que, sendo resolvidas

poderiam permitir melhoramentos consideráveis nos resultados.

A maior parte do código depende de recolha de dados através de um servidor capaz de ler a

temperatura e a velocidade do AC através de URLs próprios, abertos para qualquer utilizador de

Matlab e Internet. Infelizmente este trabalho também estava em curso durante a fase de testes do

programa o que provocou muitas vezes resultados pouco satisfatórios durante as primeiras semanas.

Era igualmente comum, na primeira semana de testes, o servidor ir abaixo, fazendo com que

dias completos do funcionamento do programa fossem desperdiçados. Com isto a fase de testes do

algoritmo ocorreu muito perto do limite de entrega do trabalho, impossibilitando novas e melhoradas

versões do programa face a possíveis retoques e alterações no código, embora se tenham

conseguido fazer melhorias satisfatórias que, efetivamente aumentaram consideravelmente a

performance do algoritmo desenvolvido.

Outra limitação experimental foi o facto de os URLs dos datapoints dos sensores da

temperatura exterior não estarem ativos, impedindo a criação de perfis de conforto para cada

utilizador, tendo ainda atenção as hora do dia, e assim fazer com que o programa conseguisse

reconhecer o perfil desejado pelo ocupante a qualquer dia do ano.

O objetivo inicial para o desenvolvimento desta Dissertação considerava a aplicação do

algoritmo de aprendizagem nos 14 gabinetes dispostos no núcleo. Infelizmente, contando com uma

sala de reunião, e alguns gabinetes desocupados este semestre, e tendo em conta que os datapoints

dos URLs de certos gabinetes não funcionavam na totalidade, só foi possível fazer simulações em

tempo real em 4 gabinetes distintos.

Adicionalmente, o algoritmo foi desenhado para ser aplicado em gabinetes ocupados por um

utilizador apenas, e tendo em conta que em certos gabinetes havia dois ocupantes, o algoritmo só

-1

0

1

2

3

4

22

23

24

25

26

27

15 25 35 45 55 65 75 85

AC

Tem

pe

ratu

ra S

ala

Espaços Temporais (5min)

Temperatura Gabinete T. Conforto AC

63

pôde ser usado por um utilizador de cada vez. Este encarregava-se de gerir o programa por ambas

as partes, muitas vezes perguntando ao seu colega se estava confortável.

Por fim, o facto de as condições climatéricas terem sido muito similares durante a realização

dos ensaios e de todos estes terem sido feitos durante o verão, não permite obter uma validação do

código para todas as condições.

64

8. Conclusões e trabalho futuro

O desenvolvimento de sistemas de controlo inteligente no âmbito da inteligência

computacional estabeleceu a base para melhorar a eficiência dos sistemas de controlo em edifícios.

As novas formas de conceção de sistemas centrados nas pessoas surgiu a partir do

desenvolvimento do campo científico da inteligência computacional. A aplicação de tais sistemas

para edifícios resulta nos chamados ‘’edifícios inteligentes’’. Foi então apresentada nesta tese uma

arquitetura de um sistema de controlo por aprendizagem reforçada para o controlo do conforto num

ambiente de escritórios.

O programa implementado foi desenvolvido com uma interface de simples interpretação por

parte dos utilizadores informando sobre os principais parâmetros do estado do gabinete em tempo

real.

Os ensaios realizados permitiram concluir que, a nível de conforto do ocupante, o sistema

obteve boas performances ao conseguir estabilizar a temperatura do gabinete muito próxima da

temperatura de conforto aprendida, tendo em conta que a velocidade do AC era ligada dependendo

de uma probabilidade, e nunca de uma ordem direta.

Foi também possível concluir que uma primeira aprendizagem da temperatura de conforto

muitas vezes era prematura, pois o ocupante tinha as suas necessidades alteradas ao longo do dia,

quer fosse eventualmente por desejo próprio ou outros fatores, como por exemplo fatores

climatéricos. Foi então necessário estender o cálculo da temperatura de conforto para além do 1º

modo, havendo sempre hipótese que durante o controlo automático a mesma se poderia alterar,

caso surgisse necessidade. Assim foram desencadeados novos ensaios onde se puderam verificar

melhorias em termos da convergência da temperatura da sala à de conforto.

Relativamente ao tipo de algoritmo que constituiu a aprendizagem reforçada, foi identificado

algum descontentamento em certos ocupantes, pois estes algoritmos requerem uma pesquisa de

tentativa e erro. Consequentemente, num estado prematuro de aprendizagem, houve ocupantes que

se sentiram incomodados com a velocidade do AC a alterar-se de forma aleatória e indesejada,

como, por exemplo, o acionamento da velocidade máxima quando a temperatura da sala encontrava-

se razoavelmente satisfatória.

Com base nos resultados obtidos, seria recomendado a elaboração de um estudo de tempo

maior, onde se testasse os programas nas várias estações e variações de clima. Outro

melhoramento recomendado seria a implementação do programa dependendo de outras variáveis

climatéricas, como a temperatura exterior, ou o nível de exposição solar do dia. Isto com o objetivo

de criar perfis de conforto para cada utilizador, tendo ainda atenção as hora do dia, e assim fazer

com que o programa conseguisse reconhecer o perfil desejado pelo ocupante a qualquer dia do ano.

65

Seria assim um bom contributo para o desenvolvimento dos sistemas inteligentes de gestão de

energia.

Por fim, num trabalho futuro, seria uma boa vantagem ter acesso às medições de consumo

de energia dos sistemas usados pelo algoritmo e verificar, se no final de contas, sempre houve uma

redução do consumo do edifício, pois seria a meta final de um sistema inteligente de gestão de

energia.

66

Bibliografia

[1] “Energy Use in the New Millennium, Trends in IEA Countries.” [Online]. Available: http://www.iea.org/publications/freepublications/publication/millennium.pdf. [Accessed: 13-Oct-2014].

[2] “IEA - International Energy Agency - affordable clean energy for all | iea.org.” [Online]. Available: http://www.iea.org/. [Accessed: 20-Feb-2014].

[3] a. I. Dounis and C. Caraiscos, “Advanced control systems engineering for energy and comfort management in a building environment—A review,” Renew. Sustain. Energy Rev., vol. 13, no. 6–7, pp. 1246–1261, Aug. 2009.

[4] “http://blog.iesve.com/index.php/2009/10/28/sustaining-our-future-by-rebuilding-our-past.” .

[5] U. White, “A Chave para Edifícios Sustentáveis e com Melhor Relação Custo-Benefício : Intelligent Energy.”

[6] H. Doukas, K. D. Patlitzianas, K. Iatropoulos, and J. Psarras, “Intelligent building energy management system using rule sets,” Build. Environ., vol. 42, no. 10, pp. 3562–3569, Oct. 2007.

[7] A. A. L. Hadi, A. Thesis, M. Of, S. In, and R. Energy, “ALGORITHM FOR DEMAND RESPONSE TO MAXIMIZE THE,” 2013.

[8] P. H. Louren and M. Disserta, “Gestão inteligente da procura no IST – TagusPark Paulo Henrique Lourenço Marques Engenharia Mecânica Júri,” 2012.

[9] “http://www.ibuilding.gr/definitions.html.” .

[10] “http://www.smartbuildingsinstitute.org.” .

[11] L. Klein, J. Kwak, G. Kavulya, F. Jazizadeh, B. Becerik-Gerber, P. Varakantham, and M. Tambe, “Coordinating occupant behavior for building energy and comfort management using multi-agent systems,” Autom. Constr., vol. 22, pp. 525–536, Mar. 2012.

[12] “AURESIDE - Associação Brasileira de Automação Residencial.” [Online]. Available: http://www.aureside.org.br/artigos/default.asp?file=all.asp. [Accessed: 14-Oct-2014].

[13] “http://www.princetongreen.org/our-goal/our-solutions-portfolio/save-money/building-automation.” .

[14] “A Brief History of Building-Automation Interoperability | Control Engineering.” [Online]. Available: http://www.controleng.com/single-article/a-brief-history-of-building-automation-interoperability/389c3bbb9f7abc7c055fa88a4a3a6419.html. [Accessed: 06-Oct-2014].

[15] “KNX Association - KNX Association [Official website].” [Online]. Available: http://www.knx.org/knx-en/index.php. [Accessed: 06-Oct-2014].

[16] “http://csdomotic.ch/installation-traditionnelle-face-a-une-installation-knx/.” .

[17] “de Dear, Richard; Brager, Gail (1998). ‘Developing an adaptive model of thermal comfort and preference’. ASHRAE Transactions 104 (1): 145–67.”

67

[18] “Huizenga, Charlie; Abbaszadeh, Sahar; Zagreus, Leah; Arens, Ed (2006).‘Air quality and thermal comfort in office buildings: Results of a large indoor environmental quality survey’. Healthy buildings.”

[19] “Myhren, Jonn Are; Holmberg, Sture (2008). ‘Flow patterns and thermal comfort in a room with panel, floor and wall heating’. Energy and Buildings 40(4): 524.”

[20] “SED.” [Online]. Available: http://www.saudepublica.web.pt/05-promocaosaude/054-SOcupacional/SED.htm. [Accessed: 06-Oct-2014].

[21] “Fang, L; Wyon, DP; Clausen, G; Fanger, PO (2004). ‘Impact of indoor air temperature and humidity in an office on perceived air quality, SBS symptoms and performance’. Indoor air. 14 Suppl 7: 74–81.”

[22] “Cabanac, Michel (1971). ‘Physiological role of pleasure’. Science 173(4002): 1103–7.”

[23] “Toftum, J. (2005). ‘Thermal Comfort Indices’. Handbook of Human Factors and Ergonomics Methods. Boca Raton, FL, USA: 63.CRC Press.”

[24] “Szokolay, Steven V. (2010). Introduction to Architectural Science: The Basis of Sustainable Design (2nd ed.). pp. 16–22.”

[25] “Havenith, G (1999). ‘Heat balance when wearing protective clothing’. The Annals of Occupational Hygiene 43 (5): 289–96.”

[26] W. A. Dunn, G. S. Brager, K. A. Brown, D. R. Clark, J. J. Deringer, J. J. Hogeling, D. Int-hout, B. W. Jones, J. N. Knapp, A. G. Kwok, H. Levin, A. K. Melikov, P. Simmonds, J. M. Sipes, E. M. Sterling, and B. P. Sun, “ASHRAE STANDARD Thermal Environmental Conditions for Human Occupancy,” vol. 2004, 2004.

[27] “Wolkoff, Peder; Kjaergaard, Søren K. (2007). ‘The dichotomy of relative humidity on indoor air quality’. Environment International 33 (6): 850–7.”

[28] R. Z. Freire, G. H. C. Oliveira, and N. Mendes, “Predictive controllers for thermal comfort optimization and energy savings,” Energy Build., vol. 40, no. 7, pp. 1353–1365, Jan. 2008.

[29] “Fanger, P Ole (1970). Thermal Comfort: Analysis and applications in environmental engineering. McGraw-Hill.”

[30] “Ye, X. J.; Zhou, Z. P.; Lian, Z. W.; Liu, H. M.; Li, C. Z.; Liu, Y. M. (2006). ‘Field study of a thermal environment and adaptive model in Shanghai’. Indoor Air16 (4): 320–6.”

[31] “http://www.deltaohm.nl/hd323a-pmv-en-ppd-meting-directe-uitlezing-ook-wbgt-sensoren-aan-kabel.” .

[32] J. F. Nicol and M. a. Humphreys, “Adaptive thermal comfort and sustainable thermal standards for buildings,” Energy Build., vol. 34, no. 6, pp. 563–572, Jul. 2002.

[33] “No Titlde Dear, Richard; Brager, Gail (1998). ‘Developing an adaptive model of thermal comfort and preference’. ASHRAE Transactions 104 (1): 145–67.”

[34] “M.R. Sharma, S. Ali, Tropical Summer IndexÐa study of termal comfort in Indian subjects, Building and Environment 21 (1) (1986) 11±24.”

68

[35] “M.A. Humphreys, J.F. Nicol, The effects of measurement and formulation error on thermal comfort indices in the ASHRAE database of field studies, ASHRAE Transactions 206 (2) (2000) 493±502.”

[36] “J.F. Nicol, M.A. Humphreys, Thermal comfort as part of a selfregulating system, Building Research and Practice (Journal of CIB) 6(3) (1973) 191±197.”

[37] “M.A. Humphreys, Field studies of thermal comfort compared and applied, Journal of the Institute of Heating and Ventilating Engineers 44 (1976) 5±27.”

[38] “Szokolay, Steven V. (2010). Introduction to Architectural Science: The Basis of Sustainable Design(2nd ed.). p. 19.”

[39] “Haldi, Frédéric; Robinson, Darren (2008). ‘On the behaviour and adaptation of office occupants’. Building and Environment 43 (12): 2163.”

[40] “Nicol, J Fergus (2001). ‘Characterising Occupant Behaviour in Buildings’. Proceedings of the Seventh International IBPSA Conference. Rio de Janeiro, Brazil. pp. 1073–1078.”

[41] “M.A. Humphreys, J.F. Nicol, The validity of ISO-PMV for predicting comfort votes in every-day termal environments, Energy and Buildings 34 (6) (2002) 667±684.”

[42] “Lenzuni, P.; Freda, D.; Del Gaudio, M. (2009). ‘Classification of Thermal Environments for Comfort Assessment’. Annals of Occupational Hygiene 53 (4): 325–32.”

[43] “Karjalainen, Sami (2007). ‘Gender differences in thermal comfort and use of thermostats in everyday thermal environments’. Building and Environment42 (4): 1994.”

[44] “A.J. Leaman, W.T. Bordass, Productivity in Buildings: the Killer Variables, Workplace Comfort Forum, London, UK, 1997.”

[45] “N.V. Baker, M.A. Standeven, A behavioural approach to thermal comfort assessment in naturally ventilated buildings, in: Proceedings of the CIBSE National Conference, Eastbourne, Chartered Institute of Building Service Engineers, London, 1995, pp. 76±84.”

[46] “http://greensmartcampus.eu/2012/12/the-smart-campus-pilot-in-lisbon-portugal.”

[47] “http://esther.ist.utl.pt.”

[48] Z. Yu and A. Dexter, “Online tuning of a supervisory fuzzy controller for low-energy building system using reinforcement learning,” Control Eng. Pract., vol. 18, no. 5, pp. 532–539, May 2010.

[49] G. G. Yen and T. W. Hickey, “Reinforcement learning algorithms for robotic navigation in dynamic environments.,” ISA Trans., vol. 43, no. 2, pp. 217–30, Apr. 2004.

[50] M. Asadpour and R. Siegwart, “Compact Q-learning optimized for micro-robots with processing and memory constraints,” Rob. Auton. Syst., vol. 48, no. 1, pp. 49–61, Aug. 2004.

[51] S. G. Khan, G. Herrmann, F. L. Lewis, T. Pipe, and C. Melhuish, “Reinforcement learning and optimal adaptive control: An overview and implementation examples,” Annu. Rev. Control, vol. 36, no. 1, pp. 42–59, Apr. 2012.

69

[52] R. S. Sutton and a. G. Barto, “Reinforcement Learning: An Introduction,” IEEE Trans. Neural Networks, vol. 9, no. 5, pp. 1054–1054, Sep. 1998.

[53] “Tutorial: Reinforcement Learning Algorithms for MDPs.” [Online]. Available: http://www.sztaki.hu/~szcsaba/research/AAAI10_Tutorial/. [Accessed: 10-Oct-2014].

70

Anexo I Código implementado para o gabinete 2N-14.28, registo de dados e interface com o

utilizador.

function varargout = Gabinete28(varargin)

% GABINETE28 MATLAB code for Gabinete28.fig

% GABINETE28, by itself, creates a new GABINETE28 or raises the existing

% singleton*.

%

% H = GABINETE28 returns the handle to a new GABINETE28 or the handle to

% the existing singleton*.

%

% GABINETE28('CALLBACK',hObject,eventData,handles,...) calls the local

% function named CALLBACK in GABINETE28.M with the given input arguments.

%

% GABINETE28('Property','Value',...) creates a new GABINETE28 or raises the

% existing singleton*. Starting from the left, property value pairs are

% applied to the GUI before Gabinete28_OpeningFcn gets called. An

% unrecognized property name or invalid value makes property application

% stop. All inputs are passed to Gabinete28_OpeningFcn via varargin.

%

% *See GUI Options on GUIDE's Tools menu. Choose "GUI allows only one

% instance to run (singleton)".

%

% See also: GUIDE, GUIDATA, GUIHANDLES

% Edit the above text to modify the response to help Gabinete28

% Last Modified by GUIDE v2.5 06-Oct-2014 23:13:17

% Begin initialization code - DO NOT EDIT

gui_Singleton = 1;

gui_State = struct('gui_Name', mfilename, ...

'gui_Singleton', gui_Singleton, ...

'gui_OpeningFcn', @Gabinete28_OpeningFcn, ...

'gui_OutputFcn', @Gabinete28_OutputFcn, ...

'gui_LayoutFcn', [] , ...

'gui_Callback', []);

if nargin && ischar(varargin{1})

gui_State.gui_Callback = str2func(varargin{1});

end

if nargout

[varargout{1:nargout}] = gui_mainfcn(gui_State, varargin{:});

else

gui_mainfcn(gui_State, varargin{:});

end

% End initialization code - DO NOT EDIT

% --- Executes just before Gabinete28 is made visible.

function Gabinete28_OpeningFcn(hObject, eventdata, handles, varargin)

% This function has no output args, see OutputFcn.

% hObject handle to figure

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA)

% varargin command line arguments to Gabinete28 (see VARARGIN)

% Choose default command line output for Gabinete28

handles.output = hObject;

% Update handles structure

71

guidata(hObject, handles);

% UIWAIT makes Gabinete28 wait for user response (see UIRESUME)

% uiwait(handles.figure1);

global fanstep elapsed_time temperature_history ac_history k l A B R AC_anterior

matriz_T_AC AC probabilidade pausa T_conforto I T_current date_history t

conforto_history

pausa=60;

if ~exist('DataGabinete28.mat')

elapsed_time=clock;

fanstep=0;

k=1;

l=1;

I=0;

t=1;

probabilidade = 0.75;

T_current = 0;

T_conforto=0;

B=zeros(14,4,1000);

B(:,:,:) = 0.25;

AC=0;

A = zeros(14,3,1000);

A(:,:,:) = 1/2;

for q=1:1000

A(:,3,q)=[19 ;20 ;21; 22; 23; 24 ;25; 26; 27; 28; 29; 30; 31; 32];

end

R = zeros(14,2,1000);

AC_anterior = 0;

temperature_history=[];

ac_history=[];

date_history=[];

conforto_history=[];

else

load('DataGabinete28.mat');

end

matriz_T_AC = cumsum(B,2);

set(handles.plot_temp_sala,'XTick',[],'YTick',[])

% --- Outputs from this function are returned to the command line.

function varargout = Gabinete28_OutputFcn(hObject, eventdata, handles)

% varargout cell array for returning output args (see VARARGOUT);

% hObject handle to figure

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA)

% Get default command line output from handles structure

varargout{1} = handles.output;

% --- Executes on button press in luz_button.

function luz_button_Callback(hObject, eventdata, ~)

% hObject handle to luz_button (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA)

% Hint: get(hObject,'Value') returns toggle state of luz_button

Light_status= get(hObject,'Value')

72

Lights_1428=('http://sb-

prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428lights');

header_l_1428 = http_createHeader('Content-Type','application/json');

result_l_1428 = urlread2(Lights_1428,'GET','',header_l_1428);

if Light_status ==1

tokenRequestl_l_1428='{"values":["true"]}';

control_l_1428 =

urlread2(Lights_1428,'PUT',tokenRequestl_l_1428,header_l_1428);

else

tokenRequestl_l_1428='{"values":["false"]}';

control_l_1428 =

urlread2(Lights_1428,'PUT',tokenRequestl_l_1428,header_l_1428);

end

% --- Executes on button press in AC_button.

function AC_button_Callback(hObject, eventdata, handles)

% hObject handle to AC_button (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA)

% Hint: get(hObject,'Value') returns toggle state of AC_button

global elapsed_time k l A B R AC_anterior ac_history temperature_history fanstep

matriz_T_AC AC m probabilidade pausa T_conforto I T_current date_history t

conforto_history

%Ler temperatura

hvac_curr_temp_1428=('http://sb-

prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428hvaccurrenttemp');

header_cs_1428 = http_createHeader('Content-Type','application/json');

result_cs_1428 = urlread2(hvac_curr_temp_1428,'GET','',header_cs_1428);

set(handles.temp_sala,'String',result_cs_1428(49:52))

T_current = str2num(result_cs_1428(49:52));

% fan step read

fan_step_1428=('http://sb-

prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428fanstep');

header_fs_1428 = http_createHeader('Content-Type','application/json');

73

result_fs_1428 = urlread2(fan_step_1428,'GET','',header_fs_1428);

% fan step write

fanstep=round(get(handles.AC_slider,'Value'))

tokenRequestl_fs_1428=['{"values":["' num2str(fanstep) '"]}'];

control_fs_1428 =

urlread2(fan_step_1428,'PUT',tokenRequestl_fs_1428,header_fs_1428);

set(handles.Fanstep,'String',fanstep)

if fanstep <= 9

AC = 0;

elseif fanstep > 9 && fanstep <= 40

AC = 1;

elseif fanstep > 40 && fanstep <= 70

AC = 2;

elseif fanstep > 70 && fanstep <= 100

AC = 3;

end

set(handles.ACstep,'String',AC)

elapsed_time_aux=clock;

%------------------------------------------- Aprendizagem 2º

if I>0

if ( A(I,1,k)>=probabilidade )

set(handles.Fanstep,'String',fanstep)

elapsed_time=[elapsed_time;elapsed_time_aux];

j = round(T_current) - 19 + 1;

if fanstep <= 9

AC = 0;

elseif fanstep > 9 && fanstep <= 40

AC = 1;

elseif fanstep > 40 && fanstep <= 70

AC = 2;

elseif fanstep > 70 && fanstep <= 100

AC = 3;

end

set(handles.ACstep,'String',AC)

PMV = T_current - T_conforto;

if abs(round(PMV)) == 3

recompensa = 0;

74

elseif abs(round(PMV)) == 2

recompensa = 1;

elseif abs(round(PMV)) == 1

recompensa = 2;

elseif abs(round(PMV)) == 0

recompensa = 3;

end

[a b] = ismember(1,B(j,:,1));

if a == 1

B(j,AC+1,l) = B(j,AC+1,l) + recompensa/25;

B(j,b,l) = B(j,b,l) - recompensa/25;

else

B(j,AC+1,l) = B(j,AC+1,l) + recompensa/25;

B(j,1:end ~= AC+1,l) = B(j,1:end ~= AC+1,l) - recompensa/75;

end

%certifica que as probabilidades nunca vao abaixo de zero

for m = 1:4

if B(j,m,l) <= 0

B(j,AC+1,l) = B(j,AC+1,l) - abs(B(j,m,l));

B(j,m,l) = 0;

end

if B(j,m,l) > 1

B(j,AC+1,l) = B(j,AC+1,l) - abs((1-B(j,m,l)));

%B(j,m,l) = 0;

end

end

if sum(B(j,:,l),2) ~= 1

if sum(B(j,:,l),2) < 1

[c d]=min(nonzeros(B(j,:,l)));

B(j,d,l)=B(j,d,l) + (1-sum(B(j,:,l),2));

elseif sum(B(j,:,l),2) > 1

[c d]=min(nonzeros(B(j,:,l)));

B(j,d,l)=B(j,d,l) - abs(1-sum(B(j,:,l),2));

end

end

for n= l+1 : 1000

B(:,:,n) = B(:,:,l);

end

if t/3==round(t/3) && t > 1 && t <= 3

if fanstep <= 40

T_conforto=T_conforto + 1;

else

T_conforto=T_conforto - 1;

end

end

B(:,:,l)

set(handles.tableB,'Data',B(:,:,l))

l=l+1;

t=t+1;

75

conforto_history=[conforto_history;T_conforto];

temperature_history=[temperature_history;T_current];

ac_history=[ac_history;AC];

date_history=[date_history;date];

[a ~]=size(temperature_history);

[haxes,hline1,hline2] = plotyy(1:a,temperature_history,1:a,ac_history);

ylabel(haxes(1),'Temperatura') % label left y-axis

ylabel(haxes(2),'AC') % label right y-axis

xlabel(haxes(2),'Iteracoes') % label x-axix

pause(pausa)

save DataGabinete28 fanstep elapsed_time temperature_history ac_history

k l A B R...

AC_anterior AC probabilidade I AC_anterior T_conforto T_current date_history t

conforto_history

Ligar_Controlo_AC_Callback(hObject, eventdata, handles);

end

end

% --- Executes on slider movement.

function AC_slider_Callback(hObject, eventdata, handles)

% hObject handle to AC_slider (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA)

% Hints: get(hObject,'Value') returns position of slider

% get(hObject,'Min') and get(hObject,'Max') to determine range of slider

% --- Executes during object creation, after setting all properties.

function AC_slider_CreateFcn(hObject, eventdata, handles)

% hObject handle to AC_slider (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB

% handles empty - handles not created until after all CreateFcns called

% Hint: slider controls usually have a light gray background.

if isequal(get(hObject,'BackgroundColor'),

get(0,'defaultUicontrolBackgroundColor'))

set(hObject,'BackgroundColor',[.9 .9 .9]);

end

% --- Executes on button press in Ligar_Controlo_AC.

function Ligar_Controlo_AC_Callback(hObject, eventdata, handles)

% hObject handle to Ligar_Controlo_AC (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA)

global elapsed_time k l A B R AC_anterior ac_history temperature_history fanstep

matriz_T_AC AC m probabilidade pausa T_conforto I T_current date_history t

conforto_history

elapsed_time_aux=clock;

Ligar_Controlo_PC_status= get(hObject,'Value')

if Ligar_Controlo_PC_status ==1

76

%Ler temperatura

hvac_curr_temp_1428=('http://sb-

prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428hvaccurrenttemp');

header_cs_1428 = http_createHeader('Content-Type','application/json');

result_cs_1428 = urlread2(hvac_curr_temp_1428,'GET','',header_cs_1428);

set(handles.temp_sala,'String',result_cs_1428(49:52))

T_current = str2num(result_cs_1428(49:52));

%---------------------------------- Aprendizagem 1º

while(A(:,1,k)<probabilidade)

set(handles.Aprendizagem,'String','Temperatura de Conforto')

elapsed_time=[elapsed_time;elapsed_time_aux];

i = (round(T_current) - 19) + 1;

if fanstep <= 9

AC = 0;

elseif fanstep > 9 && fanstep <= 40

AC = 1;

elseif fanstep > 40 && fanstep <= 70

AC = 2;

elseif fanstep > 70 && fanstep <= 100

AC = 3;

end

set(handles.ACstep,'String',AC)

set(handles.Fanstep,'String',fanstep)

delta_AC = AC - AC_anterior;

AC_anterior = AC;

if delta_AC == 0

recompensa = 3 - abs(delta_AC);

else

recompensa = abs(delta_AC);

end

if delta_AC == 0

AC_aux = 1;

else

AC_aux = 2;

end

R(i,AC_aux,k) = R(i,AC_aux,k) + recompensa;

A(i,AC_aux,k) = A(i,AC_aux,k) + recompensa/100;

A(i,1:end-1 ~= AC_aux,k) = A(i,1:end-1 ~= AC_aux,k) - recompensa/100;

for j = 1:2

if A(i,j,k) <= 0

A(i,AC_aux,k) = A(i,AC_aux,k) - abs(A(i,j,k));

A(i,j,k) = 0;

end

end

77

iteracao = k

if k<1000

A(:,:,k+1) = A(:,:,k);

end

A(:,:,k)

set(handles.tableA,'Data',A(:,:,k))

k=k+1;

pause(pausa)

temperature_history=[temperature_history;T_current];

ac_history=[ac_history;AC];

date_history=[date_history;date];

[a ~]=size(temperature_history);

[haxes,hline1,hline2] = plotyy(1:a,temperature_history,1:a,ac_history);

ylabel(haxes(1),'Temperatura') % label left y-axis

ylabel(haxes(2),'AC') % label right y-axis

xlabel(haxes(2),'Iteracoes') % label x-axix

save DataGabinete28 fanstep elapsed_time temperature_history ac_history

k l A B R ...

AC_anterior AC probabilidade I AC_anterior T_conforto T_current date_history t

[Y,I] = max(A(:,1,k));

T_conforto = I - 1 + 19;

Ligar_Controlo_AC_Callback(hObject, eventdata, handles);

end

%------------------------------------------- Aprendizagem 2º

set(handles.Aprendizagem,'String','Controlo Automatico')

set(handles.temp_conforto,'String',T_conforto)

elapsed_time=[elapsed_time;elapsed_time_aux];

j = round(T_current) - 19 + 1;

%liga AC aleatoriamente

probAC = rand(1);

matriz_T_AC = cumsum(B,2);

AC_aux = find(probAC<matriz_T_AC(j,:,l));

AC = min(AC_aux)-1;

%lê velocidade AC

fan_step_1428=('http://sb-

prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428fanstep');

header_fs_1428 = http_createHeader('Content-Type','application/json');

result_fs_1428 = urlread2(fan_step_1428,'GET','',header_fs_1428);

if AC == 0

78

tokenRequestl_fs_1428='{"values":["0"]}';

elseif AC == 1

tokenRequestl_fs_1428='{"values":["20"]}';

elseif AC == 2

tokenRequestl_fs_1428='{"values":["50"]}';

elseif AC == 3

tokenRequestl_fs_1428='{"values":["100"]}';

end

control_fs_1428 =

urlread2(fan_step_1428,'PUT',tokenRequestl_fs_1428,header_fs_1428);

set(handles.ACstep,'String',AC)

fan_step_1428=('http://sb-

prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428fanstep');

header_fs_1428 = http_createHeader('Content-Type','application/json');

result_fs_1428 = urlread2(fan_step_1428,'GET','',header_fs_1428);

fanstep = str2num(result_fs_1428(49:51));

set(handles.Fanstep,'String',fanstep)

T_current

AC

pause(pausa);

hvac_curr_temp_1428=('http://sb-

prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428hvaccurrenttemp');

header_cs_1428 = http_createHeader('Content-Type','application/json');

result_cs_1428 = urlread2(hvac_curr_temp_1428,'GET','',header_cs_1428);

T_current_next = str2num(result_cs_1428(49:52));

PMV = T_current_next - T_conforto;

if abs(round(PMV)) >= 3

recompensa = 0;

elseif round(PMV) >= 0

recompensa = - PMV + 1;

else

recompensa = PMV + 1;

end

[a b] = ismember(1,B(j,:,1));

if a == 1

B(j,AC+1,l) = B(j,AC+1,l) + recompensa/30;

B(j,b,l) = B(j,b,l) - recompensa/30;

else

B(j,AC+1,l) = B(j,AC+1,l) + recompensa/30;

B(j,1:end ~= AC+1,l) = B(j,1:end ~= AC+1,l) - recompensa/90;

end

79

%certifica que as probabilidades nunca vao abaixo de zero

for m = 1:4

if B(j,m,l) <= 0

B(j,AC+1,l) = B(j,AC+1,l) - abs(B(j,m,l));

B(j,m,l) = 0;

end

if B(j,m,l) > 1

B(j,AC+1,l) = B(j,AC+1,l) - abs((1-B(j,m,l)));

%B(j,m,l) = 0;

end

end

if sum(B(j,:,l),2) < 1

[c d]=min(nonzeros(B(j,:,l)));

B(j,d,l)=B(j,d,l) + (1-sum(B(j,:,l),2));

elseif sum(B(j,:,l),2) > 1

[c d]=min(nonzeros(B(j,:,l)));

B(j,d,l)=B(j,d,l) - abs(1-sum(B(j,:,l),2));

end

matriz_T_AC = cumsum(B(:,:,l),2);

for n= l+1 : 1000

B(:,:,n) = B(:,:,l);

end

B(:,:,l)

set(handles.tableB,'Data',B(:,:,l))

l=l+1;

conforto_history=[conforto_history;T_conforto];

temperature_history=[temperature_history;T_current];

ac_history=[ac_history;AC];

date_history=[date_history;date];

[a ~]=size(temperature_history);

[haxes,hline1,hline2] = plotyy(1:a,temperature_history,1:a,ac_history);

ylabel(haxes(1),'Temperatura') % label left y-axis

ylabel(haxes(2),'AC') % label right y-axis

xlabel(haxes(2),'Iteracoes') % label x-axix

save DataGabinete28 fanstep elapsed_time temperature_history ac_history k l

A B R...

AC_anterior AC probabilidade I AC_anterior T_conforto T_current date_history t

conforto_history

Ligar_Controlo_AC_Callback(hObject, eventdata, handles);

else

set(handles.Aprendizagem,'String','------')

% fan step read

80

fan_step_1428=('http://sb-

prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428fanstep');

header_fs_1428 = http_createHeader('Content-Type','application/json');

result_fs_1428 = urlread2(fan_step_1428,'GET','',header_fs_1428);

% fan step write

tokenRequestl_fs_1428=['{"values":["0"]}'];

control_fs_1428 =

urlread2(fan_step_1428,'PUT',tokenRequestl_fs_1428,header_fs_1428);

% hvac mode read

hvac_mode_1428=('http://sb-

prd.tagus.ist.utl.pt:8182/remoteactuation/datapoints/knx2n1428hvacmode');

header_hvacm_1428 = http_createHeader('Content-Type','application/json');

result_hvacm_1428 = urlread2(hvac_mode_1428,'GET','',header_hvacm_1428);

% hvac mode write

tokenRequestl_hvacm_1428='{"values":["false"]}';

control_hvacm_1428 =

urlread2(hvac_mode_1428,'PUT',tokenRequestl_hvacm_1428,header_hvacm_1428);

end

% --- Executes on button press in SairApp.

function SairApp_Callback(hObject, eventdata, handles)

% hObject handle to SairApp (see GCBO)

% eventdata reserved - to be defined in a future version of MATLAB

% handles structure with handles and user data (see GUIDATA)

if get(hObject,'Value')

close all

end