mÉtodos de inteligÊncia computacional para detecÇÃo de...

57
MÉTODOS DE INTELIGÊNCIA COMPUTACIONAL PARA DETECÇÃO DE FRAUDES DE ENERGIA ELÉTRICA Breno Serrano de Araujo Projeto de Graduação apresentado ao Curso de Engenharia Eletrônica e de Computação da Escola Politécnica, Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Engenheiro. Orientadores: Heraldo Luís Silveira de Almeida Flávio Luis de Mello Rio de Janeiro Fevereiro de 2017

Upload: doannhan

Post on 06-Dec-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

MÉTODOS DE INTELIGÊNCIA COMPUTACIONAL PARA DETECÇÃO DE FRAUDES DE ENERGIA

ELÉTRICA

Breno Serrano de Araujo

Projeto de Graduação apresentado ao Curso de Engenharia Eletrônica e de Computação da Escola Politécnica, Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Engenheiro. Orientadores: Heraldo Luís Silveira de Almeida Flávio Luis de Mello

Rio de Janeiro

Fevereiro de 2017

iv

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

Escola Politécnica – Departamento de Eletrônica e de Computação

Centro de Tecnologia, bloco H, sala H-217, Cidade Universitária

Rio de Janeiro – RJ CEP 21949-900

Este exemplar é de propriedade da Universidade Federal do Rio de Janeiro, que

poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar

qualquer forma de arquivamento.

É permitida a menção, reprodução parcial ou integral e a transmissão entre

bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja

ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem

finalidade comercial e que seja feita a referência bibliográfica completa.

Os conceitos expressos neste trabalho são de responsabilidade do(s) autor(es).

v

DEDICATÓRIA

À minha família.

vi

AGRADECIMENTO

Dedico este trabalho à minha família que sempre me apoiou e incentivou os

meus estudos, mesmo nos momentos difíceis.

Gostaria de agradecer a todos os meus professores da UFRJ que contribuíram de

forma significativa à minha formação acadêmica e pessoal. Aos meus amigos e colegas

de faculdade, que tornaram essa jornada mais agradável e prazerosa.

Agradeço à UFRJ, em conjunto com DAAD e CAPES, pela experiência de

intercâmbio acadêmico na Universidade Técnica de Munique, uma das experiências

mais enriquecedoras que tive a oportunidade de viver.

Ao professor Ricardo Merched, pelo trabalho desenvolvido durante a Iniciação

Científica no Laboratório de Processamento de Sinais (LPS).

Aos meus professores do Colégio Santo Inácio, gostaria de agradecer pelos

valores ensinados durante a minha formação escolar, que vão muito além do conteúdo

acadêmico e que levarei comigo para o resto da vida.

Aos meus amigos e colegas de estágio, agradeço pelo apoio e confiança em mim

e por todas as dicas valiosas, que me permitiram avançar com mais facilidade na

produção deste projeto.

À sociedade brasileira, que de forma indireta contribuiu para a minha formação

nesta Universidade. Este projeto é uma pequena forma de retribuir o investimento e

confiança em mim depositados.

vii

RESUMO

As perdas de energia elétrica por irregularidades, fraudes e furtos configuram

uma perda de receita de bilhões de reais para as distribuidoras brasileiras todo ano.

Diversas abordagens têm sido utilizadas para o combate às perdas não-técnicas pelas

concessionárias, como campanhas de prevenção e conscientização da população e

incentivos às denúncias de fraude. Uma estratégia que vem ganhando força é realização

de inspeções técnicas direcionadas a consumidores que apresentem indícios, baseados

nos dados do cliente, padrões de consumo, apontamentos do leiturista, etc. Este projeto

propõe a aplicação de modelos de redes neurais simples e redes neurais em ensemble

para a seleção de um conjunto de Unidades Consumidoras onde exista alta

probabilidade de serem encontradas fraudes ou irregularidades. Inicialmente são

descritos os principais conceitos relacionados à área de perdas não-técnicas e

apresentados os tipos de dados dos consumidores aos quais as empresas comumente têm

acesso. São selecionadas as características utilizadas para o treinamento dos modelos,

como localização geográfica, classe de consumo, mediana de consumo de energia em

diferentes períodos, etc. Os modelos resultantes são comparados com relação à precisão,

acurácia e tempo de duração do treinamento.

Palavras-Chave: perdas comerciais, perdas não-técnicas, redes neurais, classificação,

aprendizado de máquina.

viii

ABSTRACT

The electric energy loss due to irregularities, fraud and theft represents a loss of

revenue of billions of reais for Brazilian distributors every year. Several approaches

have been used to combat non-technical losses by energy utilities, such as campaigns

for prevention, raising awareness of the population and encouraging the delation of

fraudsters. A strategy that is gaining strength is conducting technical inspections aimed

at consumers who present evidence, based on customer data, consumption patterns,

reader's notes, etc. This project proposes the application of simple neural network

models and neural networks in ensemble for the selection of a set of consuming units for

which a high probability of frauds and irregularities is expected. First, the main

concepts related to the area of non-technical losses are described and the types of

consumer data to which the companies commonly have access are presented. The

features used to train the models are selected, such as geographic location, consumption

class, median energy consumption in different periods, etc. The resulting models are

compared in relation to precision, accuracy and duration of training.

Key-words: commercial losses, non-technical losses, neural networks, classification,

machine learning.

ix

SIGLAS

UC – Unidade Consumidora

PNT – Perdas Não-Técnicas

ANEEL – Agência Nacional de Energia Elétrica

TOI – Termo de Ocorrência de Irregularidade

FC – Fluxo de carga

PCA – Principle Component Analysis

AT – Alta tensão

BT – Baixa tensão

NA – Nada Apurado

NI – Não Inspecionado

VP – Verdadeiro Positivo

FP – Falso Positivo

FN – Falso Negativo

VN – Verdadeiro Negativo

MANN – Model Averaged Neural Network

SVM – Support Vector Machine

x

Sumário

1. Introdução ............................................................................................................... 1

1.1 – Tema ................................................................................................................ 1

1.2 – Delimitação ...................................................................................................... 1

1.3 – Justificativa ...................................................................................................... 1

1.4 – Objetivos .......................................................................................................... 2

1.5 – Metodologia ..................................................................................................... 2

1.6 – Descrição .......................................................................................................... 3

2. Conceitos em Perdas de Energia na Distribuição de Energia Elétrica ....................... 5

2.1 – Introdução ........................................................................................................ 5

2.2 – Leitura de Energia e Notas de Leitura ............................................................... 5

2.3 – Perdas de Energia ............................................................................................. 7

2.4 – Perdas Não-Técnicas (PNT) de Energia Elétrica ............................................... 8

2.5 – Combate às perdas de energia ......................................................................... 10

2.6 – Inspeções Técnicas ......................................................................................... 11

2.7 – Determinações da Agência Nacional de Energia Elétrica ................................ 12

2.8 – Recuperação de Receita .................................................................................. 12

2.9 – Energia Recuperada ........................................................................................ 13

2.10 – Energia Incrementada ................................................................................... 13

2.11 – Indicadores de Desempenho de Inspeções de campo ..................................... 14

3. Aprendizado de Máquina ...................................................................................... 15

3.1 – Redes Neurais (Supervisionadas) .................................................................... 15

3.2 – Separação entre conjunto de treinamento e conjunto de teste ........................... 18

3.3 – Validação cruzada ........................................................................................... 18

3.4 – Variantes da validação cruzada ....................................................................... 19

3.5 – Métricas de desempenho ................................................................................. 20

4. Proposta de Solução .............................................................................................. 24

xi

4.1 – Procedimentos Metodológicos ........................................................................ 24

4.2 – Dados disponíveis à concessionária de energia ................................................ 24

4.3 – Dados do consumidor ..................................................................................... 25

4.4 – Dados da instalação elétrica ............................................................................ 25

4.5 – Dados mensais de consumo ............................................................................ 27

4.6 – Extração de características .............................................................................. 27

4.7 – Análise Descritiva dos Dados ......................................................................... 30

4.8 – Ferramentas utilizadas .................................................................................... 33

4.9 – Experimentos .................................................................................................. 34

4.10 – Considerações Finais .................................................................................... 40

5. Conclusões ............................................................................................................ 42

6. Bibliografia ........................................................................................................... 43

xii

Lista de Figuras Figura 1: Percentual de Perdas do Sistema Global 2016 (ref. 2015) [1] ......................... 9

Figura 2: Neurônio [9]. ............................................................................................... 16

Figura 3: Função sigmóide: utilizada como função de ativação. [10] ........................... 17

Figura 4: Rede neural feedforward com duas camadas escondidas [11]. ...................... 17

Figura 5: Ilustração do ponto de parada do treinamento. [8] ........................................ 19

Figura 6: Método K-fold de validação cruzada. [12] .................................................... 20

Figura 8: Procedimento prático para aplicações de Aprendizado de Máquina .............. 24

Figura 8: Resultados das inspeções realizadas ............................................................. 31

Figura 9: Distribuição das UCs por fase de ligação ..................................................... 31

Figura 10: Distribuição das UCs por classe de consumo .............................................. 32

Figura 11: Os dez municípios com maior número de inspeções com resultado,

identificados pelo código do município ....................................................................... 32

Figura 12: Os quinze municípios com maior número de inspeções com resultado

irregular ...................................................................................................................... 33

xiii

Lista de Tabelas

Tabela 1: Matriz de Confusão ..................................................................................... 21

Tabela 2:Matriz de confusão resultante da aplicação do modelo de redes neurais (nnet)

................................................................................................................................... 36

Tabela 3: Matriz de confusão resultante da aplicação do modelo de emsemble redes

neurais (avNNet) ......................................................................................................... 37

Tabela 4: Matriz de confusão resultante da aplicação do modelo de emsemble redes

neurais (avNNet), com a utilização de notas de leiturista no vetor de características. ... 39

Tabela 5: Resumo dos resultados obtidos por todos os modelos .................................. 39

1

Capítulo 1

Introdução

1.1 – Tema

O presente trabalho é um estudo da aplicação de algoritmos de inteligência

artificial para a detecção de fraudes e irregularidades em energia elétrica, por parte dos

consumidores. Serão usados como base diversos dados de consumidores, aos quais as

distribuidoras de energia comumente têm acesso, como cidade, bairro, fase elétrica,

classe de consumo, histórico de consumo, etc. A partir daí serão escolhidos, com base

no conhecimento do aluno na área, adquirido em sua experiência de estágio,

subconjuntos de dados que têm maior relevância e correlação com ocorrências de fraude

ou irregularidade. Esse subconjunto será usado como base de conhecimento e servirá de

treinamento para os modelos preditivos que serão estudados. Por fim o desempenho dos

modelos será avaliado e comparado.

1.2 – Delimitação

Esse estudo é realizado a partir de dados de consumidores de energia elétrica.

Serão apresentadas aqui as metodologias do estudo, os algoritmos utilizados e os

resultados encontrados. Contudo, dados que identifiquem os consumidores em si não

serão publicados, por questões legais de privacidade e segurança.

Este trabalho foi desenvolvido no âmbito do Laboratório de Inteligência de

Máquina e Modelos de Computação (IM2C) da Escola Politécnica (Poli) da

Universidade Federal do Rio de Janeiro (UFRJ).

1.3 – Justificativa

A quantidade de energia elétrica perdida por motivos de irregularidades, furtos e

fraudes no Brasil vem crescendo nos últimos anos. Segundo a ABRADEE [1], o

2

percentual de perdas comerciais em relação à energia injetada no sistema global passou

de 3,99% em 2000 para 5,91% em 2012. Isso se reflete não só em uma perda de receita

para as empresas distribuidoras, como também em um aumento no faturamento dos

consumidores não-fraudadores. O combate a esse tipo de perdas tem se tornado um foco

estratégico para a garantia de receita dessas empresas e para criação de normas e

regulamentos por parte de órgãos reguladores. Para identificar se um consumidor está

de fato furtando ou fraudando energia ainda é preciso que um especialista seja enviado a

campo, no local de consumo, para que seja feita uma inspeção técnica. Com o intuito de

melhorar o resultado estatístico das inspeções, as distribuidoras têm voltado sua atenção

para os dados dos consumidores, utilizando técnicas de Mineração de Dados e análise

de dados na tentativa de identificar previamente possíveis fraudadores, para melhor

direcionar e otimizar inspeções em campo.

1.4 – Objetivos

O objetivo é a apresentação do contexto geral do problema de perdas elétricas

não-técnicas e o estudo e desenvolvimento de algoritmos de inteligência computacional,

que serão utilizados para a identificação de consumidores com perfil suspeito

(candidatos a inspeção). Na apresentação do contexto geral serão explicadas diversas

definições importantes na área de perdas e os principais processos envolvidos serão

detalhadamente descritos, para que o leitor desenvolva um bom conhecimento básico. O

estudo comparativo dos algoritmos será melhor detalhado ao longo do texto.

1.5 – Metodologia

Este trabalho apresentará um comparativo de diferentes algoritmos de

inteligência computacional aplicados à detecção de consumidores suspeitos de

furto/fraude de energia. Serão considerados para este estudo um conjunto de

consumidores que já recebeu, em algum momento, uma visita de um inspetor para

verificação de fraude. Esta visita e, principalmente, o resultado da inspeção (fraude ou

não-fraude) são essenciais para o treinamento e validação dos modelos.

3

Com base no histórico de consumo e outros dados relevantes (localidade, classe

de consumo, etc), os algoritmos têm como objetivo classificar o consumidor como

suspeito ou não. Para tal, o conjunto de consumidores será dividido em subconjuntos

exclusivos de treinamento, validação e teste.

Na fase de treinamento, os dados dos consumidores serão fornecidos ao modelo

e os seus parâmetros serão ajustados, comparando a saída do modelo (classificação

suspeito/não-suspeito) com o resultado da inspeção (fraude/não-fraude).

O subconjunto de validação será usado para evitar um sobreajuste (overfitting).

Para tal, será definido um critério de parada para o aprendizado. No momento em que a

acurácia do modelo sobre o conjunto de treinamento estiver aumentando, mas sua

acurácia sobre o conjunto de validação começar a diminuir, o modelo será considerado

como ajustado. Caso o treinamento não seja abortado, esta situação resultaria em um

modelo enviesado para o conjunto de treinamento. Neste sentido pretende-se evitar isto,

para que o modelo tenha um bom desempenho para qualquer conjunto de consumidores.

Finalizado o treinamento do modelo, seu desempenho será avaliado, sobre o

conjunto de teste. Este procedimento será repetido para todos os algoritmos que forem

utilizados e, enfim, será comparada a efetividade de todos eles a partir de indicadores

como taxa de acerto e outros a serem definidos.

1.6 – Descrição

No capítulo 2 serão abordados os principais conceitos da área de perdas na

distribuição de energia elétrica. O entendimento desses conceitos e definições é de vital

importância para a compreensão geral do problema. Serão definidos termos como

Perdas Técnicas e Perdas Não-Técnicas, será explicado o que são notas de leitura (ou

notas de irregularidade) e por que elas são importantes, além de serem expostos os

conceitos chaves relacionados à recuperação de receita, como energia recuperada e

energia incrementada e listados os principais indicadores de desempenho de inspeções

de campo.

O capítulo 3 apresenta um breve resumo dos conceitos relacionados a

Aprendizado de Máquina (Machine Learning), destacando os pontos importantes para a

aplicação em questão. Será apresentada uma visão geral de modelos de redes neurais,

exibindo os procedimentos que serão adotados. Serão abordados conceitos como a

4

diferença entre conjunto de treinamento e conjunto de teste, validação convencional,

validação cruzada e validação cruzada com repetição. Serão expostas as diversas

métricas de desempenho normalmente utilizadas em problemas de regressão e

classificação e será definida a métrica a ser utilizada no experimento deste projeto.

O capítulo 4 detalha o procedimento experimental utilizado, apresentando a

proposta de solução do problema. Inicialmente serão expostos os dados aos quais as

concessionárias comumente têm acesso, para a partir daí serem escolhidos os dados que

irão definir o vetor de características. O vetor de características servirá de insumo para o

modelo de redes neurais, para classificação das unidades consumidoras como

potencialmente irregulares.

O capítulo 5 mostra a conclusão do projeto, mostrando os principais resultados e

apontando os pontos fortes e fracos do modelo. Por fim, serão sugeridos trabalhos

futuros, como continuação deste projeto.

5

Capítulo 2

Conceitos em Perdas de Energia na

Distribuição de Energia Elétrica

2.1 – Introdução

Este capítulo explicita os principais conceitos relacionados às perdas de energia

na transmissão e distribuição de energia elétrica. Dentre os conceitos a serem

apresentados estão a definição de Perdas Globais de Energia Elétrica, que será dividida

entre Perdas Técnicas e Perdas Não-Técnicas, a descrição das principais causas de

Perdas Não-Técnicas, a descrição do processo de leitura de energia em unidades

consumidoras, incluindo a diferença entre energia consumida, energia calculada e

energia faturada, a definição e a descrição dos tipos mais importantes de Notas de

Leitura, que compõem um importante indicativo de fraude e irregularidade, etc. Este

capítulo tem o objetivo geral de deixar o leitor mais familiarizado com os conceitos e

jargões utilizados na área de combate às perdas de energia.

2.2 – Leitura de Energia e Notas de Leitura

A medição da energia consumida em Unidade Consumidora (UC) é realizada

por um profissional, denominado Leiturista. Ele é treinado para ler e interpretar os

diversos tipos de medidor de energia existentes, utilizando os equipamentos e

ferramentas necessários para tal, e informar a medição à concessionária e aos

consumidores. Existem três tipos principais de medidores de energia: os medidores

analógicos ou de ponteiros, os medidores ciclométricos e os medidores eletrônicos ou

digitais.

Segundo a LIGHT, em [2], os medidores analógicos (ou de ponteiros) são

compostos por quatro relógios, representando os valores de consumo acumulado, onde

cada um indica uma unidade de grandeza. Eles podem ser utilizados em qualquer tipo

de ligação (monofásica, bifásica ou trifásica) e este é o modelo mais antigo adotado

pelas empresas.

6

O medidor ciclométrico é similar a um odômetro analógico em um painel de

carro. É um modelo de medidor de fácil leitura, pois apresenta diretamente em seu

mostrador os números do consumo acumulado registrados. [2]

Os medidores eletrônicos (ou digitais) apresentam, assim como os medidores

ciclométricos, os números do consumo acumulado diretamente no painel. A diferença

percebida pelo leiturista é que este tipo de medidor mostra os valores em um painel

digital. [2]

Vale salientar que, como a leitura nesses equipamentos é cumulativa, o valor

mensal de energia consumida, que é informado aos clientes na conta de energia, é

calculado através da diferença entre a leitura registrada no mês em questão e o valor

obtido no mês anterior.

Além dessa função principal de leitura de energia, espera-se dos leituristas que

eles informem às companhias de energia caso haja alguma irregularidade no conjunto de

fiação de rede e do medidor. Quando isso acontece, o leiturista gera o que é chamado de

“Nota de Leitura” (também conhecida como “Nota de Leiturista” ou “Nota de

Irregularidade”). Na Nota de Leitura o leiturista informa qual tipo de irregularidade que

foi observada. Os tipos de irregularidades estão normalmente tabelados pelas

companhias e cada irregularidade tem um código interno.

As Notas de Leitura com mais relevância incluem as seguintes descrições:

“Suspeita de fraude”;

“Medidor com defeito – display apagado”;

“Local de consumo com ligação direta”;

“Medidor com registrador parado – Local de consumo habitado”;

“Medidor sem Selo”;

“Constante do medidor incorreta”;

“Medidor queimado/danificado, sem leitura”;

entre outras. O número de diferentes descrições e possíveis irregularidades descritas em

uma Nota de Leitura variam de companhia para companhia. As distribuidoras podem ter

entre 70 e 150 possíveis descrições, das quais o leiturista deve escolher a que melhor se

aplica à irregularidade por ele observada.

A escolha das Notas de Leitura mais relevantes para a detecção de

fraudes/irregularidades será abordada no capítulo 4, no momento da escolha das

variáveis para compor o vetor de características.

7

Como o leiturista não tem as ferramentas nem o treinamento adequado para

fazer uma análise técnica do medidor ou da instalação, e ainda, verificar se de fato trata-

se de uma fraude ou de uma irregularidade, é necessário que seja feita uma perícia

técnica por um “Técnico de Inspeção”. Perícias técnicas e outros tópicos relacionados a

irregularidades serão abordados novamente e com mais detalhes ao longo do texto.

2.3 – Perdas de Energia

Segundo Carlos Alexandre Penin [3], “As Perdas Globais de energia podem ser

definidas como a diferença entre a energia entregue a uma determinada rede elétrica e a

energia entregue [aos consumidores finais] regularmente nessa mesma rede. Em uma

companhia distribuidora de energia elétrica, nessa parcela de energia entregue

regularmente encontram-se: a energia fornecida às unidades consumidoras regulares; a

energia fornecida a outras distribuidoras; e a energia fornecida a outros níveis de

tensão. ” As Perdas Globais de energia podem ser divididas em Perdas Técnicas e

Perdas Não-Técnicas.

Perdas Técnicas podem ter várias causas e correspondem à parcela de energia

perdida devido a fenômenos físicos internos aos materiais utilizados nos sistemas

elétricos, durante o processo de transmissão de energia. Este tipo de perda é natural e

inerente a qualquer processo de distribuição. Com o avanço da engenharia elétrica e de

materiais é possível diminuir cada vez mais esses efeitos, porém uma rede de transporte

sem perdas técnicas, isto é, com 100% de eficiência, é algo inalcançável na prática. Para

exemplificar pode-se citar a perda de energia por efeito Joule, que é o tipo mais comum

de perda nos condutores. Ela corresponde à dissipação de potência devido à resistência

elétrica do condutor e pode ser calculada de forma simplificada como a resistência

multiplicada pelo quadrado da corrente passante. Além da chamada Perda Joule em

condutores, as perdas por dissipação de energia podem ocorrer, em maior ou menor

grau, em qualquer componente empregado nos sistemas elétricos, como

transformadores, capacitores, medidores e outros equipamentos.

Existem modelos matemáticos e técnicas para a estimação das perdas técnicas.

As técnicas mais difundidas envolvem cálculos de fluxo de potência, ou fluxo de carga

(FC) nos componentes. “Segundo a metodologia mais difundida atualmente no Brasil,

os cálculos de perdas técnicas são efetuados em cada segmento do sistema, de forma a

permitir modelagem adequada e maior precisão nos resultados. Os segmentos de

8

interesse para concessionárias de distribuição são: rede de alta tensão (69 a 138kV)

incluindo os ramais de subtransmissão, transformação AT/MT, rede primária (MT),

transformador de distribuição (MT/BT), rede secundária, ramal de ligação e medidores

de energia. ” [3]

Outras perdas importantes são: “[...] perdas nas conexões, efeito corona, fugas

nos isolamentos dos equipamentos e nas linhas de transmissão e distribuição, perdas nos

bancos de capacitores e reguladores de tensão, etc.” [3]. O cálculo dessas perdas é mais

difícil de ser realizado e, por este motivo, elas normalmente são estimadas

genericamente como um percentual, usualmente entre 5% e 10%, das perdas técnicas

totais calculadas.

A segunda parcela das Perdas Globais de energia corresponde às Perdas Não-

Técnicas ou, como muitas vezes são denominadas, Perdas Comerciais. Este tipo de

perda ocorre essencialmente quando parte da energia distribuída não é faturada pela

concessionária. As razões para essa falta de faturamento podem ser atribuídas a diversos

fatores e esta será a motivação para o próximo item deste capítulo. Vale ressaltar que

não é possível calcular diretamente essas perdas através de métodos matemáticos e

científicos, porém uma estimativa geral pode ser feita, subtraindo as perdas técnicas das

perdas globais de energia.

2.4 – Perdas Não-Técnicas (PNT) de Energia Elétrica

Como foi visto no item anterior, as perdas não-técnicas são justamente a parcela

das Perdas Globais de energia que não se enquadram como perdas técnicas. Pode-se

estimá-las através da diferença entre as Perdas Globais e as Perdas Técnicas. Além

disso, foi mencionado que essas perdas de energia correspondem à parcela de perdas

decorrente de problemas relacionados ao faturamento, ou mais especificamente, à falta

de faturamento da energia fornecida. Os motivos para isso podem ser os mais diversos e

a seguir serão expostas as causas mais comuns. Para começar, pode-se dividir as perdas

não-técnicas em duas classes principais:

(a) Perdas por irregularidades;

(b) Perdas por fraude ou furto de energia elétrica.

Esta divisão é muito utilizada pelas concessionárias de energia e inclusive a

ANEEL estipula regras específicas para cada uma dessas duas classes para o cálculo da

9

energia a ser recuperada. Serão abordados mais a fundo os conceitos de energia a

recuperar e energia a incrementar, e as respectivas normas da ANEEL, no item

“Recuperação de Receita”.

De modo geral pode-se dizer que irregularidades são perdas causadas por falhas

nos medidores, erros de leitura ou de imprecisões no faturamento, ou outras falhas no

fornecimento ou medição da energia, onde não houve uma adulteração intencional do

medidor ou do fornecimento de energia por parte do cliente consumidor.

Já o termo fraude ou furto de energia descreve justamente os casos em que as

perdas são atribuídas à uma ação do consumidor, que intencionalmente frauda o

fornecimento ou o medidor, ou furta energia diretamente da rede, com o objetivo de

reduzir sua conta mensal de energia. São denominados de fraude os casos em que o

medidor é conscientemente adulterado ou quando se faz um desvio no ramal de entrada,

antes do medidor. Além disso, é considerado furto de energia quando o consumidor faz

uma ligação clandestina direta na rede de distribuição. Essas ligações clandestinas são

popularmente chamadas de “gato”.

O índice de perdas no Brasil varia muito dentre as concessionárias. Para ilustrar

este fato é apresentado na Figura 1 a seguir um gráfico indicando o percentual de perdas

para as distribuidoras brasileiras com os maiores índices.

Figura 1: Percentual de Perdas do Sistema Global 2016 (ref. 2015) [1]

10

2.5 – Combate às perdas de energia

As perdas de energia representam uma grande perda de receita para as

concessionárias no Brasil e, portanto, diversas estratégias têm sido desenvolvidas para

combatê-las. No caso das perdas técnicas a principal estratégia para reduzi-las se baseia

no monitoramento e na manutenção dos componentes utilizados na geração, transmissão

e distribuição de energia, troca de componentes deteriorados, manutenção preventiva e

pesquisa sobre novas técnicas de prevenção da degradação dos equipamentos. Uma das

pesquisas neste âmbito é a desenvolvida pelo CEPEL (Centro de Pesquisa em Energia

Elétrica), onde o autor teve a oportunidade de participar de um estágio durante seis

meses. A pesquisa se baseia na detecção e localização de Descargas Parciais em

transformadores, capacitores e outros componentes utilizados em subestações de

energia, para possibilitar prever quando um equipamento está entrando ou entrará em

estado de deterioração e tomar uma ação devida, seja ela a manutenção ou a troca do

mesmo. Este é apenas um exemplo das diversas frentes de pesquisa nesta área realizadas

no Brasil e no mundo. Como se pode perceber, o combate às perdas técnicas envolve,

em sua maior parte, a aplicação e pesquisa sobre técnicas cada vez mais eficientes de

engenharia.

O combate às perdas não-técnicas de energia, por outro lado, pode envolver

questões mais amplas, como aspectos socioeconômicos e culturais. Um estudo realizado

anualmente pela “Northeast Group, llc”, empresa norte-americana de inteligência de

mercado com experiência em setores de infraestruturas inteligentes e Smart Grid,

aponta que as perdas de energia por fraudes ou furtos, no Brasil, correspondem a uma

perda de receita de mais de 10 bilhões de dólares por ano para as distribuidoras. [4]

Dentre os países emergentes o Brasil é o segundo país que mais perde energia devido a

fraudes e furtos, atrás apenas da Índia, cuja perda de faturamento chega a 16,2 bilhões

de dólares anualmente. Neste sentido muitas distribuidoras apostam em campanhas para

prevenção e conscientização da população quanto ao caráter criminoso da realização de

fraudes ou furtos. Essas campanhas de marketing alertam para o fato de que quem paga

por essa energia são os outros consumidores regulares na rede e mostram as punições

cabíveis para quem for flagrado cometendo este tipo de ato. Algumas campanhas de

prevenção podem ser consideradas bastante agressivas, principalmente no exterior,

como já foi observado em países como Chile, Inglaterra e Estados Unidos, aponta Penin

11

[3]. Ademais, algumas empresas de energia investem em programas sociais e educativos

em comunidades localizadas em áreas sujeitas a elevados índices de perdas comerciais.

[3]

Além das técnicas de prevenção citadas acima, existem também estratégias de

combate a perdas comerciais que se baseiam em inspeções de perícia técnica a

consumidores selecionados, com o objetivo de encontrar irregularidades ou fraudes em

flagrante. Este tipo de estratégia é muito utilizado no Brasil e é nele que será focado este

estudo.

2.6 – Inspeções Técnicas É denominada inspeção técnica (ou visita/perícia técnica) qualquer visita a uma

Unidade Consumidora, realizada por um técnico profissional treinado, com o objetivo

de examinar se existe alguma irregularidade ou fraude. Segundo a ANEEL, define-se

perícia técnica como: “atividade desenvolvida pelo órgão metrológico ou entidade por

ele delegada ou terceiro legalmente habilitado com vistas a examinar e certificar as

condições físicas em que se encontra um determinado sistema ou equipamento de

medição”. [5]

Uma inspeção técnica tem sempre um resultado e um laudo técnico, descrevendo

e mostrando evidências que suportem o resultado. Os resultados podem ser agrupados

em quatro categorias:

(a) Irregularidade

(b) Fraude (ou furto)

(c) NA (Nada apurado) – indica que não houve nenhuma constatação de fraude

ou irregularidade na Unidade Consumidora.

(d) NI (Não Inspecionado) – indica que a inspeção foi agendada, mas por algum

motivo ela não foi realizada, por algum impedimento externo fora do

comum.

Grande parte das concessionárias brasileiras estabelecem metas para a

quantidade de inspeções a serem realizadas por mês, além de metas para a receita total a

ser recuperada por essas inspeções, em termos de energia recuperada e energia

incrementada. Esses dois conceitos são abordados com mais detalhe nos seus

respectivos itens. É importante citar que os procedimentos adotados nas inspeções e os

12

procedimentos subsequentes à constatação de uma irregularidade ou fraude são todos

detalhados e regulados pela ANEEL, como será visto a seguir.

2.7 – Determinações da Agência Nacional de Energia Elétrica

A Agência Nacional de Energia Elétrica (ANEEL) é uma autarquia sob regime

especial (Agência Reguladora), vinculada ao ministério de Minas e Energia, e tem por

finalidade regular e fiscalizar a produção, transmissão, distribuição e comercialização de

energia elétrica, de acordo com a legislação e em conformidade com as diretrizes e as

políticas do governo federal. [6]

Dentre as competências da ANEEL destacam-se a definição dos procedimentos

a serem seguidos ao se constatar uma irregularidade e as devidas compensações de

faturamento para as concessionárias de energia.

A resolução nº 456/00 da ANEEL [7], artigo 72, determina que a concessionária,

ao constatar a ocorrência de qualquer procedimento irregular cuja responsabilidade não

lhe seja atribuível e que tenha provocado faturamento inferior ao correto, deverá adotar

as seguintes providências:

“I - emitir o “Termo de Ocorrência de Irregularidade”, em formulário próprio,

contemplando as informações necessárias ao registro da irregularidade, [...]

II - promover a perícia técnica, [...];

III - implementar outros procedimentos necessários à fiel caracterização da

irregularidade;

IV - proceder a revisão do faturamento com base nas diferenças entre os valores

efetivamente faturados e os apurados por meio de um dos critérios descritos [...]”

A ANEEL descreve, ademais, critérios para o cálculo da compensação de

faturamento. Esses critérios estão fora do escopo deste texto, porém o leitor interessado

pode referir a [7]. Serão apresentados a seguir apenas conceitos básicos envolvidos

nesta compensação.

2.8 – Recuperação de Receita

As perdas não-técnicas de energia no Brasil correspondem a uma perda de

receita de bilhões de reais por ano para as distribuidoras. A maioria delas estabelece

metas para a recuperação de receita, normalmente em termos de energia (em kWh ou

13

MWh) e em termos de faturamento (em reais). Para esclarecer essa recuperação de

receita, serão introduzidos os conceitos de energia recuperada e energia incrementada.

2.9 – Energia Recuperada

Corresponde a toda a energia que foi consumida, porém não foi faturada, durante

o período em que existiu uma irregularidade ou fraude. Quando uma irregularidade ou

fraude é descoberta, a concessionária adota o seguinte procedimento, segundo a

orientação da ANEEL: primeiramente estima-se a data de início do período irregular,

normalmente procurando por uma queda de consumo; a partir daí, observando a energia

consumida anteriormente a esta data, faz-se uma estimativa do nível de consumo normal

(regular) da Unidade Consumidora; e subtrai-se a energia faturada no período irregular

do nível de consumo normal estimado, para obter a quantidade de energia que foi

consumida e não foi faturada.

2.10 – Energia Incrementada

Quando um consumidor irregular é regularizado é de se esperar que seu nível de

energia faturada mensal aumente, de forma que corresponda ao nível de energia

consumida. Este incremento de energia faturada, observado após a regularização de uma

Unidade Consumidora, é denominado de energia incrementada. Normalmente observa-

se o incremento da energia durante um período de 12 meses.

Pode-se pensar na energia incrementada como uma forma de recuperação de

receita, visto que, caso o consumo continuasse irregular, a empresa iria perder a

quantidade de energia aproximadamente igual à energia incrementada. Embora não seja

uma energia que a distribuidora efetivamente deixou de faturar, como é o caso da

energia recuperada, ela serve como um indicador pois representa o faturamento que a

concessionária continuaria perdendo caso a UC não se regularizasse, mas que ela passa

a faturar a partir do momento da regularização. É um indicador utilizado pelas

concessionárias brasileiras.

14

2.11 – Indicadores de Desempenho de Inspeções de campo

As concessionárias de energia costumam avaliar o desempenho das inspeções de

campo, de forma agregada, através dos seguintes indicadores:

(a) Procedência (Taxa de acerto): quantidade de inspeções com resultado de

fraude ou irregularidade dividida pela quantidade de inspeções totais

realizadas em um determinado período de tempo.

(b) Energia Recuperada Total ou Energia Incrementada Total: soma da energia

recuperada ou incrementada total de todas as inspeções realizadas.

(c) Produtividade: Energia Recuperada Total dividida pela quantidade total de

inspeções realizadas.

(d) Ticket Médio: Energia Recuperada Total dividida pela quantidade de

inspeções que tiveram resultado de fraude ou de irregularidade.

Este estudo irá focar no indicador de Procedência (Taxa de acerto). Serão

utilizados modelos de Aprendizado de Máquina para classificação, para tentar melhorar

o desempenho das inspeções.

15

Capítulo 3

Aprendizado de Máquina

3.1 – Redes Neurais (Supervisionadas)

Redes Neurais, ou Redes Neurais Artificiais (RNA), é o termo atribuído a um

conjunto de modelos computacionais inspirados nas conexões de neurônios no cérebro

dos animais. É uma tecnologia bem consolidada e extensivamente estudada, que tem

raízes em diversas áreas do conhecimento, como neurociência, matemática, estatística,

física, ciência da computação e engenharia. Suas áreas de aplicação são muito

abrangentes, incluindo campos como processamento de sinais, reconhecimento de

padrões, robótica, sensoriamento remoto, entre outras. A principal característica de

redes neurais é sua habilidade de aprender padrões e estruturas, a partir de dados de

entrada (ou dados de treinamento), e a capacidade de generalizar para dados novos. [8]

De modo geral pode-se dizer redes neurais são empregadas em aplicações que se

resumem a solucionar dois tipos de problema: Classificação e Regressão. No caso deste

projeto tem-se interesse em resolver um problema de Classificação, especificamente:

dada uma Unidade Consumidora de energia e o conhecimento de suas características

(histórico de consumo, localização, ramo de atividade, etc), deseja-se poder classificá-la

como potencialmente irregular/fraudulenta (com recomendação de inspeção técnica) ou

não. Será feito um experimento sobre dados concedidos por uma concessionária de

energia, onde será desenvolvido um modelo de classificação que utiliza internamente

Redes Neurais.

Como já foi mencionado, Redes Neurais é um assunto solidamente estudado e

possui, portanto, uma vasta literatura. Por conta disso, a teoria das RNAs não será

extensivamente abordada com todos os detalhes e o devido rigor matemático neste

tópico, deixando a cargo do leitor a consulta à literatura. Como sugestão, pode-se citar

S. Haykin [8]. Este projeto focará mais na aplicação de RNAs em um contexto

específico, do que em sua teoria. Serão apresentados a seguir, de forma resumida,

apenas os principais conceitos básicos de RNAs.

As RNAs podem ter diversas arquiteturas, dependendo de sua implementação,

mas consistem tipicamente em vários nós (representando os neurônios) interligados e

que se comunicam. A Figura 2 ilustra o modelo de um neurônio com uma função de

16

ativação não-linear. Segundo a definição de S. Haykin [8], cada neurônio pode ser

modelado como uma unidade de processamento de informação, que possui três

elementos fundamentais:

1. Um conjunto de sinapses ou ligações, cada um contendo um peso w.

2. Um somador para somar os sinais de entrada, pesados pelos respectivos

pesos de suas ligações.

3. Uma função de ativação que limita a amplitude do sinal de saída do

neurônio. Tipicamente, intervalo de amplitude de saída de um neurônio é

normalizado para o intervalo [0,1].

Figura 2: Neurônio [9].

Em termos matemáticos pode-se descrever os neurônios pelas equações:

���� = � ��� ��

���

�� = �(���� + ��)

onde ��, ��, … , �� são os sinais de entrada; ���, ���, … , ��� são os respectivos pesos

do neurônio j; �� é o viés; �(. ) é a função de ativação; e �� é o sinal de saída do

neurônio. [13]

Existem vários tipos de função de ativação. Uma das mais simples é a função de

corte (ou degrau).

�(�) = �1 �� � > �0 �� � ≤ �

onde C é um corte (threshold).

17

Uma função mais utilizada na prática como função de ativação é a função

sigmóide.

�(�) =1

1 + ����

Figura 3: Função sigmóide: utilizada como função de ativação. [10]

Foram abordados até agora os conceitos relacionados a um neurônio unitário.

Para formar uma rede neural, os neurônios dever estar ligados entre si. A rede é

comumente estruturada em camadas, possuindo uma camada de entrada, uma de saída e

possivelmente uma ou mais camadas internas (ou “escondidas”). A Figura 4 ilustra essa

arquitetura.

Figura 4: Rede neural feedforward com duas camadas escondidas [11].

Os pesos de cada sinapse podem ser inicializados aleatoriamente e eles são

ajustados ao longo de diversas iterações através do algoritmo de Backpropagation. A

cada iteração, o sinal de saída resultante da rede neural é comparado ao resultado real

esperado (redes supervisionadas) e obtém-se uma estimativa do erro. Este erro é

18

utilizado para definir os pesos da próxima iteração. Calcula-se a partir dele o gradiente

local e assim o novo peso é definido pela fórmula: [8]

�����çã� �� ����Δ���(�)

� = ����� ��

������������

� × �

����������������(�)

� × �

����� �� ��� ��

����� ���(�)

3.2 – Separação entre conjunto de treinamento e conjunto de teste

Uma parte importante para a avaliação de modelos de Aprendizado de Máquina

é a separação do conjunto de dados em um conjunto de treinamento e um conjunto de

teste. O modelo deve ser capaz de aprender a partir dos dados de treinamento, para em

seguida ser aplicado em dados reais (representados pelo conjunto de teste). É desejável

que o modelo seja capaz de generalizar a habilidade de classificação aprendida durante

o treinamento para conjuntos novos, que o modelo nunca tenha antes visto. Este poder

de generalização é, na verdade, o objetivo principal de qualquer modelo de Aprendizado

de Máquina. Essa é uma habilidade atribuída ao processo de aprendizado do ser

humano, que inspira tais modelos computacionais. Portanto, utiliza-se o conjunto de

treinamento para treinar o modelo, mas a avaliação final dos resultados deve ser feita

sobre o conjunto de teste. É importante frisar que após a aplicação do modelo já

treinado sobre o conjunto de teste não se deve mais ajustar nenhum parâmetro nem

realizar nenhum novo treinamento, pois isso enviesará o modelo e invalidará os

resultados.

3.3 – Validação cruzada

Para evitar que o modelo se especialize demais no conjunto de treinamento

(overfitting), é necessário realizar um procedimento de validação durante o treinamento.

O modo convencional de se fazer isto é dividir o conjunto de treinamento em um

subconjunto de estimação, que será fornecido ao modelo, e um subconjunto de

validação. Os sinais de entrada apresentados ao modelo devem vir do subconjunto de

estimação, porém agora o modelo será avaliado também através do erro de validação,

calculado sobre o subconjunto validação. Nas primeiras iterações do treinamento, o erro

calculado em ambos subconjuntos tende a diminuir, porém quando o algoritmo começa

19

a se especializar demais, observa-se que o erro de estimação continua diminuindo

enquanto que o erro de validação começa a aumentar. Neste ponto, é preciso parar o

treinamento. Este método é chamado de método de interrupção precoce de treinamento

e é amplamente utilizado na prática. [8] A Figura 5 ilustra graficamente o método

descrito, que também é chamado na literatura de método de holdout.

Figura 5: Ilustração do ponto de parada do treinamento. [8]

3.4 – Variantes da validação cruzada

Existem variantes para o método de validação cruzada descrito acima. Quando

se tem um conjunto dados pequeno, por exemplo, pode-se utilizar o método K-fold

(multifold cross-validation). Divide-se o conjunto de N amostras em K partições

(subconjuntos disjuntos), onde K > 1, assumindo que N é divisível por K. O modelo é

treinado em todas as partições, exceto uma, e o erro de validação é calculado testando o

modelo no subconjunto que foi deixado de fora. Este procedimento é repetido um total

de K vezes, cada vez utilizando um subconjunto diferente para validação, como

ilustrado na Figura 6, para K = 3. O desempenho do modelo é então avaliado através da

média entre os erros calculados em cada repetição. A desvantagem do método K-fold é

que ele pode requerer um grande volume de processamento computacional, já que o

modelo tem que ser testado K vezes. [8]

Quando a quantidade de dados no conjunto disponível é extremamente limitada,

pode-se usar um caso extremo do método K-fold de validação cruzada, conhecido como

leave-one-out-method. Neste caso N – 1 amostras são fornecidas para o treinamento do

20

modelo e o modelo é validado na amostra deixada de fora. O desempenho do modelo é

então avaliado pela média dos erros das N repetições. [8]

Figura 6: Método K-fold de validação cruzada. [12]

Além dos métodos citados, outros bastante conhecidos são o leave-p-out cross-

validation (caso especial do método K-fold onde K = N - P) e o 2-fold cross-validation

(caso especial do método K-fold onde K = 2) [13] e a validação por Monte Carlo. [14]

3.5 – Métricas de desempenho Para avaliar o desempenho de um modelo, é necessário definir uma métrica, que

nada mais é que uma função que recebe como parâmetro de entrada, o resultado de cada

predição do modelo e seu valor de referência correspondente e retorna um valor de

saída, que corresponde a uma medida de erro de predição. Tem-se a opção de escolher

dentre diversas métricas e essa escolha dependerá da aplicação e de ser um problema de

Regressão ou Classificação.

Para regressão as métricas mais comuns utilizadas são a raiz do erro médio

quadrado (RMSE) e o coeficiente de determinação, também chamado de R².

Para problemas de classificação binária, a avaliação do modelo pode ser feita

através da matriz de confusão. A matriz de confusão é uma tabela 2x2 que contém os

21

quatro possíveis resultados da aplicação de um classificador binário. Na tabela abaixo

A, B, C e D são a quantidade de elementos que se enquadram em cada uma das quatro

situações representadas pelas células da tabela, respectivamente:

A. Verdadeiro Positivo (VP) – quantidade de predições corretas para a classe

“Positivo”;

B. Falso Positivo (FP) – quantidade de predições incorretas para a classe

“Positivo”;

C. Falso Negativo (FN) – quantidade de predições incorretas para a classe

“Negativo”;

D. Verdadeiro Negativo (VN) – quantidade de predições corretas para a classe

“Negativo”

Referência

Positivo Negativo

Pre

diç

ão

Positivo A B

Negativo C D

Tabela 1: Matriz de Confusão

A partir da matriz de confusão podem ser derivadas diversas métricas básicas de

desempenho, como precisão, acurácia, especificidade e sensitividade. Abaixo

encontram-se a definição de algumas das métricas mais utilizadas em diversas

aplicações:

������������� =�

� + �

�������������� =�

� + �

������ã� =�

� + �

22

������ =� + �

� + � + � + �

���� �� ���� =� + �

� + � + � + �

Estas são as métricas mais básicas derivadas da matriz de confusão e as mais

comumente utilizadas em problemas de classificação binária. Além destas, outras

métricas mais avançadas podem ser derivadas, como o coeficiente Kappa de Cohen [15]

e a Característica de Operação do Receptor (ROC). [16] Dependendo do objetivo e da

aplicação do modelo, pode-se também definir métricas “customizadas”. Isto é, baseado

no conhecimento específico da área de conhecimento da aplicação, o projetista do

modelo ou do classificador pode definir métricas específicas que se adequam melhor ao

caso em questão, podendo elas ser derivadas das métricas acima ou não. Pode-se pensar

na métrica de desempenho como simplesmente uma função. Ela toma como parâmetro

de entrada os resultados do modelo e retorna um valor em uma escala numérica, sendo

possível ordenar e comparar diferentes modelos por seu desempenho. Pode-se querer,

por exemplo, projetar um modelo que maximiza ao mesmo tempo a precisão e a

sensibilidade. Para expressar isso matematicamente pode-se definir uma métrica que

seja igual a soma da precisão e da sensibilidade.

No caso desta aplicação, deseja-se avaliar o desempenho das inspeções de

campo de forma agregada. Como foi visto no capítulo 2, uma inspeção de campo pode

ter um dentre 4 possíveis resultados: fraude, irregularidade, NA ou NI. Para as análises

feitas neste projeto serão descartadas do conjunto de dados inspeções com resultado NI,

pois este resultado não acrescenta nenhuma informação útil ao aprendizado do modelo,

da forma como ele será desenvolvido. Além disso, para simplificar o problema e para

trabalhar com classificadores binários, os resultados fraude e irregularidade serão

combinados em uma classe única. A partir deste ponto, não será feita mais distinção

entre esses dois resultados. Referir-se-á à fraude ou à irregularidade simplesmente como

irregularidade. UCs que tiveram uma inspeção com resultado de irregularidade serão

denominadas UCs irregulares e UCs cuja inspeção retornou um resultado NA serão

denominadas regulares. Para a avaliação do modelo será definido, arbitrariamente, que a

classe “Positivo” corresponde a UCs irregulares e a classe “Negativo” às UCs regulares.

23

A concessionária que cedeu os dados para este estudo tem um processo semanal

de levantamento de UCs suspeitas (com potencial de estarem irregulares), as quais serão

selecionadas para receber inspeção técnica. Essas UCs selecionadas para seleção são

comumente chamadas, nesse contexto, de alvos. A empresa normalmente tem um

número N pré-estipulado de alvos que devem ser selecionados para receber inspeção.

Este valor N é determinado levando-se em consideração o custo de realização das

inspeções e a projeção de recuperação total de receita, de forma que as inspeções

técnicas sejam lucrativas para a empresa. Em resumo, deseja-se selecionar N alvos para

inspeção dentre um número total de UCs atendidas pela distribuidora. Faz-se necessário

um modelo que classifique as UCs como potencialmente irregulares ou regulares.

Neste cenário, é interessante a criação de um modelo que selecione os N alvos

com maior potencial de irregularidade e, para avaliar tal modelo, será calculada a

precisão, (ou taxa de acerto) das inspeções, com a restrição de que o número de

inspeções seja igual a N. Isto equivale a dizer que a quantidade de elementos

classificados como “Positivo” é fixa, igual a N (VP + FP = N) e deseja-se que VP seja o

mais próximo possível de N.

24

Capítulo 4

Proposta de Solução 4.1 – Procedimentos Metodológicos Aplicações de análise de dados e de Aprendizado de Máquina tipicamente

seguem uma sequência de passos bem definidos. A Figura 7 a seguir ilustra os

principais passo.

Primeiramente serão apresentados os dados aos quais a concessionária tem

acesso, com uma breve explicação. Depois serão selecionados aqueles que irão compor

o vetor de características que será fornecido ao modelo. Em seguida será realizada uma

breve análise exploratória dos dados, com o intuito de apresentar uma caracterização

descritiva do conjunto utilizado. Depois disso os dados serão fornecidos ao modelo, que

gerará um resultado. Por fim, os resultados serão expostos e avaliados.

4.2 – Dados disponíveis à concessionária de energia

A concessionária de energia elétrica considerada neste estudo tem acesso a uma

diversidade de dados dos consumidores. Pode-se dividi-los nos seguintes subgrupos

principais: dados do consumidor, dados da instalação elétrica e dados mensais de

consumo de energia (incluindo notas de leitura). Nos próximos tópicos cada um destes

Coleta de Dados

Extração de Característica

s

Análise exploratória (descritiva)

Aplicação do Modelo

Avaliação dos Resultados

Figura 7: Procedimento prático para aplicações de Aprendizado de Máquina

25

subgrupos de dados será descrito com mais detalhes, mostrando quais são os principais

dados e por que eles são importantes para a concessionária.

4.3 – Dados do consumidor

Os dados do consumidor são informações que identificam e caracterizam o

consumidor e localizam geograficamente a Unidade Consumidora. São informações

básicas que podem ser obtidas através de um formulário de cadastramento, por exemplo.

Estas informações são obviamente importantes para se estabelecer uma via de

comunicação entre a empresa e seus consumidores, principalmente para o processo

tarifação de energia. Tipicamente tem-se:

(a) Nome da pessoa física ou jurídica;

(b) Localização geográfica: endereço (logradouro) da UC, bairro, localidade,

município, Região ou Base administrativa à qual a UC pertence;

(c) Classe de consumo, podendo ser principalmente residencial, comercial,

industrial, iluminação pública, poder público, entre outros;

(d) Ramo de atividade. Identifica qual é a principal atividade exercida pela UC,

por exemplo: “Residencial (casa)”, “Cultivo de milho”, “Cultivo de feijão”,

“Lanchonetes, casas de chá, de sucos e similares”, “Educação infantil - pré-

escola”, etc.

4.4 – Dados da instalação elétrica

Os dados da instalação elétrica são dados técnicos, importantes para o projeto e

dimensionamento da rede ou para a tarifação da energia. Dentre os mais relevantes

pode-se citar:

(a) Fase da ligação, podendo ser monofásica, bifásica ou trifásica. Ligações

monofásicas correspondem normalmente a consumidores com menor nível

de consumo, enquanto consumidores com ligação trifásica apresentam um

nível de consumo mensal mais elevado. Ligações bifásicas são mais raras do

que os outros tipos de ligação. Na região de análise, por exemplo, tem-se

que, da base de inspeções, 76,00% dos consumidores são monofásicos,

26

23,97% são trifásicos, enquanto que apenas 0,02% dos consumidores têm

ligação bifásica.

(b) Tipo de medidor. Informações gerais sobre o medidor utilizado na UC,

indicando ele se é eletrônico ou eletromecânico, se seu mostrador é de 4, 5

ou 6 dígitos, etc;

(c) Grupo tarifário. Segundo o Manual de Tarifação da Energia Elétrica do

PROCEL [17], as unidades consumidoras são classificadas em dois grupos

tarifários: Grupo A, que tem tarifa binômia e Grupo B, que tem tarifa

monômia. O agrupamento é definido, principalmente, em função do nível de

tensão em que são atendidos e também, como consequência, em função da

demanda (kW);

Este projeto ater-se-á somente a consumidores no grupo B (baixa

tensão), que representa os consumidores mais comuns. A grande maioria dos

consumidores de energia se encaixam nesse grupo.

(d) Subgrupo. Os grupos tarifários são subdivididos em subgrupos.

“O Grupo B é dividido em subgrupos, de acordo com a atividade do

consumidor, conforme apresentados a seguir:

• Subgrupo B1 – residencial e residencial baixa renda;

• Subgrupo B2 – rural e cooperativa de eletrificação rural;

• Subgrupo B3 – demais classes;

• Subgrupo B4 – iluminação pública.

Os consumidores atendidos em alta tensão, acima de 2300 volts, como

indústrias, shopping centers e alguns edifícios comerciais, são classificados

no Grupo A.

Esse grupo é subdividido de acordo com a tensão de atendimento, como

mostrado a seguir.

• Subgrupo A1 para o nível de tensão de 230 kV ou mais;

• Subgrupo A2 para o nível de tensão de 88 a 138 kV;

• Subgrupo A3 para o nível de tensão de 69 kV;

• Subgrupo A3a para o nível de tensão de 30 a 44 kV; Subgrupo A4 para

o nível de tensão de 2,3 a 25 kV;

• Subgrupo AS para sistema subterrâneo.

Os poucos prédios públicos classificados no Grupo A, em geral estão no

Sub-GrupoA4.” [17]

27

4.5 – Dados mensais de consumo Os dados mensais de consumo são importantes para a tarifação feita pelas

empresas e são de extrema importância nesta aplicação, como será visto no próximo

tópico sobre a escolha do vetor de características para o modelo de Aprendizado de

Máquina. Deve-se citar:

(a) Data da leitura ou data de referência. Aqui faz-se uma distinção entre data de

leitura e data de referência, porque pode acontecer que o leiturista não

consiga, em um dado mês, realizar a leitura do medidor de uma dada UC,

devido, por exemplo, a um alagamento na região, impossibilitando o acesso

ao medidor, devido ao mostrador (display) estar apagado ou embaçado no

momento da leitura ou devido a qualquer outro fator que possa impossibilitar

o leiturista de realizar a medição. Nesses casos o consumidor pode ser

faturado pelo consumo mínimo ou pode simplesmente não ser faturado.

(b) Consumo medido e consumo faturado. O consumo medido é a energia, em

kWh, consumida no mês de referência. Corresponde à diferença entre o valor

lido pelo leiturista no mês de referência menos o valor lido no mês anterior.

Consumo faturado é o consumo de energia efetivamente cobrado pela

concessionária. Esses dois valores de consumo podem ser diferentes se, por

exemplo, o consumo medido for menor do que o consumo faturado mínimo

estipulado pela ANEEL para cada tipo de ligação. Para consumidores do

Grupo B, a energia faturada mínima é de 30kWh para consumidores

monofásicos, 50 kWh para bifásicos e 100 kWh para consumidores

trifásicos. Se um consumidor tiver, em um dado menos, um valor de

consumo medido menor do que o valor de energia faturada mínima, para o

seu tipo de ligação, ele será faturado pelo consumo faturado mínimo e, neste

caso, o valor de consumo medido será menor que o de consumo faturado.

4.6 – Extração de características

Será definido agora o vetor de características que será utilizado no treinamento e

teste do modelo. Dentre os dados disponíveis descritos acima, tentar-se-á selecionar

aqueles que têm maior correlação com o resultado das inspeções. Esta é uma tarefa de

suma importância, pois determinará quais informações serão fornecidas ao modelo, e

28

existem várias técnicas de Mineração de Dados e Aprendizado de Máquina para

resolvê-la. Técnicas matemáticas e estatísticas que envolvem a redução da dimensão dos

dados, como o PCA, são bastante utilizadas. [18]

Diversas análises e estudos aprofundados poderiam ser realizados com o

objetivo de escolher os atributos mais relevantes para esta aplicação. Contudo, esse tipo

de pesquisa vai além do escopo deste projeto, que se aterá a um método mais simples.

Neste experimento as características serão escolhidas de forma mais heurística,

baseadas no conhecimento do autor na área, adquirido através de experiência de estágio.

Serão descritas a seguir as variáveis utilizadas e o motivo pelo qual elas foram

selecionadas.

Neste experimento serão analisadas apenas UCs do Grupo B (unidades

consumidoras de baixa tensão), pois elas representam o consumidor comum.

Normalmente as concessionárias traçam estratégias especiais para UCs do Grupo A. Por

se tratarem de consumidores de alta energia, a receita recuperada tende a ser maior, e

por isso eles recebem uma atenção especial da área de perdas das distribuidoras. É

importante citar também que, por se tratar de uma aplicação de redes neurais

supervisionadas, serão analisadas apenas UCs que tiveram alguma inspeção, com um

resultado válido. Isto pode introduzir um certo viés, pois uma UC que recebe uma

inspeção provavelmente a recebeu porque apresentava algum tipo de comportamento

suspeito. Infelizmente esta é uma limitação prática que não pode ser contornada, no

caso de algoritmos supervisionados.

O primeiro princípio adotado é que o volume de perdas comerciais, em relação

ao total de energia fornecida ao sistema, varia com a localização geográfica. Isto é

verdade tanto para um nível estadual, ou de área de concessão, quanto para um nível

municipal e até mesmo para bairros. Para ilustrar este fato será apresentada no item “4.7

– Análise Descritiva dos Dados” a quantidade de ocorrências de fraudes e

irregularidades nos municípios incluidos no conjunto de dados estudado. Nos

experimentos a serem realizados será analisada apenas uma região da concessionária

que compreende cerca de 400 mil UCs, de onde será usado um banco de inspeções de

aproximadamente 21.400 visitas com resultado. Foram selecionadas as variáveis de

localização geográfica: região administrativa, município e bairro, sendo cada uma

representada por um código.

Serão selecionadas a fase de ligação e a classe da UC, por serem variáveis que

caracterizam indiretamente o consumo. UCs trifásicas comerciais tendem a ter um

29

consumo de energia mais elevado do que UCs bifásicas ou monofásicas residenciais.

Indústrias deveriam ter um consumo mais elevado do que residências comuns. Se isso

não acontece, pode ser que haja alguma irregularidade na indústria. É claro que podem

haver outras explicações, como ela ter fechado ou estar desocupada por um período de

tempo, mas de qualquer forma seria interessante investigar. Este tipo de comparação é

feita naturalmente pelo algoritmo.

Uma estratégia muito utilizada para detecção de irregularidades é a observação

da curva histórica de consumo faturado das UCs e a procura por quedas de consumo. A

lógica é simples: se uma UC regular passa a ter um consumo irregular, parte da energia

consumida não será mais faturada. Considerando que o nível de energia consumida se

mantenha aproximadamente constante, haverá uma queda no faturamento. Para poder

detectar variações incomuns de consumo, foram selecionadas as seguintes estatísticas

dos valores históricos de energia faturada:

MEDIANA_CONS_6M: Mediana de consumo, de 6 meses antes da

inspeção até o último consumo faturado anterior à inspeção – mediana de

6 pontos;

INTERQUARTIL_6M: Amplitude interquartil de consumo, de 6 meses

antes da inspeção até o último consumo faturado anterior à inspeção;

MEDIANA_CONS_18M: Mediana de consumo, de 18 meses antes da

inspeção até 6 meses antes da inspeção – mediana de 12 pontos (período

de um ano);

INTERQUARTIL_18M: Amplitude interquartil de consumo, de 18

meses antes da inspeção até 6 meses antes da inspeção – interquartil de

12 pontos (período de um ano);

MEDIANA_CONS_30M: Mediana de consumo, de 30 meses antes da

inspeção até 18 meses antes da inspeção – mediana de 12 pontos

(período de um ano);

INTERQUARTIL_30M: Amplitude interquartil de consumo, de 30

meses antes da inspeção até 18 meses antes da inspeção – interquartil de

12 pontos (período de um ano).

A mediana e a amplitude interquartil foram utilizadas, em detrimento da média e

desvio padrão, por representarem melhor o conjunto de dados, especialmente quando se

30

trata de conjuntos com poucas observações, como é o caso (6 e 12 pontos). A partir

destas estatísticas básicas pode-se observar, por exemplo, se a UC teve uma variação

muito grande na mediana de consumo, entre um período e outro, o que poderia indicar

uma queda. Outros tipos de observações podem ser feitas, mas isto ficará a cargo do

algoritmo de aprendizado, que de certa forma fará isso internamente durante o processo

de treinamento.

Além das variáveis descritas acima, é necessário obviamente o resultado da

inspeção para o algoritmo supervisionado. Como foi discutido no item “3.5 – Métricas

de Desempenho”, não será feita uma distinção entre irregularidade e fraude. Os dois

possíveis resultados de uma inspeção são, portanto: Regular (N.A.) e Irregular.

Finalmente, a lista completa de variáveis para o treinamento é apresentada a

seguir.

CLASSE

FASE

MUNICÍPIO

BAIRRO

MEDIANA_CONS_6M

MEDIANA_CONS_18M

MEDIANA_CONS_30M

INTERQUARTIL_6M

INTERQUARTIL_18M

INTERQUARTIL_30M

4.7 – Análise Descritiva dos Dados

O experimento será realizado sobre uma base de 21421 inspeções, com

resultados (irregular ou N.A.). A Figura 8 mostra a quantidade de inspeções com cada

resultado. Das 21421 inspeções realizadas, 7062 tiveram resultado “Irregular”, enquanto

que 14359 tiveram resultado “Nada Apurado”. Em termos percentuais, 32,97% das

inspeções tem resultado “Irregular”.

31

Figura 8: Resultados das inspeções realizadas

Esta base de dados corresponde a um banco de inspeções realizadas em

consumidores do grupo B (baixa tensão), em uma região atendida pela concessionária.

Como se pode observar pela Figura 9, a região analisada é composta

majoritariamente por UCs monofásicas, contabilizando 76,01% do total de UCs da base

de dados, enquanto que as UCs trifásicas compõem 23,97% do total. O número de UCs

bifásicas é praticamente desprezível, correspondendo a 0,018% da base.

Figura 9: Distribuição das UCs por fase de ligação

Além disso, a Figura 10 nos mostra a predominância de residências na região.

Elas compõem 58,55% do total de UCs. Nota-se também uma quantidade expressiva de

UCs rurais e comerciais, com 20,25% e 12,28% do total, respectivamente. Outras

classes de consumo representadas na base são: serviço público, poder público,

iluminação pública, industrial e consumo próprio.

32

Figura 10: Distribuição das UCs por classe de consumo

As UCs estão distribuídas em 46 municípios, identificados por seus códigos

(ID_MUNICIPIO). Os dez municípios com maior número de ocorrências de inspeções

na base de dados estão representados na Figura 11 a seguir. O município de código 67

tem o maior número de ocorrências da base de dados, com mais de 3 mil inspeções,

seguido pelos municípios de códigos 102 e 14, que têm um histórico de cerca de 1700

inspeções cada um.

Figura 11: Os dez municípios com maior número de inspeções com resultado,

identificados pelo código do município

Além disso, os quinze municípios com maior número de irregularidades são

mostrados na Figura 12. Nota-se que naturalmente todos os dez municípios com maior

volume de inspeções constam da lista de quinze municípios com maior quantidade de

irregularidades. Os três municípios com maior número de inspeções na base lideram a

lista de municípios com maior quantidade de irregularidades.

33

Figura 12: Os quinze municípios com maior número de inspeções com resultado

irregular

4.8 – Ferramentas utilizadas

Para o treinamento e a aplicação do modelo foi utilizada a linguagem de

programação R, em conjunto com o pacote “caret”.

R é uma linguagem de programação de código aberto (open-source) e ambiente

de desenvolvimento integrado para computação estatística e gráfica, amplamente

utilizada para o desenvolvimento de software estatísticos e de análise de dados. Foi

criada por Ross Ihaka e Robert Gentleman na Universidade de Auckland, Nova

Zelândia. [19]

O pacote caret (abreviação de “Classification And REgression Training”) é

um conjunto de funções que tentam agilizar o processo de criação de modelos

preditivos. O pacote contém ferramentas para diversas funcionalidades [20], tais como:

Divisão de dados

Pré-processamento

Seleção de características

Ajuste de modelos usando resampling

Estimativa de importância de variáveis

Foi utilizado primeiramente o modelo de redes neurais (nnet) e Model

Averaged Neural Networks (avNNet) através do pacote caret. O primeiro é um

modelo de redes neurais simples e o segundo modelo constrói um ensemble de redes

neurais e o resultado global é calculado a partir da média das saídas de cada rede neural.

34

Segundo a sua descrição em [21], a implementação é baseada fortemente no pacote

“nnet”, desenvolvido por Brian Ripley [22].

Seguindo Ripley (1996) [22], “o mesmo modelo de rede neural é ajustado

usando diferentes sementes de números aleatórios. Todos os modelos resultantes são

usados para previsão. [...] Para a classificação, calcula-se primeiramente a média das

saídas analógicas de cada rede, e depois este valor é traduzido para as classes

previstas. ”

4.9 – Experimentos

Os dados descritos nos itens anteriores foram carregados em uma variável do

tipo data.frame, denominada dataset, e os resultados das inspeções foram

guardados na variável outcomes. A função str do R lista os objetos de um

data.frame, passado como parâmetro, e a estrutura dos mesmos, indicando o tipo de

dado e exibindo as primeiras observações de cada variável. A chamada a essa função

com o parâmetro dataset mostra que há 21421 observações de 10 variáveis (como

mencionado anteriormente).

> str(dataset) 'data.frame': 21421 obs. of 10 variables: $ ID_CLASSE : Factor w/ 8 levels "A","B","C","D",..: 2 2 2 7 2

7 7 2 2 2 ... $ ID_FASE : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1

1 1 ... $ ID_MUNICIPIO : Factor w/ 46 levels "102","106","11",..: 32 32

32 32 32 32 32 35 35 42 ... $ ID_BAIRRO : num 8748 17092 1929 15460 15001 ... $ MEDIAN_CONS6 : num 200 30 30 158 30 ... $ MEDIAN_CONS18 : num 193 30 90.5 141.5 30 ... $ MEDIAN_CONS30 : num 138 30 78 192 30 ... $ INTERQUARTIL6 : num 14.5 0 0 31.2 0 ... $ INTERQUARTIL18: num 42 0 29 134 0 ... $ INTERQUARTIL30: num 9 0 65 36.5 0 ...

Este conjunto de dados foi então dividido em um conjunto de treinamento e um

conjunto de teste, contendo 70% e 30% dos dados, respectivamente. Isto corresponde a

14996 observações no conjunto de treinamento e 6425 observações no conjunto de

teste. O conjunto de treinamento foi guardado na variável training e o conjunto de

teste na variável testing. Isto foi feito com auxílio da função

createDataPartition, através do seguinte código.

35

> inTraining <- createDataPartition(outcomes, p=0.7, list=FALSE) > training <- dataset[inTraining,] > training_outcomes <- outcomes[inTraining] > testing <- dataset[-inTraining,] > testing_outcomes <- outcomes[-inTraining]

O treinamento do modelo é realizado através da função train, do pacote

caret. Ela toma como parâmetros o conjunto de treinamento, o resultado das

inspeções para este conjunto, o método (neste caso utilizou-se o modelo de redes

neurais, nnet, e Model Averaged Neural Network, avNNet), a métrica de validação e

os parâmetros de treinamento e validação, definidos através da função

trainControl. Como se pode ver, utilizou-se inicialmente validação cruzada

(repeatedcv) 5-fold, com 10 repetições.

> fitControl <- trainControl( ## 5-fold CV method = "repeatedcv", number = 5, ## repeated ten times repeats = 10, classProbs = TRUE, summaryFunction = twoClassGroup, allowParallel = TRUE)

Com a validação 5-fold, o conjunto de treinamento será dividido em 5 partições

de aproximadamente 3000 observações, que pode ser considerado um número

razoavelmente grande de observações para esta aplicação. O fato de serem apenas 5

partições fará com que o tempo de duração do treinamento não seja tão longo na prática.

A escolha de um número maior de partições para o conjunto de treinamento implica em

um tempo de duração mais longo para o processo de treinamento do modelo. Como será

visto, com estas escolhas de parâmetros o treinamento dos modelos tem duração da

ordem de algumas poucas horas.

Foram utilizados dois modelos para o treinamento: redes neurais (nnet) e

“Model Averaged Neural Network” (avNNet).

> model_nnet <- train(x=training, y=training_outcomes, method ="nnet", metric="mapk", trControl=fitControl) > model_avNNet <- train(x=training, y=training_outcomes, method ="avNNet", metric="mapk", trControl=fitControl)

36

O tempo de duração para o treinamento do primeiro modelo (nnet) foi de 40

minutos, como descrito abaixo em segundos (“elapsed”).

> model_nnet$times $everything user system elapsed 2293.20 7.64 2400.55

O segundo modelo (avNNet) teve um tempo de treinamento notadamente mais

devagar, de 9.268,47 segundos, ou 2 horas e 34 minutos.

> model_avNNet$times $everything user system elapsed 8900.59 72.02 9268.47

Este modelo foi em seguida empregado para a classificação dos elementos no

conjunto de teste, através da função predict.

> predictions_nnet <- predict(model_nnet, newdata=testing) > predictions_avNNet <- predict(model_avNNet, newdata=testing)

Com a chamada à função confusionMatrix, pode-se ver alguns resultados

importantes da avaliação do modelo. A seguir é apresentada a Tabela 2, que mostra a

matriz de confusão resultante da aplicação do primeiro modelo, de redes neurais

(nnet).

Referência

N.A. Irregular

Pre

diç

ão

N.A. 3624 1202

Irregular 683 916

Tabela 2:Matriz de confusão resultante da aplicação do modelo de redes neurais

(nnet)

Como se vê, o modelo apresentou uma precisão de 57,29% e uma acurácia de

70,66%. Para se ter comparativo, destaca-se que a região de análise atende um total de

370387 UCs e, no período de janeiro de 2015 a dezembro de 2016, foram realizadas

8367 inspeções direcionadas, com uma a taxa de acerto acumulada de 30,91%

(equivalente à medida de precisão). Inspeções direcionadas são inspeções a UCs

selecionadas, que apresentem algum indício de irregularidade ou fraude, baseado

37

somente na observação das dados da UC e em notas de leiturista, assim como é feito

neste projeto. Em oposição às inspeções direcionadas, existem também as inspeções

avulsas. São inspeções a UCs que não foram pré-selecionadas, mas que, por exemplo,

chamam a atenção do técnico de inspeção por algum aspecto suspeito, no momento em

que ele passa pela rua. Normalmente são inspeções feitas por técnicos com muito

conhecimento pessoal sobre as regiões com altos índices de irregularidade ou fraude.

A Tabela 3 a seguir mostra a matriz de confusão do segundo modelo utilizado:

“Model Averaged Neural Network” (avNNet).

Referência

N.A. Irregular

Pre

diç

ão

N.A. 4096 1752

Irregular 211 366

Tabela 3: Matriz de confusão resultante da aplicação do modelo de emsemble redes

neurais (avNNet)

Como pode-se ver, o modelo apresenta uma precisão de 63,43%,

aproximadamente 6,41 pontos percentuais maior que o modelo anterior, e uma acurácia

de 69,45%. Este modelo, em comparação com o primeiro, apresenta uma melhor

precisão, porém a acurácia é menor, em 1,21 pontos percentuais.

Para o próximo experimento utilizou-se as características descritas a seguir.

Acrescentou-se às características utilizadas anteriormente, cinco características

relacionadas a notas de irregularidade dadas por leituristas. Essas notas, como foi

detalhado no capítulo 3, representam um forte indício de irregularidade/fraude, porém

não expressam uma certeza de que o consumidor está irregular, dado que o leiturista

carece muitas vezes da habilidade técnica, além de não ser sua função realizar perícias

na instalação. As características adicionadas foram:

QTD_SUSPEITA_FR: quantidade de apontamentos de suspeita de

fraude nos últimos 6 meses, anteriores à inspeção;

QTD_MEDIDOR_DEFEITO: quantidade de apontamentos de medidor

com defeito nos últimos 6 meses, anteriores à inspeção;

38

QTD_3M_PARADO_HABITADO: quantidade de apontamentos de

medidor parado, com o local de consumo habitado, nos últimos 3 meses,

anteriores à inspeção;

QTD_DANIFICADO: quantidade de apontamentos de medidor

danificado, nos últimos 12 meses, anteriores à inspeção;

QTD_DISPLAY_APAGADO: quantidade de apontamentos de medidor

com display apagado, nos últimos 3 meses, anteriores à inspeção;

QTD_EM_QUEIMADO: quantidade de apontamentos de medidor

queimado, nos últimos 3 meses, anteriores à inspeção.

A matriz com todas as observações foi denominada de dataset e foi impressa

abaixo. Ela possui 21421 observações e 16 variáveis (características).

> str(dataset) 'data.frame': 21421 obs. of 16 variables: $ ID_CLASSE : Factor w/ 8 levels "A","B","C","D",..: 2 2 2 7 2 7 7 2 2 2 ... $ ID_FASE : Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ... $ ID_MUNICIPIO : Factor w/ 46 levels "102","106","11",..: 32 32 32 32 32 32 32 35 35 42 ... $ ID_BAIRRO : num 8748 17092 1929 15460 15001 ... $ MEDIAN_CONS6 : num 200 30 30 158 30 ... $ MEDIAN_CONS18 : num 193 30 90.5 141.5 30 ... $ MEDIAN_CONS30 : num 138 30 78 192 30 ... $ INTERQUARTIL6 : num 14.5 0 0 31.2 0 ... $ INTERQUARTIL18 : num 42 0 29 134 0 ... $ INTERQUARTIL30 : num 9 0 65 36.5 0 ... $ QTD_SUSPEITA_FR : num 0 0 0 2 0 0 0 0 0 0 ... $ QTD_MEDIDOR_DEFEITO : num 0 0 3 0 1 0 0 0 0 0 ... $ QTD_3M_PARADO_HABITADO: num 0 0 2 0 1 0 0 0 0 0 ... $ QTD_DANIFICADO_M200 : num 0 0 0 0 0 0 0 0 0 0 ... $ QTD_DISPLAY_APAGADO : num 0 0 0 0 0 0 0 0 0 0 ... $ QTD_EM_QUEIMADO : num 0 0 0 0 0 0 0 0 0 0 ...

Estas características foram utilizadas para treinar o modelo “Model Averaged

Neural Network” (avNNet). Como nos experimentos realizados anteriormente, o

modelo foi treinado utilizando-se validação cruzada (repeatedcv) 5-fold, com 10

repetições. O tempo de duração do treinamento foi de aproximadamente 3 horas e 6

minutos.

> model_avNNet_NL$times $everything user system elapsed 10637.49 46.44 11157.00

39

Após o treinamento foram feitas predições sobre o conjunto de teste e resultado

é mostrado na Tabela 4 a seguir.

Referência

N.A. Irregular

Pre

diç

ão

N.A. 3985 1179

Irregular 322 939

Tabela 4: Matriz de confusão resultante da aplicação do modelo de emsemble redes

neurais (avNNet), com a utilização de notas de leiturista no vetor de características.

Observa-se que o modelo apresenta uma precisão de 74,46%, o que representa

um aumento de 17,4% com relação ao experimento anterior. A acurácia também

apresenta um valor mais alto, de 76,64%. Era de se esperar que esse experimento tivesse

resultados expressivamente melhores, devido à utilização de notas de leiturista.

A Tabela 5 a seguir resume os principais resultados obtidos nos experimentos

realizados. Nota-se que o modelo treinado com a utilização de notas de leiturista

apresenta o melhor desempenho em termos de precisão e acurácia. No entanto, o último

experimento foi o que apresentou a maior duração para o tempo de treinamento, devido

à maior quantidade de variáveis (características).

Precisão Acurácia Duração do

treinamento

Experimento 1

(nnet) 57,29% 70,66% 40 min

Experimento 2

(avNNet) 63,43% 69,45% 2h 34min

Experimento 3

(avNNet + N.L.) 74,46% 76,64% 3h 6min

Tabela 5: Resumo dos resultados obtidos por todos os modelos

40

Na prática deve-se combinar essas estratégias de classificação de consumidores

com uma avaliação da sua estimativa de energia a recuperar. A concessionária visa não

só uma alta taxa de acerto nas inspeções, como também um alto retorno em termos de

energia. Uma estratégia utilizada na prática, por exemplo, é focar as inspeções em

clientes comerciais ou industriais, com alto padrão de consumo, mesmo que não

apresentem muitos indícios de irregularidade. Pode ser que essa estratégia tenha uma

taxa de acerto mais baixa, porém os poucos consumidores irregulares deflagrados serão

obrigados a retornar uma quantia relativamente mais alta de energia recuperada à

companhia. No capítulo final será sugerido um trabalho futuro no âmbito de prever a

energia recuperada por consumidores potencialmente irregulares.

4.10 – Considerações Finais

Como foi mencionado no item anterior, a região analisada apresentou uma taxa

de acerto acumulada de 30,91%, para os anos de 2015 e 2016. No entanto, é importante

salientar que uma comparação dos resultados obtidos nos experimentos com essa taxa

histórica não é totalmente justa, devido a alguns fatores.

O desenvolvimento deste projeto foi baseado em modelos supervisionados de

Aprendizado de Máquina, o que pressupõe necessariamente a utilização de dados para

os quais se tem o resultado da classificação (valores de referência). Neste caso, isso

significa dizer que somente foram utilizados dados de UCs que tiveram, em algum

momento dentro do registro histórico da concessionária, uma ou mais inspeções

técnicas para verificação de fraudes e irregularidades. Isto pode introduzir um viés no

conjunto de dados, visto que essas UCs podem ter recebido inspeções devido a algum

critério, que pode ter filtrado o conjunto de dados de forma não aleatória ou não

representativa. Por exemplo, algumas das UCs do conjunto de dados podem ter

apresentado algum indício de irregularidade, o que justificaria a inspeção. Outras podem

ter sido inspecionadas por serem UCs que consomem uma grande quantidade de energia

(inspeções visando a energia recuperada ou a prevenção de perdas em clientes de alto

consumo). Há ainda inspeções que são realizadas por ações especiais, como varreduras

a consumidores sazonais (hotéis, pousadas, restaurantes em cidades de praia, etc) ou

varreduras em locais com alta repercussão midíatica (como uma estratégia para alertar a

população quanto à presença da concessionária no combate às perdas). Infelizmente este

41

viés é inerente à análise e propõe-se como trabalho futuro o estudo de formas de reduzi-

lo e a determinação de uma medida quantitativa para o mesmo.

Outra consideração que vale ressaltar é que, na prática, talvez faça mais sentido

que as UCs sejam entregues à concessionária na forma de uma lista ordenada por

prioridade, onde as UCs com maior potencial de irregularidade estejam no topo. Isto

pode ser feito da seguinte maneira: ao invés de atribuir-se a cada UC uma classe (N.A.

ou irregular), utiliza-se os valores analógicos de saída do modelo. As UCs são então

ordenadas por esses valores. Como a quantidade de UCs a serem selecionadas para

receber inspeções técnicas pode variar dependendo do orçamento, nível de perdas

comerciais totais, entre outros fatores, uma lista dessa forma deixaria a cargo da

concessionária definir o valor de corte que determina quais UCs pertencem a cada

classe prevista. A avaliação dos modelos considerando-se diferentes valores de corte

pode ser feita através da análise da curva de ROC ou da curva de precisão-revocação.

[23] Esse tipo de análise é proposto como uma extensão do projeto, ou futuro trabalho.

42

Capítulo 5

Conclusões

Este projeto propõe o uso de técnicas de Inteligência Artificial e modelos de

Redes Neurais Artificiais para auxiliar na identificação de consumidores de energia com

indícios de irregularidade/fraude. Foram utilizados dados reais de uma concessionária

de energia elétrica para o treinamento e teste dos modelos. Dentre os dados dos quais a

concessionária dispõe, foi selecionado um subconjunto para compor os vetores de

características que foram utilizados na aplicação dos modelos. Foram realizados

experimentos com e sem a utilização de notas de irregularidade de leiturista no vetor de

características e foram utilizados os algoritmos de Aprendizado de Máquina de redes

neurais simples e em ensemble (Model Averaged Neural Network), totalizando três

experimentos. O experimento que apresentou melhores resultados foi o modelo de

MANN, com notas de leiturista, tendo uma precisão de 74,46% na classificação de

irregularidades, tendo uma acurácia de 76,64%. Era de fato esperado que o modelo

treinado com notas de leiturista apresentasse resultados superiores, dado que esses

apontamentos são um grande indicador de fraudes e irregularidades (apesar de nem

sempre serem assertivos). O mesmo modelo de MANN, sem notas de leiturista,

apresentou uma precisão mais baixa, de 63,43%, e uma acurácia de 69,45%. O modelo

de redes neurais simples, treinado sem notas de leiturista, apresentou uma precisão mais

baixa, de 57,29%, e uma acurácia de 70,66%.

Como projeto futuro, planeja-se implementar esses algoritmos em tempo real

para a otimização de inspeções técnicas de irregularidade. Além disso, propõe-se o

estudo e a aplicação de outros algoritmos, como SVM, na busca de classificadores com

melhores desempenhos, e a avaliação dos modelos através da análise da curva de ROC e

da curva de precisão-revocação. Sugere-se a realização de estudos exploratórios para

identificar outras características que possam ter correlação com a existência de

irregularidades. Por fim, propõe-se como futuro trabalho estudar o enviesamento

apresentado pelo conjunto de dados, procurando formas de reduzi-lo, e a determinação

de uma medida quantitativa para o mesmo.

43

Bibliografia

[1] “ABRADEE,” Associação Brasileira de Distribuidores de Energia Elétrica, [Online]. Available: http://www.abradee.com.br/. [Acesso em 16 Janeiro 2017].

[2] LIGHT, [Online]. Available: http://www.light.com.br/para-residencias/Simuladores/leitura.aspx. [Acesso em 26 Novembro 2016].

[3] C. A. d. S. Penin, Combate, Prevenção e Otimização das Perdas Comerciais de Energia Elétrica, São Paulo: Escola Politécnica da Universidade de São Paulo, 2008.

[4] “Emerging Markets Smart Grid: Outlook 2015,” northeast group, llc, [Online]. Available: http://www.northeast-group.com/reports/Brochure-Emerging%20Markets%20Smart%20Grid-Outlook%202015-Northeast%20Group.pdf. [Acesso em 28 Novembro 2016].

[5] ANEEL, “Resolução Normativa Nº 414,” 9 Setembro 2010. [Online]. Available: http://www.aneel.gov.br/documents/656877/14486448/bren2010414.pdf/3bd33297-26f9-4ddf-94c3-f01d76d6f14a?version=1.0. [Acesso em 29 Dezembro 2016].

[6] P. d. R. Casa Civil, “Decreto Nº2335,” 29 Outubro 1997. [Online]. Available: http://www.planalto.gov.br/ccivil_03/decreto/d2335.HTM. [Acesso em 25 Janeiro 2017].

[7] ANEEL, “Resolução Nº456,” 29 Novembro 2000. [Online]. Available: http://www2.aneel.gov.br/cedoc/bres2000456.pdf. [Acesso em 25 Janeiro 2017].

[8] S. S. Haykin, Neural Networks: A Comprehensive Foundation, Prentice Hall, 1994.

[9] “Perceptron,” Wikipedia, [Online]. Available: https://nl.wikipedia.org/wiki/Perceptron. [Acesso em 24 Janeiro 2017].

[10] “Função sigmóide,” Wikipedia, [Online]. Available: https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_sigm%C3%B3ide. [Acesso em 16 Janeiro 2017].

[11] “Convolutional Neural Networks for Visual Recognition,” [Online]. Available: http://cs231n.github.io/neural-networks-1/. [Acesso em 24 Janeiro 2017].

[12] “Validação Cruzada,” Wikipedia, [Online]. Available: https://pt.wikipedia.org/wiki/Valida%C3%A7%C3%A3o_cruzada. [Acesso em 5 Janeiro 2017].

[13] “Cross Validation (statistics),” Wikipedia, 20 Janeiro 2017. [Online]. Available: https://en.wikipedia.org/wiki/Cross-validation_(statistics). [Acesso em 25 Janeiro 2017].

[14] W. Dubitzky, M. Granzow e D. Berrar, Fundamentals of data mining in genomics and proteomics, Springer Science & Business Media, 2007.

[15] “Cohen's Kappa,” Wikipedia, 7 Fevereiro 2017. [Online]. Available: https://en.wikipedia.org/wiki/Cohen's_kappa. [Acesso em 9 Fevereiro 2017].

[16] “Introduction to the ROC (Receiver Operating Characteristics) plot,” [Online]. Available: https://classeval.wordpress.com/introduction/introduction-to-the-roc-receiver-operating-characteristics-plot/. [Acesso em 2 Janeiro 2017].

[17] “Manual de Tarifação da Energia Elétrica,” PROCEL - Programa Nacional de

44

Conservação de Energia Elétrica, [Online]. Available: http://www.mme.gov.br/documents/10584/1985241/Manual%20de%20Tarif%20En%20El%20-%20Procel_EPP%20-%20Agosto-2011.pdf. [Acesso em 2016 Novembro 26].

[18] J. Shlens, “A Tutorial on Principal Component Analysis,” 4 Abril 2014. [Online]. Available: https://arxiv.org/pdf/1404.1100.pdf. [Acesso em 2 Janeiro 2017].

[19] “R (Linguagem de Programação),” Wikipedia, [Online]. Available: https://pt.wikipedia.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o) . [Acesso em 16 Janeiro 2017].

[20] “The caret Package,” Max Kuhn, 29 Novembro 2016. [Online]. Available: http://topepo.github.io/caret/index.html. [Acesso em 16 Janeiro 2017].

[21] “Neural Networks Using Model Averaging,” [Online]. Available: https://rdrr.io/rforge/caret/man/avNNet.html . [Acesso em 17 Janeiro 2017].

[22] B. D. Ripley, Pattern Recognition and Neural Networks, Cambridge University Press, 1996.

[23] “Introduction to the precision-recall plot,” [Online]. Available: https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/. [Acesso em 9 Fevereiro 2017].

[24] C. C. O. Ramos, Caracterização de Perdas Comerciais em Sistemas de Energia Através de Técnicas Inteligentes, São Paulo: Escola Politécnica da Universidade de São Paulo, 2014.

[25] ANEEL, [Online]. Available: http://www.aneel.gov.br/. [Acesso em 26 Novembro 2016].