O USO DE MACHINE LEARNING NA
IMPLEMENTAÇÃO DE MANUTENÇÃO PREDITIVA EM
USINAS TERMELÉTRICAS
Ana Luiza Ferraz Gama
Projeto de Graduação apresentado ao
Curso de Engenharia de Produção da
Escola Politécnica, Universidade Federal do
Rio de Janeiro, como parte dos requisitos
necessários à obtenção do título de
Engenheiro.
Orientador: Renato Flórido Cameira
Rio de Janeiro
Setembro de 2017
O USO DE MACHINE LEARNING NA
IMPLEMENTAÇÃO DE MANUTENÇÃO PREDITIVA EM
USINAS TERMELÉTRICAS
Ana Luiza Ferraz Gama
PROJETO DE GRADUAÇÃO SUBMETIDO AO CORPO DOCENTE DO CURSO
DE ENGENHARIA DE PRODUÇÃO DA ESCOLA POLITÉCNICA DA
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS
REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE
ENGENHEIRO DE PRODUÇÃO.
Examinado por:
Prof. Vinicius Carvalho Cardoso, D.Sc.
RIO DE JANEIRO, RJ - BRASIL
Setembro de 2017
ii
Gama, Ana Luiza Ferraz
O uso de machine learning na implementação de manutenção
preditiva em usinas termelétricas – Rio de Janeiro: UFRJ/ Escola
Politécnica, 2017.
8, 78 p.: il.; 29,7 cm.
Orientador: Renato Flórido Cameira, D.Sc.
Projeto de Graduação – UFRJ/ POLI/ Curso de Engenharia de
Produção, 2017.
Referências Bibliográficas: p. 62-68.
1. Machine Learning. 2. Manutenção Preditiva. 3. Transformação
digital. I. Cameira, Renato Flórido II. Universidade Federal do Rio de
Janeiro, Escola Politécnica, Curso de Engenharia de Produção. III. O
uso de machine learning na implementação de manutenção preditiva
em usinas termelétricas.
iii
Agradecimentos
Agradeço à minha família, que é a base da minha vida, meu chão e meu abrigo,
principalmente à minha mãe, meu pai e minha tia.
Agradeço aos meus pais pela minha educação, por terem me ensinado a ser
honesta, íntegra e lutar pelo que acredito.
Agradeço a minha mãe Luiza Regina, por ter me ensinado que não conquistamos
nada sem muito esforço e dedicação, por ter me dado colo quando eu, mesmo já
crescida, precisei. Obrigada por tudo o que fez por mim, me dando apoio e acreditando
que eu conseguiria enfrentar todos os desafios, mesmo quando nem eu acreditava.
Agradeço ao meu pai Carlos Cesar, por ter me apresentado o mundo da
informática, pelo qual me apaixonei ainda pequena, e por ter sempre me apoiado nas
minhas escolhas, independentemente de quais fossem.
Agradeço a minha tia e segunda mãe Luiza, por ter sempre me tratado como
filha, por me ensinar a rir sem medo da gargalhada sair alta demais e por ter me
abrigado, quando eu não aguentava mais atravessar a cidade para chegar à faculdade.
Agradeço a Deus, por me iluminar e proteger durante toda minha trajetória, com
saúde, força e amor.
Agradeço aos que foram, além de professores, inspiradores, que despertaram
em mim um desejo ainda maior de me tornar engenheira: Renato Cameira, Alice
Ferruccio, Vinicius Cardoso, Eduardo Jardim e Adriano Proença.
Agradeço ao João Marcelo e ao Daniel, por me darem subsídios e informações
para esse trabalho.
Agradeço aos meus irmãos, Pedro e Lucas, por toda a ajuda do dia a dia que,
mesmo pequenas, fizeram e fazem toda a diferença.
Agradeço ao meu grande amigo e companheiro Felipe, por escutar minhas
lamentações diárias, me acalmar nos momentos de desespero com prazos, provas e
entregas e me dar um “empurrãozinho” sempre que precisei.
Agradeço aos meus irmãos de coração, Michelli e Gabriel, por terem sempre um
ombro amigo para mim durante essa jornada.
Agradeço a cada uma das colegas de curso que se tornaram amigas para toda
a vida, Mariana, Joana, Sofia, Julia e Luciana, por serem mais um motivo para
atravessar a cidade todo dia, pelos trabalhos em grupo durante a madrugada, por terem
feito do Fundão um lugar melhor e por terem aproveitado comigo o melhor da faculdade.
Por fim, agradeço a todos que de alguma forma me ajudaram durante o curso de
Engenharia de Produção, do qual tenho muito orgulho de fazer parte.
iv
“São nossas escolhas que revelam o
que realmente somos, muito mais do
que as nossas habilidades.”
Albus Dumbledore
(J.K. Rowling, Harry Potter e a Câmara Secreta)
v
Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como parte
dos requisitos necessários para a obtenção do grau de Engenheiro de Produção.
O uso de machine learning na implementação de manutenção preditiva em usinas
termelétricas.
Ana Luiza Ferraz Gama
Setembro/2017
Orientador: Renato Flórido Cameira, D.Sc.
Curso: Engenharia de Produção
O presente trabalho é um estudo sobre a transformação digital que ocorre
atualmente em empresas de todos segmentos, mais especificamente nos processos de
monitoração e controle de falhas em usinas termelétricas da PETROBRAS e como
esses processos podem evoluir através da aplicação de técnicas e soluções que
compõe essa transformação.
O objetivo desse estudo é explicar a base das principais soluções, aprofundando
o conhecimento sobre machine learning. Com um ambiente industrial cada vez mais
automatizado, as áreas de negócio tentam otimizar os gastos com manutenções de
máquinas, ao mesmo tempo em que se aumenta a resiliência das mesmas. Além disso,
discutiremos sobre o caminho da evolução da manutenção preventiva para a preditiva,
através da aplicação de um modelo de machine learning.
Palavras-chave: manutenção preditiva, machine learning, transformação digital
vi
Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment of the
requirements for the degree of Industrial Engineer.
The use of machine learning in the implementation of predictive maintenance in
thermoelectric plants
Ana Luiza Ferraz Gama
September 2017
Advisor: Renato Flórido Cameira
Course: Industrial Engineering
The present work is study about the digital transformation that is currently
occurring in companies of all segments, more specifically in the processes of monitoring
and control of failures in PETROBRAS thermoelectric power plants and how these
processes can evolve through the application of techniques and solutions that makes up
this transformation.
The purpose of this study is to explain the basis of the main solutions, deepening
the knowledge about machine learning. With an increasingly automated industrial
environment, business areas try to optimize machine maintenance costs, while
increasing machine resiliency. In addition, we will discuss the evolution path from
preventive to predictive maintenance, through the application of a machine learning
model.
Keywords: predictive maintenance, machine learning, digital transformation
vii
SUMÁRIO
1. INTRODUÇÃO .......................................................................................... 1
2. METODOLOGIA DA PESQUISA .............................................................. 3
3. REVISÃO BIBLIOGRÁFICA ..................................................................... 5
3.1. BUSINESS INTELLIGENCE (BI) E SEUS BENEFÍCIOS ....................................... 5
3.1.2. Ferramentas de Business Intelligence ............................................... 7
3.2. TRANSFORMAÇÃO DIGITAL ....................................................................... 11
3.2.1. Data Warehouse Tradicional ........................................................... 14
3.2.2. Data Mart ........................................................................................ 16
3.2.3. Data Mining ..................................................................................... 17
3.2.4. Big Data .......................................................................................... 19
3.2.5. Machine Learning ............................................................................ 23
3.2.6. Data WareHouse Moderno .............................................................. 26
3.3. A INDÚSTRIA DE ELETRICIDADE E SEUS DESAFIOS ...................................... 29
3.4. TIPOS DE MANUTENÇÃO NAS INDÚSTRIAS ................................................. 32
3.4.1. Manutenção Corretiva ..................................................................... 33
3.4.2. Manutenção Preventiva ................................................................... 34
3.4.3. Manutenção Preditiva ...................................................................... 34
3.4.3.1. Indústria 4.0 ................................................................................. 35
4. ESTUDO DE CASO ................................................................................ 37
4.1. A ORGANIZAÇÃO ESTUDADA: PETROBRAS.............................................. 37
4.2. O CENTRO DE MONITORAÇÃO E DIAGNÓSTICO .......................................... 38
4.2.1. Monitoração de falhas nas usinas termoelétricas ............................ 39
4.2.2. Motivação para mudança ................................................................ 39
4.2.3. Descrição de ferramentas do CMD ................................................. 40
4.2.3.1. ETAPro ........................................................................................ 41
4.2.3.2. OPEN Predictor ............................................................................ 43
4.2.3.3. Spotfire ......................................................................................... 46
4.2.4. PLANO DE EXCELÊNCIA OPERACIONAL .................................................. 46
4.2.5. RESULTADOS OBTIDOS E EVOLUÇÃO DA SOLUÇÃO .................................. 47
5. MANUTENÇÃO PREDITIVA NAS USINAS TERMELÉTRICAS ............. 48
5.1. MODELO DE MACHINE LEARNING .............................................................. 49
5.2. MODELO DE DATA WAREHOUSE .............................................................. 57
viii
6. CONCLUSÃO ......................................................................................... 59
7. REFERÊNCIAS BIBLIOGRÁFICAS ....................................................... 62
8. ANEXOS ................................................................................................. 69
ANEXO A – DATA MINING COMO UM PASSO NO PROCESSO DE DESCOBRIMENTO DO
CONHECIMENTO (TRADUZIDO DE DATA MINING – CONCEPTS AND TECHNIQUES) 2 ED. P6.
................................................................................................................................ 69
ANEXO B – FUNCIONAMENTO DE UMA USINA TERMELÉTRICA (CICLO COMBINADO)
................................................................................................................................ 70
9. APÊNDICE .............................................................................................. 71
APÊNDICE A – LISTAGEM DAS USINAS TERMOELÉTRICAS DA PETROBRAS ...... 71
APÊNDICE B – VISÃO DE CIÊNCIA DOS ALERTAS, COM DESCRIÇÕES E MEDIÇÕES DAS
USINAS ..................................................................................................................... 71
APÊNDICE C – ASPECTOS MONITORADOS DA TURBINA DE GÁS NO ETAPRO ...... 72
APÊNDICE D – ALARME PARA NÍVEL DE PRESSÃO ............................................. 72
APÊNDICE E – OPEN PREDICTOR: MAPA GEOGRÁFICO ..................................... 73
APÊNDICE F – OPEN PREDICTOR – GERAÇÃO E TEMPERATURA DAS USINAS ..... 74
APÊNDICE G – OPEN PREDICTOR .................................................................... 74
APÊNDICE H – OPEN PREDICTOR – GRÁFICO DE RPM COM LIMITES DE ALERTA E
ALARME .................................................................................................................... 75
APÊNDICE I – FATORES MONITORADOS EM TURBINA DE GÁS ............................ 76
APÊNDICE J – RELATÓRIO DE CONFIABILIDADE DA DISPONIBILIDADE DAS MÁQUINAS
USINAS TERMOELÉTRICAS ......................................................................................... 76
APÊNDICE K – RELATÓRIO DE DOWNTIME EM MÁQUINA ESPECÍFICA ................... 77
APÊNDICE L – GERENCIAMENTO DE ALARMES ................................................. 77
APÊNDICE M – PROPOSTA DE MODELO DE MANUTENÇÃO PREDITIVA ............. 78
1
1. INTRODUÇÃO
Os avanços na computação em nuvem remodelam a indústria em um modelo de
negócios econômico escalável, sob demanda, orientado a serviços e altamente
distribuído. Porém, para mover para esse modelo de negócios as organizações
precisam fazer a transformação digital. O termo “fazer” foi utilizado por essa não ser
apenas uma fase pela qual as organizações vão passar. Para de fato se transformarem
digitalmente as organizações precisarão rever seus processos de negócio, o modo
como suas operações são realizadas e até mesmo como as decisões são tomadas.
Para ilustrar esse cenário de transformação, primeiro serão introduzidas as
ferramentas de business intelligence (BI) e também o porque elas são tão necessárias
à sobrevivência das organizações nesse período de transformação digital. Além disso,
serão apresentadas as principais ferramentas de BI disponíveis no mercado de
tecnologia da informação (TI) e quais as particularidades de cada uma.
Em seguida, será exemplificado como a transformação digital está mudando as
organizações por todo o mundo e alguns componentes dessa transformação,
pertinentes a esse estudo, serão apresentados, como o conceito de big data, machine
learning, além da evolução da arquitetura dos bancos de dados e seu poder
computacional. Essas novas tecnologias estão sendo utilizadas para vencer desafios
como confiabilidade, disponibilidade, adaptabilidade e segurança em máquinas e
processos nas indústrias.
Será apresentado um estudo de caso baseado na Petróleo Brasileiro S.A.
(PETROBRAS), mais especificamente, nos processos de manutenção e monitoração
das usinas termelétricas do seu parque gerador. Um estudo inicial do setor será
realizado, o momento dele, os desafios e a estrutura de geração de energia dentro da
PETROBRAS.
Além disso, para entender melhor o processo de monitoração e diagnóstico de
falhas presente na PETROBRAS, serão explicados os principais tipos de manutenção
utilizados atualmente nas indústrias, que são a manutenção corretiva, preventiva e
preditiva, bem como em quais situações e com qual objetivo é indicado seguir cada uma
delas.
Na PETROBRAS existem dois centros que são responsáveis, de formas
diferentes, pela monitoração das usinas. São eles, o Centro de Monitoramento e
Diagnóstico, que é responsável pela monitoração das máquinas das usinas através de
sensores localizados nas mesmas, e o Centro de Operações de Energia, responsável
2
por reportar dados em tempo real da geração de cada usina termelétrica do parque
gerador.
Para enfrentar os desafios de redução de custos e eficiência operacional num
momento econômico desfavorável no país, será proposta uma solução que envolve os
coceitos e ferramentas da transformação digital, bem como os conceitos de manutenção
apresentados.
Sendo assim, este trabalho busca mostrar simplificadamente a criação um
modelo, baseado na nuvem, de manutenção preditiva, utilizando dados históricos de
sensores localizados nas grandes máquinas das usinas, como as turbinas a vapor e a
gás. O objetivo é mostrar que é possível criar modelos que utilizam informação histórica
de falhas para prever com maior precisão e confiabilidade a probabilidade de falha
depois de um espaço definido, através de ferramentas disponíveis no mercado.
3
2. METODOLOGIA DA PESQUISA
A classificação da pesquisa, com base na taxionomia apresentada por
VERGARA (2009), será qualificada em relação a dois aspectos: quanto aos fins e
quanto aos meios.
A pesquisa desse estudo, quanto aos fins e baseado nas definições de GIL
(2010), trata-se de uma pesquisa descritiva e explanatória. Descritiva por “descrever as
características do universo pesquisado” (business intelligence e indústria de geração de
energia e sua importância). Explanatória por “ter como objetivo proporcionar maior
familiaridade com o objeto de estudo ou problema, envolvendo o levantamento
bibliográfico e análise de exemplos que facilitam a compreensão”, através do estudo
dos métodos de monitoramento e processos de controle de usinas termelétricas pela
PETROBRAS, bem como os problemas enfrentados na implementação de soluções
eficientes.
Além disso, o presente estudo possui caráter pragmático por se tratar de um
“processo formal e sistemático de desenvolvimento do método científico”, onde o
“objetivo fundamental da pesquisa é descobrir respostas para problemas mediante o
emprego de procedimentos científicos” (GIL, 2008), nesse caso, empregando o
processo de aprendizagem de máquina.
Quanto aos meios, trata-se de uma pesquisa bibliográfica, ou seja, “elaborada a
partir de material já publicado, constituído principalmente de artigos de periódicos, livros
e materiais disponibilizados na Internet” (VERGARA, 2009).
Este estudo dividiu-se em três etapas principais: 1) pesquisa literária e de
tendências tecnológicas, 2) análise exploratória dos dados disponibilizados pela
PETROBRAS sobre suas usinas termelétricas, através da identificação de pontos de
melhoria nos processos atuais e 3) exploração de novas soluções para o problema em
questão e apresentação do modelo proposto.
Na primeira etapa, foram realizadas pesquisas entre janeiro e agosto do presente
ano, via internet e em duas bases de busca: Scopus e ACM Digital Library. Os critérios
utilizados para a pesquisa nessas duas bases de busca foram os seguintes:
• Palavras e expressões pesquisadas: “Business Intelligence OU Machine
Learning OU Transformação Digital; E Manutenção Preditiva”;
• Tipo de documento: artigos;
• Demais campos: sem restrições.
Para cada palavra chave pesquisada nas bases, as pesquisas retornaram cerca
de 2000 artigos. O perfil destes artigos foi, então, filtrado quanto ao ano de publicação
4
(sempre buscando publicações mais recentes, – últimos 10 anos – devido ao fato das
perspectivas tecnológicas evoluírem constantemente através dos anos, além da área
de pesquisa (com maior foco em engenharia), ficando com uma base resultando cerca
de 500 artigos nas duas bases, dos quais 11 artigos foram selecionados por tratarem
de temas semelhantes.
Além dos resultados apresentados na pesquisa, de artigos selecionados das
bases, tornou-se relevante ao estudo a utilização de outras fontes para complementar
os artigos, tais como sites específicos de consultorias com estudos de tendências e
retratos das situações atuais, para reforçar a importância e relevância do estudo, bem
como outros artigos mais específicos sobre subtemas. Foram utilizados como
referências também, livros intitulados com as palavras-chave, pesquisados via Internet
no Google Books e na base de livros interna da Microsoft.
No estudo de caso foram buscados na pesquisa explanatória, sites das
entidades que representação o setor de energia, para maior assertividade nas
informações, além de informações compartilhadas pelos engenheiros da PETROBRAS
durante pesquisa de campo.
Para desenvolvimento da solução proposta, foram utilizados artigos e guias da
base de conhecimento interna de desenvolvedores da Microsoft, bem como dois livros
referentes ao tema. Além disso, ainda para o desenvolvimento da solução proposta, foi
utilizado um conjunto de dados disponível em uma biblioteca on-line da Universidade da
Califórina (UCI Machine Learning Repository1). A solução proposta visa a comprovação
dos métodos e soluções apresentados na revisão bibliográfica.
Não serão abordados neste estudo o desenvolvimento de algoritmos ou códigos
baseados em linguagens específicas de programação.
1 UCI Machine Learning Repository, disponível em https://archive.ics.uci.edu/ml/index.html. Acesso em
07/08/2017.
5
3. REVISÃO BIBLIOGRÁFICA
Analisando o mercado de TI nos últimos cinco anos e a vivência com clientes de
TI de diversos setores, é possível verificar que a necessidade – e os benefícios – de
possuir informações completas e confiáveis para realizar tomadas de decisão, desde a
diretoria executiva até gerentes de operações de linha de produção, é uma realidade
reforçada pelas incertezas econômicas. Em iniciativas para reduzir custos, agilizar as
operações ou aprimorar processos contínuos, os funcionários de uma empresa,
independente do mercado ao qual pertencem, devem ter subsídios para tomar melhores
decisões em todos os níveis da organização.
Assim, é importante que os dados de negócio de uma organização estejam
sempre acessíveis aos funcionários, para que eles possam realizar suas próprias
análises e compartilhar facilmente insights com os membros da equipe, por exemplo.
Com acesso a dados relevantes, os funcionários podem encontrar oportunidades para
operar de forma mais eficiente e aumentar a receita, para que a empresa possa emergir
mais forte de qualquer ambiente econômico.
Dessa forma, o foco de análise do estudo recai sobre os conceitos de
armazenagem de dados coletados de máquinas em indústrias e os métodos de análise
dos mesmos, bem como as ferramentas business intelligence que possibilitam extrair
dos dados informações pertinentes ao funcionamento das indústrias e seu maquinário.
3.1. Business Intelligence (BI) e seus benefícios
Possuir agilidade e capacidade de resposta à mudança oferecem aos negócios
a capacidade de competir em uma economia global dinâmica e conhecer o ambiente do
negócio tornaram-se chave para manter os negócios rentáveis e competitivos
(THOMPSON, VAN DER WALT, 2010).
Para WU et. al. (2007), business intelligence consiste em um conjunto de
tecnologias, técnicas, conceitos e ferramentas orientadas para análise e apresentação
de informações para auxiliar os gestores no processo decisório e com isto permitir às
organizações otimizar seus recursos de negócio e alcançar melhores resultados. Alguns
anos depois, semelhantemente, MIKROYANNIDIS & THEODOULIDIS (2010) afirmaram
que business intelligence refere-se ao ato de proporcionar aos negócios o apoio
necessário para a tomada de decisão, através do uso de um conjunto de técnicas e
ferramentas. Mais pragmático, AFFELDT (2013) diz que a tecnologia de BI tem como
objetivo melhorar a qualidade da informação entregue aos gestores.
6
Por esse motivo, a aplicação de BI tornou-se uma norma para um número ainda
crescente de empresas em diferentes mercados por todo o mundo. As informações
obtidas através de processos de BI não só apoiam o processo de tomada de decisão,
como também permitem que as organizações tenham melhores percepções em relação
às suas operações através da aplicação de técnicas de análise de dados às suas
informações (THOMPSON, VAN DER WALT, 2010).
Segundo pesquisa realizada pela FORBES (2015) em parceria com a Teradata
e McKinsey com 316 executivos de grandes companhias globais, 90% das organizações
reportavam investimentos de médio a alto nível em análise massiva de dados e cerca
de um terço consideravam seus investimentos muito significantes. Além disso, segundo
a mesma pesquisa, cerca de dois terços dos entrevistados relatam que a análise
massiva de dados teve um impacto significativo e mensurável em suas receitas.
O principal objetivo de BI é oferecer uma visualização dos dados de forma
simplificada e, assim proporcionar aos gestores a capacidade de realizar análises
convenientes (TURBAN et. al., 2009). Os elementos das soluções analíticas de BI
disponíveis, quando combinados com a necessidade de visão do negócio, geram a
riqueza das soluções de business intelligence.
Um dos pontos principais para trabalhar com business analytics é a localização
dos dados a serem utilizados e como conectá-los de forma a trazer insights importantes
do negócio. Esses dados podem estar em qualquer lugar e o poder de análise pode
segui-los de uma maneira que nem sempre é possível com soluções locais, por isso, a
utilização de armazenamento de dados em nuvem, bem como as ferramentas em si, é
fundamental para o sucesso dessa abordagem. Segundo estudo publicado pela
INFORMATICA (2016) do relatório “Estado da Análise em Nuvem” (State of Cloud
Analytics), o armazenamento em nuvem é uma parte essencial da estratégia de análise
de 70,1% dos entrevistados no estudo e 21,6% afirmam que é necessário como parte
de sua adoção analítica.
Dessa forma, todos os dados que são transformados em informações chave
através de business intelligence (BI) podem ser centralizados e gerenciados. Isto
permite que as empresas consigam obter as informações necessárias para o negócio,
independentemente de onde estejam localizadas, ou do momento em que precisam ser
obtidas, fazendo então, poderosas análises com esses dados, do passado e também,
com a ajuda dos dados passados, do futuro.
Essa disponibilidade e facilidade de obtenção de informações pelas áreas de
negócio é essencial para o funcionamento de soluções de BI. Segundo TURBAN et al.
(2009), por volta do ano 2000, a gerência de uma das empresas citadas nos casos
7
clínicos, a Toyota, usava computadores que geravam “toneladas” de relatórios e dados
sem direção e a gerência não tinha capacidade de usar esses dados e relatórios
estrategicamente.
Para TURBAN et. al. (2009), por falta de um alinhamento estratégico mais
minucioso alguns dos projetos criados “não refletiam a real necessidade das
organizações” e acabavam “enfrentando problemas desde a extração e gerenciamento
dos dados até a qualificação das informações para análise gerencial”. Atualmente,
segundo a relatório da INFORMATICA (2016), os dados foram retirados de seus silos e
estão prontamente disponíveis para os tomadores de decisão de negócios, não apenas
analistas.
Para exemplificar a velocidade com que o volume de dados está crescendo,
segundo a previsão de MIDDLETON et al. (2014), as fontes de dados vão crescer, de
2013 a 2020, cerca de 35%, tornando-se, ao fim desse período 25 bilhões de unidades,
enquanto em 2013 havia apenas 1,3 bilhão. Esse processo é cíclico: uma explosão de
fontes de dados através de mais dispositivos gera demanda de dados pelas empresas,
cujo objetivo é analisar esses dados para ajudar a entender e prever suas necessidades
e de seus clientes, para que possam tomar decisões mais inteligentes a partir das
informações geradas com esses dados.
As empresas estão em uma jornada de adoção de análise em nuvem, desde a
colaboração até o aprimoramento de processos e estratégias de negócios
(INFORMATICA, 2016). Organizações de diferentes mercados já amadureceram seus
processos de análise de dados através de ferramentas de BI, incluindo o setor de
energia elétrica, que será o foco do presente estudo.
3.1.2. Ferramentas de Business Intelligence
Existem ainda ferramentas focadas na visualização dos dados de forma
esquemática e ilustrada, que são as ferramentas de business intelligence. A
representação de algumas dessas ferramentas no quadrade mágico de Gartner
(SALLAM, 2017) leva em conta a habilidade de executar (criar gráficos e telas) e o quão
completa é a visão da ferramenta, conforme apresentado na Figura 1.
8
Figura 1 – Quadrante Mágico de Gartner para BI e Plataformas Analíticas. Fonte: SALLAM (2017, p. 6)
• Tableau
O Tableau é uma ferramenta de visualização de dados com foco primário em
business intelligence. Com ele é possíel criar mapas, gráficos de barras, gráficos de
dispersão e muito mais sem necessidade de programação. Existe ainda um conector
web que permite que o usuário se conecte a um banco de dados ou API, permitindo
assim a obtenção de dados ao vivo em uma visualização (Tableau website).
9
Figura 2 – Possíveis gráficos e visualizações criados através do Tableau. Fonte: HANDSCHIN (2016)
Na Figura 2 acima está um exemplo de possíveis gráficos de vizualição de dados. Para
HANDSCHIN (2016), o Tableau pode ser usado mesmo em indústrias conservadoras e
fortemente regulamentadas, como bancos. Os dados podem estar armazenados em
qualquer lugar (com as limitações de compatibilidade da ferramenta, que são poucas) e
serem importandos para o Tableau para formar gráficos, comparar resultados históricos,
ou dados em tempo real em mapas, por exemplo.
• Microsoft
A Microsoft possui duas ferramentas de BI voltadas para públicos e tipos de
relatórios diferentes, por isso aparece pelo nome da empresa fabricante no quadrante
apresentado na Figura 1. O Power BI é uma ferramenta de uso mais intuitivo, voltada
para todos os usuários de uma empresa, sejam eles da área de TI ou não, enquanto o
SQL Server Reporting Services (SSRS) é um recurso do banco de dados da Microsoft,
o SQL Server, que é utilizado majoritariamente por analistas de TI, que conhecem a
estrutura do banco de dados para conseguir montar dashboards com as informações
pertinentes dentro desse banco.
10
o Power BI
O Microsoft Power BI é um serviço de análise e business intelligence baseado
em nuvem que fornece uma visão geral completa de dados. Ao conectar-se a todas as
fontes de dados existentes e unificar esses dados, o Power BI simplifica a coleta e
compartilhamento de dados com tabelas de controle escaláveis, relatórios interativos e
inclusive imagens incorporadas, conforme exemplo na Figura 3.
Figura 3 – Exemplo de dashboard criado através do Power BI. Fonte: Disponível em
<https://powerbi.microsoft.com/pt-br/features/>. Acesso em: 27 ago. 2017, às 11:47h.
É possível utilizar o Power BI através de dois produtos disponíveis para
download: Power BI Desktop e Power BI Mobile. O Desktop é uma solução local que se
conecta ao serviço baseado em nuvem para carregar e compartilhar dados e
informações com maior facilidade em toda a empresa. O mobile tem as mesmas
capacidades, mas em um aplicativo, onde é possível ter até 360 visualizações
(dashboards diferentes) de dados de uma empresa a qualquer hora e em qualquer lugar,
que pode ser baixado na loja de aplicativos de smartphones ou tablets, com sistema
operacional Android (Google Play) ou iOS (Apple Store).
o SQL Server Reporting Services
O SSRS é uma plataforma moderna de relatórios empresariais escalável para
milhares de usuários. Ele fornece recursos abrangentes de relatórios que ajudam a criar
11
e gerenciar relatórios em toda a organização. Com o SQL Server Reporting Services, é
possível fornecer aos usuários profissionais acesso a relatórios na web, nos aplicativos
Microsoft Power BI ou em um site do Microsoft SharePoint (que é um repositório local
ou na nuvem para compartilhamento de arquivos dentro das empresas). O rico conjunto
de ferramentas permite aos desenvolvedores estender e personalizar sua solução de
relatórios usando um ambiente de desenvolvimento familiar, como é possível visualizar
na Figura 4.
Figura 4 – Exemplo de relatórios e dashboards criados através do SSRS, em diferentes tipos de
aparelhos. Fonte: Disponível em <https://docs.microsoft.com/pt-br/sql/reporting-services/create-deploy-
and-manage-mobile-and-paginated-reports>. Acesso em: 27 ago. 2017, às 11:42h.
Assim, enquanto o SSRS é mais voltado para técnicos de TI, por exigir pelo
menos conceitos básicos de programação, o Power BI possui uma interface mais
familiar, que pode ser utilizada facilmente por usuários finais, fora da área de TI, como
área de marketing, vendas, dentre outras.
3.2. Transformação Digital
A transformação digital progrediu de uma possibilidade futura para tema de
discussão obrigatório nas organizações. Também chamada de digitalização ou
negócios digitais, é definida como "a aceleração das atividades, processos,
competências e modelos empresariais para alavancar plenamente as mudanças e
12
oportunidades das tecnologias digitais e seu impacto de forma estratégica e priorizada"
(EDMEAD, 2016).
É possível observar de dentro do mercado de TI que as tecnologias digitais estão
mudando a face dos negócios, e essa mudança está acelerando mais rapidamente do
que o ritmo de transformação nas organizações. Alguns usam o termo transformação
de negócios digitais para descrever o cenário atual, uma vez que a transformação digital
é transformação de negócios. Essas transformações de negócios digitais são
impulsionadas por fatores como inovação tecnológica, comportamento e demanda do
cliente e fatores ambientais externos.
O mundo dos negócios digitais é descrito por LOPEZ (2016) como “a criação de
novos projetos de negócios ao deixarem de lado os mundos digital e físico”. Essa
interseção de fronteiras também é vista como uma "Quarta Revolução Industrial" que
promete inaugurar uma convergência sem precedentes de pessoas, negócios e fatores
que perturbam os modelos de negócios existentes e criam novas oportunidades de
receita (SCHWAB, 2016).
A digitalização é mais do que apenas uma mudança de ferramentas ou
dispositivos tecnológicos. As práticas diárias, as estruturas do local de trabalho, as
relações de relatórios, o compartilhamento de informações, a interação do cliente e até
mesmo a concorrência também são transformadas. Tornar-se uma verdadeira
organização digital não é apenas tornar-se tecnológico, significa adotar uma nova
cultura e mentalidade onde a hierarquia desaparece e a inovação acontece através de
redes (LIBERT et al., 2016).
Não há dúvida de por que as organizações legadas estão abordando a
transformação digital agora. Os startups digitais estão destruindo as indústrias
tradicionais, aproveitando a tecnologia escalável e as redes participativas. Segundo
relatório da CEB (2016), a digitalização está se tornando uma necessidade competitiva
e os líderes empresariais veem essa necessidade com urgência, mas mudar para um
modelo de negócios tão novo e radicalmente diferente é um processo longo, arriscado
e desconfortável.
Os esforços de transformação digital avançam rapidamente para melhorar as
expectativas dos clientes. As pesquisas indicam que a "era digital está sobre nós": 76%
dos entrevistados do MIT Sloan Management Review e o Estudo Global da Deloitte de
2015 sobre o negócio digital afirmam que as tecnologias digitais são importantes hoje
em dia para suas organizações e 92% dizem que serão importantes três anos a partir
de agora (KANE et al., 2015). O relatório da CEB (2016) também indicou que a
digitalização é uma prioridade (87% dos líderes seniores empresariais), e a Gartner
13
(2016) descobriu que as empresas estão fazendo investimentos em negócios digitais,
porém a maioria ainda está nos estágios iniciais de investigação e experimentação.
A Accenture Interactive e a Forrester Consulting informaram que as empresas
estão quase universalmente passando por transformação digital hoje, mas apenas 5%
das organizações dizem que dominaram o digital para um ponto de diferenciação de
seus concorrentes (OLAVSRUD, 2015). As indústrias nascidas da tecnologia lideram a
lista de setores com maior penetração de organizações de maturação digital - TI,
telecomunicações e mídia e entretenimento.
A transformação digital não é um tema novo, mas a conversa mudou para “como
transformar”, e não “o porquê transformar” (HINCHCLIFFE, 2016). Em geral, a
transformação digital obriga as empresas a reexaminar suas infraestruturas atuais e, na
maioria dos casos, redesenhá-la para atender à demanda do cliente. Os líderes estão
se concentrando cada vez mais na estratégia, segundo LOPEZ (2016), que é um
direcionador chave na área digital para KANE et al. (2015). A capacidade de reimaginar
digitalmente o negócio é determinada em grande parte por uma estratégia digital clara
apoiada por líderes que promovem uma cultura capaz de mudar e inventar o novo. O
sucesso digital não é tudo sobre tecnologia, mas sim como as empresas as integram
para transformar seus negócios e como eles funcionam. A experiência do cliente agora
está claramente no centro da transformação digital (FORRESTER, 2015), e o digital é o
centro dessa experiência do cliente, mas muitas empresas têm um terreno considerável
para percorrer o caminho para se tornarem empresas digitais.
Os resultados da pesquisa do LOPEZ (2016) indicam que o negócio digital está
começando a segmentar-se nas organizações que estão planejando tornar-se um
negócio digital e aqueles que já são. Essas últimas organizações (que já são digitais)
estão começando a separar-se do resto das indústrias em suas práticas comerciais.
Além disso, as organizações que implementaram atividades de negócios digitais são
mais propensas a fazer do negócio digital uma parte integrada de sua estratégia de
negócios. O endereçamento de segurança e risco de dados de dispositivos em
distribuição é o requisito prioritário de design de negócios digitais.
Estudos descobriram que, no nível da empresa, a maturidade digital é sinônimo
de crescimento econômico mais acentuado e maior nível de bem-estar para os
funcionários (BOUÉE, 2015). As empresas digitais maduras performam melhor suas
atividades e comportam-se de forma distinta às outras menos maduras. A diferença tem
menos a ver com a tecnologia e mais com os fundamentos do negócio. Uma estratégia
digital clara, combinada com uma cultura e liderança para impulsionar a transformação
é o que separa os líderes digitais do resto (KANE et al., 2015). Além disso, as
14
organizações que amadurecem digitalmente estão mais dispostas a assumir riscos do
que seus pares menos maduros digitalmente.
3.2.1. Data Warehouse Tradicional
De acordo com a LARSON (2006), um data warehouse (DW) é um sistema que
recupera e consolida dados periodicamente dos sistemas de origem em um
armazenamento de dados dimensional ou normalizado. Geralmente, mantém anos de
histórico e é utilizado para business intellingence ou outras atividades analíticas.
Geralmente, é atualizado em lotes, e não toda vez que ocorre uma nova entrada no
sistema fonte (RAINARDI, 2008).
Os dados das diferentes operações de uma organização eram conciliados e
armazenados em um repositório central (um data warehouse) de onde os analistas
extraíam informações que permitiriam uma melhor tomada de decisão (CHO& NGAI,
2003). Para aplicações complexas de BI que funcionam em grandes bancos de dados,
podem ocorrer dificuldades ao ler diretamente do banco de dados operacional. Além de
desacelerar o sistema de gerenciamento do banco de dados e suas aplicações, podem
ocorrer erros quando os valores estão faltando ou em um formato errado, por exemplo.
Abaixo está representada uma estrutura típica de um data warehouse cerca de 10 anos
atrás.
Figura 5 – Estrutura típica de um data warehouse. Fonte: Adaptado de HAN & KAMBER (2006), p. 12.
A finalidade de um data warehouse era estabelecer um repositório que tornasse
acessíveis os dados operacionais de forma aceitável para atividades de processamento
15
analítico, como suporte à decisão e outros aplicativos de usuários finais. Como parte
desta acessibilidade, os dados operacionais de nível detalhado deviam ser
transformados em uma forma relacional, o que os torna mais acessíveis ao
processamento analítico. Assim, o armazenamento de dados não é um conceito por si
só, mas está inter-relacionado com o acesso, recuperação, análise e visualização de
dados (WANG, 2008). Apesar desse conceito se manter válido, atualmente existem
muito mais variáveis e ferramentas de BI que tornaram a arquitetura dos DWs mais
moderna e complexa. A arquitetura de um DW tradicional está representada a seguir,
na Figura 6.
Figura 6 – Arquitetura multicamadas de um data warehouse. Fonte: Adaptado de HAN & KAMBER (2006),
p. 160.
O primeiro nível é um servidor de banco de dados (data warehouse), que é quase
sempre um sistema de banco de dados relacional. As ferramentas e utilitários de back-
end são usados para alimentar dados nesse nível de bancos de dados operacionais ou
outras fontes externas, como informações de perfil de clientes fornecidas por
consultores externos, por exemplo.
Essas ferramentas e utilitários executam a extração, limpeza e transformação de
dados (por exemplo: para mesclar dados semelhantes de diferentes fontes em um
formato unificado), além de carregar e atualizar funções para atualizar o data
warehouse. Os dados são extraídos usando interfaces de programas de aplicativos
conhecidas como gateways. Um gateway é suportado pelo sistema de gestão de banco
de dados subjacente e permite que os programas instalados na máquina gerem um
16
código a ser executado no servidor. Esta camada também contém um repositório de
metadados, que armazena informações sobre o data warehouse e seus conteúdos.
O nível intermediário é um servidor de processamento analítico on-line (OLAP)
que normalmente é implementado usando um modelo relacional, ou seja, um sistema
de gestão de bancos de dados relacional estendido que mapeia operações em dados
multidimensionais para operações relacionais padrão ou ainda um modelo
multidimensional, ou seja, um servidor de propósito especial que implementa
diretamente dados e operações multidimensionais.
O último nível é uma camada de front-end, que contém ferramentas de consulta
e relatórios, ferramentas de análise e ferramentas de mineração de dados (por exemplo,
análise de tendências, previsão, etc.).
Os data warehouses tradicionais eram construídos com tecnologias e
arquiteturas centradas em processamento transacional on-line (OLTP), que tem foco no
nível operacional da organização, sendo ineficiente para gestão de análises gerenciais
(EMC, 2014). Mesmo na arquitetura proposta por HAN & KAMBER (2006), onde a
centralização é nos servidores de processamento analítico on-line, os mesmos não
possuem a mesma velocidade de manipulação do OLTP.
Isso acontece porque esses DWs nunca foram projetados para lidar com o
volume, variedade e velocidade das aplicações centradas em dados que as
organizações utilizam hoje. Ao longo dos anos, mais e mais dados foram movidos para
esses DWs, enquanto a carga de consulta gerada pelos produtos de business
intelligence aumentou exponencialmente. Isso resultou em data warehouses frágeis,
sobrecarregados e dispendiosos que exigem de 6 a 9 meses para adicionar uma nova
fonte de dados (EMC, 2014). Antes de conceituar o data warehouse moderno, serão
introduzidos alguns conceitos fundamentais para entendimento da arquitetura de DWs.
3.2.2. Data Mart
O Data Mart é um subconjunto do data warehouse e é definido como um conjunto
de dados históricos no repositório eletrônico que não participa nas operações diárias da
organização. Em vez disso, esses dados são usados para criar business intelligence.
Os dados no Data Mart geralmente se aplicam a uma área específica de organização
(LARSON, 2006).
De acordo com KIMBALL & ROSS (2002), o data warehouse é o conglomerado
de todos os data marts dentro da empresa. Os data marts estão focados na entrega de
objetivos comerciais para os departamentos da organização.
17
Construir um data warehouse é trabalhoso e demanda tempo. Esses fatores
dependem do tamanho da empresa, do número de bases de dados que irão integrar o
projeto, interfaces com outros sistemas, quantidade de pessoas na equipe,
comprometimento e dedicação para implementação, ferramentas utilizadas, etc.
Assim, os data marts são bancos de dados modelados orientados a
departamentos de uma empresa, por exemplo, a área comercial, financeira, marketing
e logística constroem vários data marts cada uma e daí eles podem implementar, depois
de um tempo, um data warehouse. Com o data warehouse implementado, é possível
fazer também o caminho inverso, ou seja, esse data warehouse alimentar os data marts.
3.2.3. Data Mining
Como complemento ao data warehouse e seus subconjuntos (data marts) o
processo de data mining, que significa mineração de dados, é uma análise de busca por
informações pertinentes (valiosas para operação ou comercial) nos grandes bancos de
dados previamente citados ou ainda na rede interna ou externa da organização, na
procura por padrões não conhecidos, baseando-se em padrões de hipóteses e
descobertas (THEARLING, 2009). Esses padrões de data mining podem ser definidos
como fórmulas, regras, funções, entre outras.
Para encontrar esses padrões é necessária a filtragem de uma imensa
quantidade de material ou sondagem inteligente para encontrar exatamente onde a
informação valiosa está, por isso o termo “mineração de dados”.
Dessa forma, segundo SUMATHI & SUVANANDAM (2006), com os “bancos de
dados de tamanho e qualidade suficientes, a tecnologia de data mining pode gerar
novas oportunidades de negócios”, fornecendo às organizações capacidades como, por
exemplo, a previsão automatizada de tendências e comportamentos (como no
marketing direcionado, analisando comportamento de clientes em sites de compras), ou
ainda para identificação automática de padrões anteriormente desconhecidos, como
operações de cartão de créditos fraudulentas (compras feitas em duas localidades
diferentes em curto espaço de tempo, por exemplo).
Quando as ferramentas de mineração de dados são implementadas
em sistemas de processamento de alto desempenho, eles podem analisar
bancos de dados maciços em minutos. Muitas vezes, os bancos de dados
acessados conterão muitos anos de dados. Um processamento mais rápido
significa que os usuários podem experimentar mais modelos para entender
dados complexos. Essa alta velocidade torna prático para os usuários
18
analisar enormes quantidades de dados. Bancos de dados maiores, por sua
vez, produzem previsões mais assertivas, justamente por terem maior
histórico e por isso se tornarem mais confiáveis para identificação de
padrões.
(Introduction to Data Mining and its Appications, SUMATHI, S.,
SIVANANDAM, S.N., Springer, 2006, p.401)
A mineração de dados (data mining) também pode ser conduzida por pessoas
fora da área de tecnologia da informação. As ferramentas de data mining podem ser
combinadas com planilhas e outras ferramentas de desenvolvimento de software para
usuários finais, tornando relativamente fácil analisar e processar os dados minados. O
processo de mineração de dados está exemplificado no Anexo A.
A prática de data mining aparece sob diferentes nomes, como extração de
conhecimento, imersão de dados, arqueologia de dados, exploração de dados,
processamento de padrões de dados, drenagem de dados e coleta de informações.
"Striking it rich" (em português: “acertar em cheio”) é um termo comumente utilizado
pelos cientistas de dados em data mining quando os mesmos encontram resultados
inesperados e valiosos (SUMATHI & SUVANANDAM, 2006).
Os mineradores de dados podem então descobrir informações de padrões
desconhecidos e aprender com eles, suportar associações (como de produtos em um
carrinho de compras), construir modelos analíticos e daí fazer classificações e
predições, apresentando os resultados da “mineração” com ferramentas de visualização
(THEARLING, 2009).
Como exemplificado por SUMATHI & SUVANANDAM (2006), entre as várias
ferramentas e técnicas utilizadas em data mining podemos citar o raciocínio baseado
em ocorrências (usando casos históricos para reconhecer padrões); computação neural
(uma abordagem de aprendizagem em máquina pela qual os dados históricos podem
ser examinados para identificar padrões através de processamento paralelo maciço);
análise de associação (usando um conjunto especial de algoritmos para ordenar através
de conjuntos de dados e expressar regras estatísticas entre itens); além de agentes
inteligentes (peritos ou software baseado em conhecimento incorporado em sistemas
de informação).
De acordo com um relatório do Gartner Group 2000 (LINDEN, 2002), mais da
metade de todas as empresas Fortune 1000 em todo o mundo já estavam usando a
tecnologia de data mining na época. Ainda de acordo com LINDEN (2002), a extração
de dados é frequentemente usada para identificar uma oportunidade de negócio para
19
criar uma vantagem competitiva sustentável, o que sabemos ser verdade até os dias de
hoje em empresas de todos os setores.
3.2.4. Big Data
Vivemos em mundo onde os dados são coletados em quantidades cada vez
maiores, resumindo o que as pessoas e as máquinas fazem a dados quantitativos e
qualitativos, e capturando uma granularidade mais fina dos seus comportamentos.
Essas três maneiras de caracterizar os dados às vezes são descritas como volume,
variedade e velocidade, que é a definição de big data, de acordo com DEAN (2014).
Todos esses dados são coletados por causa do seu potencial valor, mesmo que
não possamos saber exatamente o que faremos com eles. Por esse motivo,
organizações que coletam dados e reportam resumos, muitas vezes usando
abordagens de business intelligence, se tornaram comuns (DEAN, 2014).
De acordo com COATES (2017), o termo "big data" é utilizado excessivamente
e de diferentes maneiras. Um significado refere-se ao tamanho total dos volumes de
dados (big data significa “grandes dados”, em português). Outro significado do termo
está associado a "dados multi-estruturados" (a combinação de dados não estruturados,
semi-estruturados e estruturados). Os dados de baixa latência (e, por consequência,
alta velocidade) também são atribuídos a big data. A combinação dessas três definições
é justamente a abordagem de DEAN (2014), citada anteriormente. Além disso, outros
utilizam o termo big data para implicar a análise de dados de maneiras novas e
interessantes.
Conforme já citado anteriormente, grande parte das empresas já decidiram que
business intelligence não é apenas uma palavra-chave, mas um novo fato da estrutura
de negócio das empresas - um que exige ter estratégias para gerenciar grandes
volumes de dados estruturados e não estruturados. E com a realidade dos grandes
dados vem o desafio de analisá-los de forma a gerar valor comercial real. Os líderes
empresariais e de TI que começaram a lidar com grandes problemas de gerenciamento
de dados agora estão buscando usar análises de business intelligence em cima de big
data para identificar tendências, detectar padrões e obter outras descobertas valiosas
do mar da informação disponível para eles.
Existem várias de ferramentas big data atualmente, todas elas prometendo
poupar tempo, dinheiro e ajudar a descobrir informações comerciais não conhecidas. E
enquanto tudo isso pode ser verdade, navegar neste mundo de ferramentas possíveis
pode ser complicado quando há tantas opções e é necessário identificar a ferramenta
que melhor atende à necessidade existente.
20
Para trabalhar com big data é preciso pensar em como armazenar os dados.
Parte de como o big data obteve a distinção como "grande" é que ele se tornou demais
para serem manipulados pelos sistemas tradicionais. Um bom fornecedor de
armazenamento de dados deve oferecer uma infraestrutura para executar todas as suas
outras ferramentas de análise, bem como um local para armazenar e consultar seus
dados.
3.2.4.1. Ferramentas de Big Data
A seguir serão descritas brevemente as principais ferramentas de big data
existentes atualmente, que se destacam nas seleções dos sites Big Data – Made Simple
(DEVI, 2017) e IMPORT (2017), que são avaliações mais recentes de ferramentas de
big data disponíveis no mercado atualmente.
• Hadoop
Segundo a IMPORT (2017), uma das maiores ferramentas para extração de
dados, o nome Hadoop tornou-se sinônimo de big data. É uma estrutura de software de
fonte aberta (open source) para armazenamento distribuído de conjuntos de dados
muito grandes em clusters2 de computadores. Isso significa que você pode escalar seus
dados para cima e para baixo sem ter que se preocupar com falhas de hardware. O
Hadoop fornece enormes quantidades de armazenamento para qualquer tipo de dados,
enorme poder de processamento e a capacidade de lidar com tarefas ou requisições
concorrentes praticamente ilimitadas (Hadoop Web Site).
O Hadoop é composto por dois subprojetos:
HDFS (Hadoop Distributed File System, ou Sistema de Distribuição de
Arquivos do Hadoop): o HDFS cuida do armazenamento de parte de
aplicativos Hadoop. Os aplicativos MapReduce consomem dados do
HDFS. O HDFS cria várias réplicas de blocos de dados e os distribui em
nós de computação no cluster. Esta distribuição permite cálculos
confiáveis e extremamente rápidos.
Hadoop MapReduce: MapReduce é um modelo computacional e
estrutura de software para escrever aplicações que são executadas no
2 Um cluster de servidores (ou computadores) é a junção de duas ou mais máquinas, interligadas, que
permitem maior disponibilidade e escalabilidade. As máquinas que compõem o cluster são chamadas
de nó.
21
Hadoop. A programação executada pelo MapReduce é capaz de
processar dados enormes em paralelo em grandes clusters de
computação. A grande vantagem desse estilo de programação baseia-se
no fato de que o programador não precisa se preocupar com detalhes
importantes no processamento paralelo, como escalonamento de tarefas.
Tudo isso é controlado intrinsecamente pelo Hadoop.
Como é possível deduzir, o MapReduce possui duas fases: mapeamento e
redução. Na fase de mapeamento, o MapReduce pega os dados de entrada e envia
cada um dos elementos de dados para a função “Mapear”. Já na fase de redução, a
função “Reduzir” processa todas as saídas da função “Mapear” e chega a um resultado
final. Em outros termos, a função Mapear é feita para filtrar e transformar os dados que
serão agregados pela função Reduzir. A Figura 7 mostra um esquema do funcionamento
do MapReduce.
Figura 7 – Funcionamento do MapReduce no Hadoop. Fonte: Adaptado de DAVE (2013)
A estrutura do MapReduce, geralmente, contém servidores distribuídos e
executa várias tarefas em paralelo entre si. Existem vários componentes que gerenciam
as comunicações entre vários nós dos dados e oferecem alta disponibilidade e
tolerância a falhas. Os programas escritos nos estilos funcionais do MapReduce são
automaticamente paralelizados e executados em máquinas distribuídas. A estrutura do
MapReduce cuida dos detalhes do particionamento dos dados e da execução dos
processos no servidor distribuído em tempo de execução. Durante este processo, se
houver algum desastre, a estrutura fornece alta disponibilidade e outros modos
disponíveis cuidam da responsabilidade do nó em que houve falha.
22
• Cloudera
De acordo com DEVI (2017), Cloudera é uma empresa que faz uma versão
comercial do Hadoop. Embora o Hadoop seja um projeto gratuito e de código aberto
para armazenar grandes quantidades de dados, a versão gratuita do Hadoop não é fácil
de usar. Assim, várias empresas desenvolveram versões mais amigáveis do Hadoop e
Cloudera é a mais popular de todas, conforme Figura 8, a seguir.
Figura 8 – Exemplo de gerenciamento de tarefas e máquinas no Cloudera.
Fonte: Disponível em <http://bigdatabrazil.blogspot.com.br/2013/10/usando-o-cloudera-hadoop.html>.
Acesso em 10 jul. 2017, às 10:58.
O Cloudera pode ajudar a criar um hub de dados empresariais para permitir que
as pessoas em uma organização tenham acesso fácil aos dados que você está
armazenando. Embora tenha um elemento de código aberto, o Cloudera é
principalmente uma solução para ajudar as empresas a gerenciar o seu ecossistema
Hadoop. Essencialmente, o Cloudera faz muito trabalho duro para administrar o Hadoop
para você, de maneira automatizada. Ele também fornece certos recursos de segurança
de dados, o que é altamente importante ao armazenar dados sensíveis ou pessoais.
• MongoDB
O MongoDB possui uma abordagem moderna e de inicialização dos bancos de
dados, sendo, segundo a IMPORT (2017) e DEVI (2017), uma alternativa aos bancos
23
de dados relacionais. Ao mesmo tempo, o MongoDB não é para o novatos no trabalho
com dados. Como em qualquer banco de dados, você precisa saber como consultá-lo
usando uma linguagem de programação.
O MongoDB é um bom recurso para gerenciar dados que estão mudando
frequentemente ou dados semi-estruturados ou ainda desestruturados. Na maioria das
vezes, ele é usado para armazenar dados em aplicativos para dispositivos móveis,
catálogos de produtos, personalização em tempo real, gerenciamento de conteúdo e
aplicativos que oferecem uma visão única em vários sistemas.
3.2.5. Machine Learning
Muitas vezes possuímos perguntas imprecisas, sobre uma operação ou um
negócio, como por exemplo, “Como faço para aumentar minhas vendas?” ou “Qual o
produto da minha loja é o mais vendido?” ou então “Quais são os perfis que mais utilizam
este serviço?”. Uma rede de supermercado, por exemplo, que vende milhares de bens
para milhões de clientes, seja via mega lojas físicas ou ainda lojas on-line, precisa
guardar os detalhes de todas as transações realizadas: a data da compra, identificação
do cliente, itens comprados, o valor de cada um desses itens, o valor da compra total,
sem contar outros detalhes menores. Isso gera uma enorme quantidade de dados todo
dia. O que o dono da rede de supermercados deseja é prever qual cliente possui maior
probabilidade de comprar quais produtos, para maximizar suas vendas e seu lucro.
Todas as pessoas são tanto geradores de dados (ao fazer uma compra num
supermercado, por exemplo), como também consumidores de dados (ao utilizar um
aplicativo de GPS), pois queremos ter produtos e serviços especializados. Uma
experiência de consumo ou serviço é melhor caso os interesses previstos e a resposta
para essas demandas podem ser dadas através da análise de dados, que é uma das
suas atribuições da aprendizagem de máquina.
A aprendizagem de máquina não é um conceito novo. Em 1959, Arthur Samuel
definiu aprendizado de máquina como o "campo de estudo que dá aos computadores a
habilidade de aprender sem serem explicitamente programados". Mais recentemente o
conceito evoluiu, e SIMON (2013) afirma que os processamentos de aprendizado de
máquina (machine learning) têm como objetivo derivar modelos preditivos a partir de
dados atuais e históricos. Segundo a premissa inerente, um algoritmo aprendido
melhorará com mais treinamento ou experiência em particular, os algoritmos de
aprendizagem de máquina podem alcançar resultados extremamente eficientes para
24
domínios muito restritos usando modelos treinados a partir de grandes conjuntos de
dados.
De acordo com WOODS (2015), no ano de 2020 espera-se que 1 milhão de
novos dispositivos estejam conectados a cada hora. A conectividade entre pessoas e
dados está criando bilhões de novos relacionamentos que são orientados não só por
dados, mas também por algoritmos que mantêm os clientes envolvidos e comprando,
acelerando a economia. Além disso, até o ano 2025, pelo menos 60% da computação
será baseada em nuvem, devido ao "tudo-como-um-serviço" movimentando as
mudanças fundamentais no setor de TI, segundo estudo da Emerson Network Power
sobre como seria a estrtura de um data center em 2015 (EMERSON, 2014).
Essas previsões demonstram o movimento que já está ocorrendo nas
organizações. As organizações estão buscando aprender como funcionam os modelos
de aprendizagem de máquinas para tirar benefícios deles. A aprendizagem e
modelagem de máquinas é uma parte do processo para criação de modelos de data
mining para diferentes indústrias, mas ainda é uma das principais para entender o fluxo
total.
No exemplo do supermercado, não é uma tarefa simples identificar o que cada
cliente deseja comprar, qual a combinação de produtos que melhor atende sua
necessidade. Não temos como saber exatamente quais pessoas tem maior
probabilidade de comprar determinado sabor de sorvete, ou ainda comprar o novo livro
de certo autor, ver aquele novo filme, visitar aquela cidade, etc). O comportamento de
cada cliente muda de acordo com o tempo, a localização geográfica, cultura local, mas
sabemos que seu comportamente não é aleatório. As pessoas não vão ao
supermercado comprar coisas aleatoriamente. Quando elas compram cerveja,
compram algum aperitivo pra acompanhar, compram sorvete o verão e chá no inverno.
Existem alguns padrões que podemos identificar.
Para algumas tarefas, nem precisamos de um algoritmo, a previsão do
comportamento de clientes é uma delas. Segundo ALPAYDIN (2014), cientista e
pesquisador do MIT (Massachusetts Institute of Technology), mesmo que não estejamos
hábeis a identificar o processo completo, é possível construir uma boa e útil
aproximação, ainda que essa explique apenas parcialmente os dados. Apaydin acredita
que apesar da identificação do processo completo talvez não ser possível, nós podemos
detectar certos padrões ou regularidades e esse é exatamente o ponto central do
machine learning. Esses padrões podem nos ajudar a entender o processo ou podemos
usá-los para fazer predições: “assumindo que o futuro – pelo menos um futuro próximo
25
– não será muito diferente do passado onde o dado dessa amostra foi coletado, e assim
é possível esperar que as predições futuras estejam certas” (ALPAYDIN, 2014, p. 2).
Ainda segundo ALPAYDIN (2014), o problema de machine learning não é só o
problema de base de dados, que são grandes e crescem exponencialmente, mas
também a parte da inteligência artificial. Para ser inteligente, um sistema que está em
um ambiente de constantes mudanças precisa ter habilidade de aprender. Se o sistema
pode aprender e se adaptar a tais mudanças, o desenvolvedor do sistema não precisa
prever e solucionar todas as possíveis situações.
Assim, é preciso entender o domínio do problema (do negócio) e os dados
disponíveis, para então poder começar a criar recursos, e somente então é possível
realmente começar a modelagem de machine learning. O processo completo está
descrito abaixo, num esquema criado com base na definição de NOGARE & ZAVASCHI
(2016), na Figura 9:
Figura 9 – Metodologia para construção de modelos preditivos – Fonte: Elaboração Própria. Baseado em
NOGARE & ZAVASCHI (2016, p. 41-43)
Para NOGARE & ZAVASCHI (2016), este processo é cíclico e começa com a
identificação do problema na área solicitante. Esse passo é o mais importante pois a
partir dessa solicitação que o modelo ideal será buscado. Para evitar um trabalho
extenso em um modelo que não atenderá a solicitação, é importante dividir o projeto em
partes menores para que os solicitantes possam acompanhar a evolução do projeto.
Em seguida passa-se para o processo de coletar e limpar os dados. Na coleta
qual é importante que o dado correto seja adquirido de forma eficiente, já que os dados
26
brutos podem ter diferentes origens (bases de dados da empresa, dados de sensores
de telemetria, dados originais de serviços de marketplace, dentro outros). Além disso, a
limpeza dos dados é fundamental para que a criação do modelo seja efetiva, ou seja,
os outliers precisam ser removidos, além de limpezas dos dados que realmente
interessam, por exemplo, eliminar uma de duas variáveis altamente correlacionadas
(visto que é possível usar apenas uma delas e obter o mesmo resultado).
Com os dados preparados é possível começar o desenvolvimento do modelo
preditivo, que é a fase mais interessante, pois é necessário enfrentar o desafio de
encontrar o algoritmo correto para resolver o problema apresentado no primeiro passo
pela área de negócios. Este é um processo interativo, que nos permite analisar algumas
possibilidades existente de algoritmos e comparar o desempenho de cada uma delas
em cima dos dados que já estão prontos. Após comparar os resultados e fazer ajustes,
encontra-se o modelo mais apropriado para aquela amostra de dados. Após o
desenvolvimento o modelo é implementado, ou seja, publicado para ser utilizado com
dados reais, onde é esperado que os dados reais encontrem retornos como foram
encontrados nos dados testados, mostrando o quanto o algoritmo foi bem desenvolvido
e ajustado para resolver os problemas reais.
Por fim deve-se monitorar a performance do modelo criado, visto que as ações
são baseadas em métodos estatísticos e matemáticos e terão melhoras a cada vez que
mais dados forem inseridos. O processo volta ao passo inicial que é identificar o
problema com a área solicitante e entra em um loop sempre melhorando a cada
iteração.
3.2.6. Data Warehouse Moderno
A arquitetura de DW tradicional apresentada no item 3.2.1 evoluiu e hoje é
possível construir um DW cuja arquitetura comporta ambos processamentos –
transacional (operacional) e analítico –, que devem ser distribuídos, além de outros
elementos, fontes e soluções, conforme exemplificado na Figura 10.
Segundo COATES (2017), o processamento distribuído é um aspecto de uma
implementação de data warehouse lógico. Trata-se de “pressionar o esforço de
processamento para cada sistema de fonte distribuído sempre que possível, a fim de
maximizar o desempenho por paralelismo”.
27
Figura 10 – Estrutura de um data warehouse moderno. Fonte: Traduzido de COATES (2017). Disponível
em <http://www.sqlsaturday.com/SessionDownload.aspx?suid=16617>. Acesso em: 28 ago. 2017, às
00:52.
De acordo com COATES (2017), uma arquitetura moderna de DW deve
possibilitar a extração de dados não só base de dados da organização ou de terceiros,
como também importar dados de diferentes aparelhos e sensores (principalmente para
gestão de ativos) e mídias sociais.
Além disso, devido à crescente demanda por processamento mais rápido, ao
mesmo tempo em que os volumes de dados aumentaram, as soluções tecnológicas se
adaptaram tiveram que se adaptar para suprir essa necessidade dos usuários. Assim,
atualmente é possível realizar ambos os processamentos on-line de transações (OLTP)
e análise (OLAP) paralelamente, com um conjunto de ferramentas mais flexível e
compatível com o usuário, baseado em objetos (CARVALHO, 2013).
Assim, a impossibilidade de processar relatórios ao mesmo tempo em que o
sistema transacional realiza as operações do dia-a-dia deixa de existir, já que os dados
podem ser orientados a colunas ao invés de linhas (agrupando apenas uma
característica ao invés de todas as característas de uma linha), provendo então a
capacidade de processamento paralelo massivo em memória (o modelo in memory
mostrado na Figura 10). O gargalo tecnológico que causava essa limitação era
justamente a arquitetura baseada em bancos relacionais das aplicações antigas. As
aplicações baseadas no modelo in memory deixam de ter esse problema, passando a
ter a capacidade de processar cargas analíticas (OLAP) e transacionais (OLTP) no
mesmo ambiente (CARAVALHO, 2013)
28
De acordo com artigo da EMC (2014), nada tem um impacto tão positivo na
capacidade de armazenamento, gerenciamento e análise de dados de longo prazo
como Hadoop e o sistema de arquivos distribuídos Hadoop (HDFS). De acordo com o
estudo, sem dúvida, o Hadoop é um divisor de águas de tanto para TI como para as
áreas de negócio. Para muitas organizações, a introdução do Hadoop / HDFS na
organização começa com o estabelecimento do Data Lake.
Para COATES (2017), o Data Lake é uma peça fundamental da estratégia geral
de gerenciamento de dados. Conceitualmente, ele não é nada mais do que um
repositório de dados, mas por ter a capacidade de pode armazenar qualquer tipo de
dados, é adequado para a armazenar dados multi-estruturados, como logs e produção
de máquinas. A EMC (2014) define o Data Lake como um repositório de armazenamento
que contém uma grande quantidade de dados brutos em seu formato nativo, até que
esse dado seja necessário de alguma forma.
Os dados dos aparelhos e sensores podem ser transferidos via streaming
diretamente para ferramentas de monitoração em tempo real (ou quase real, devido ao
tempo de transmissão). Ao mesmo tempo, os dados provenientes desses aparelhos,
sensores e mídias sociais podem ser armazenados em um data lake, para futura
utilização caso necessário. Esse data lake deve estar conectado a um Hadoop, para
distribuição dos arquivos via HDFS.
Dentre suas aplicações, o data lake permite a integração de descrições de
reivindicações não estruturadas para reduzir alegações fraudulentas, a alavancagem
dados móveis para criar oportunidades promocionais em tempo real e ainda o
aproveitamento de leituras dos sensores para prever as necessidades de manutenção
e antecipar o tempo de inatividade dispendioso, tudo através de modelos de machine
learning (EMC, 2014).
A utilização de consultas (queries) federadas, que também é novidade na
arquitetura moderna de DW, retorna dados de vários armazenamentos de dados (data
stores), federando ou combinando os resultados da consulta (COATES, 2017). Uma
consulta federada funciona usando técnicas de virtualização de dados, por isso,
freqüentemente, a federação de dados é referenciada de forma similar à virtualização
de dados.
Com o uso dessas novas tecnologias no DW, é possível obter análises
avançadas (advanced analytics), ou seja, técnicas estatísticas sofisticadas para
encontrar padrões nos dados com o objetivo de previsões, recomendações, otimizações
e descrições de informações. O conceito de advanced analytics, segundo COATES
(2017), pode incluir subcategorias como análise preditiva, análise prescritiva, análise
29
operacional, análise descritiva e assim por diante. Análises avançadas podem ser
utilizadas para casos como detecção de fraude, segmentação de clientes, avaliação de
risco de crédito ou previsões, como desistentes de estudantes, conflito de clientes ou
readmissões hospitalares.
3.3. A indústria de eletricidade e seus desafios
O termo indústria geralmente designa o conjunto de atividades que visam à
manipulação de matérias-primas para a produção de bens de consumo. No caso da
indústria de eletricidade, o bem produzido é a energia elétrica, um produto impalpável
utilizado de forma indireta, seja para produzir luz, movimento, calor ou qualquer outra
transformação energética.
A partir da década de 1990, buscando eficiência e autonomia econômica, o setor
elétrico mundial passou por reformas estruturais em sua forma de operação e, como
consequência dessas mudanças (que afetaram também o Brasil), os segmentos de
geração, transporte e comercialização de energia passaram a ser separados, sendo
administrados e operados por agentes distintos, por vezes vistos como concorrentes
entre si, dada a existência de muitos agentes e também pelo fato do produto, a energia
elétrica, ser homogêneo, como uma commodity3.
Segundo a Associação Brasileira de Distribuidores de Energia Elétrica
(ABRADEE)4 um ponto importantíssimo sobre a produção e o consumo de energia
elétrica é que, diferentemente de outros sistemas de redes, como saneamento e gás, a
energia elétrica não pode ser armazenada de forma economicamente viável, e isso
implica na necessidade de equilíbrio constante entre oferta e demanda. Em outras
palavras, toda a energia consumida deve ser produzida instantaneamente e, quando há
desequilíbrios, mesmo que por frações de nano segundos, todo o sistema corre o risco
de desligamentos em cascata, os chamados “apagões”.
Atualmente, segundo a Agência Nacional de Energia Elétrica (ANEEL), a energia
gerada de acordo com sua fonte, a chamada matriz energética, está distribuída de
acordo com a Figura 8, onde fica clara a predominância de geração hidrelétrica. O
3 Commodity é uma mercadoria de importância mundial, que tem seu preço determinado pela oferta e
pela procura internacional.
4 A ABRADEE (http://www.abradee.com.br/) reúne 47 concessionárias de distribuição de energia elétrica
- estatais e privadas - atuantes em todas as regiões do país e que juntas são responsáveis pelo
atendimento de 99,6% dos consumidores brasileiros.
30
parque gerador brasileiro (sem contar a energia importada), possui 153.420.650 kW de
capacidade instalada, sendo 61% de hidrelétricas e 27% de termelétricas distribuídas
entre usinas a biomassa (9%), gás natural (8%), óleo diesel (3%), óleo combustível
(3%), carvão (2%), outros combustíveis fósseis (1%) e usinas nucleares (1%). A geração
eólica e solar corresponde a 8% da potência instalada.
Figura 11 – Matriz Energética do Brasil. Fonte: ANEEL. Adaptado de
<http://www2.aneel.gov.br/aplicacoes/capacidadebrasil/OperacaoCapacidadeBrasil.cfm>. Acesso em 01
ago. 2017, às 23:07h.
Segunda pesquisa de TOLMASQUIM (2016) para a Empresa de Pesquisa
Energética (EPE), as usinas térmicas exercem um papel de complementação da
geração hidrelétrica e oferecem flexibilidade operativa ao Sistema Interligado Nacional
(SIN). Essas usinas funcionam como um seguro nos períodos de escassez hidrológica,
contribuindo para a garantia do suprimento de energia. Em razão das suas
características técnicas e econômicas, particularmente a geração termelétrica a gás
natural também tem sido associada à expansão das fontes renováveis intermitentes,
como eólica e solar, para ser acionada nos períodos de indisponibilidade da geração a
partir dos ventos e do sol. Por esse motivo, as usinas termelétricas, que são o foco do
presente estudo, são de grande importância para a matriz energética brasileira, a
população como um todo e o meio ambiente.
A energia termelétrica, assim como a hidrelétrica, também é produzida por um
gerador e transportada até os locais de consumo por linhas de transmissão. O gerador
é impulsionado pela queima de um combustível. Ao queimar, o combustível aquece uma
caldeira com água, produzindo vapor com uma pressão tão alta que move as pás de
uma turbina, que por sua vez aciona o gerador (Operadora Nacional do Sistema Elétrico
– ONS, 2017). Qualquer produto capaz de gerar calor pode ser usado como
Potência %
Biomassa Eólica Fóssil Hídrica Nuclear Solar Importação
31
combustível, do bagaço de diversas plantas aos restos de madeira. Os combustíveis
mais utilizados são os citados acima na descrição da matriz energética. O processo
completo de geração termelétrica pode ser visto no Anexo B.
Analisando as tendências e oportunidades do setor energético, segundo texto
publicado no Banco Nacional do Desenvolvimento (BNDES) por PEREIRA & PUGA
(2016), independentemente do cenário macroeconômico, as oportunidades de
investimento serão maiores na diversificação da matriz energética, por conta da
crescente conscientização mundial sobre os efeitos nocivos que os projetos de energia
podem causar no meio ambiente, restringindo a construção de grandes barragens
hidrelétricas, que, como visto anteriormente, é a maior fonte da matriz energética
brasileira atualmente.
A tendência é de que as fontes renováveis não hídricas continuem a ganhar
espaço na matriz energética. Segundo pesquisa da EPE (BRASIL, 2015), haverá
expressivo aumento da participação da biomassa, e das energias eólica e solar na
matriz.
Essa pesquisa (BRASIL, 2015) afirma também que o Brasil tem cerca de 20 GW
(representa cerca de 15% da matriz elétrica) de potencial de geração de energia de
biomassa que poderia ser implementado em curto espaço de tempo (atualmente, como
citado nesse mesmo tópico, a biomassa representa 9% da matriz), além de outros
combustíveis para geração termelétrica.
Outra grande oportunidade de investimento está nas ações voltadas ao aumento
da eficiência energética (que é a relação entre a quantidade de energia empregada em
uma atividade e aquela disponibilizada para sua realização). De acordo com ESPOSITO
(2016), a aplicação de tecnologias de informação e comunicação poderá gerar ganhos
de eficiência associados, destacando-se a implementação de projetos associados a:
• Decisão de consumo inteligente, que permite ao consumidor ajustar seu
consumo de energia para momentos em que a energia esteja mais
barata;
• Identificação de pontos na rede de distribuição em que há furto de
energia, facilitando a fiscalização;
• Redução de custos de supervisão e manutenção de redes e usinas
elétricas, por meio do sensoriamento remoto.
O presente estudo terá como foco a utilização do sensoriamento remota e outras
tecnologias para mostrar como viabilizar de fato esses ganhos de eficiência, reduzindo
custos operacionais da geração termelétrica.
32
3.4. Tipos de Manutenção nas Indústrias
Em muitos cenários de grandes indústrias, possuir máquinas modernas, fatia
consolidada de mercado, tecnologia de ponta, preços competitivos, excelentes
funcionários e programas de qualidade podem não ser o suficiente para se manter. Se
essa indústria não tiver um eficiente programa de manutenção mecânica, pode estar
suscetível a falhas que podem causar grandes perdas financeiras e comprometer seu
sucesso. A manutenção mecânica é a alma da produção industrial.
De fato, sem a manutenção mecânica das máquinas e equipamentos não é
possível cumprir os cronogramas de fabricação, ter um portfólio de produtos de
qualidade, controlar (e tentar minimizar) os custos de produção e perdas materiais.
Esses fatores interferem diretamente na competitividade da indústria no mercado e
fidelidade dos clientes, que buscam produtos de qualidade e custo justo.
Segundo VIANA (2002), os tipos de manutenção são as “formas de encaminhar
as intervenções nos instrumentos de produção, ou seja, nos equipamentos que
compõem uma determinada planta”. Neste sentido observa-se que existe um consenso,
quanto aos tipos de manutenção.
Existem diversos aspectos que podem ser avaliados para efetuar manutenções
mais eficientes, de acordo com a origem do problema, que podem ser resumidos nos
seguintes:
• Condição: se o equipamento ou máquina em questão está operante ou
parado (sem funcionamento ativo).
• Desempenho: a medição, de forma matemática, que define o quão
satisfatório está o funcionamento do equipamento ou máquina (pode ser
a eficiência da máquina, ou o fator de tempo para fazer uma determinada
operação, etc.).
• Confiabilidade: uma avaliação de probabilidade de falha no equipamento
ou máquina, que é feita normalmente utilizando os dados de desempenho
e condição.
Existem outros aspectos mais específicos que podem ser avaliados para
realização de manutenção, que são englobados dentro dos aspectos citados acima.
Os principais tipos de manutenção existentes hoje nas indústrias mundialmente
são descritos nas seções seguintes.
33
3.4.1. Manutenção Corretiva
Essa é a forma mais direta e mais primitiva de manutenção. De acordo com
SLACK et al. (2009, p. 625) “significa deixar as instalações continuarem a operar até
que quebrem. O trabalho de manutenção é realizado somente após a quebra do
equipamento ter ocorrido”. Essa abordagem ainda se subdivide em duas categorias:
planejada e não-planejada.
• Manutenção corretiva não-planejada: a correção da falha ou do
desempenho abaixo do esperado é realizada sempre após a ocorrência
do fato, sem acompanhamento ou planejamento anterior, aleatoriamente.
Implica em altos custos e baixa confiabilidade de produção, já que gera
ociosidade e danos maiores aos equipamentos, muitas vezes
irreversíveis (OTANI & MACHADO, 2008).
• Manutenção corretiva planejada: a atuação sobre a falha ocorre depois
que o equipamento já apresenta falha, mas não parou de produzir. Pode
ocorrer, em alguns casos, pela decisão gerencial de manter a operação
até a falha completa ou em função de um acompanhamento de
manutenção preditiva. OTANI & MACHADO (2008, p. 4) apontam que
“pelo seu próprio nome planejado, indica que tudo o que é planejado,
tende a ficar mais barato, mais seguro e mais rápido”.
Como na manutenção corretiva “a ação de manutenção ou reparação (decisão)
só é tomada quando a falha acontece no equipamento ou sistema, as críticas típicas
desta estratégia de manutenção são bem conhecidas: sua forma de operar implica altos
custos de trabalho extra, elevado tempo de paralisação da máquina, altos custos de
estoques de peças sobressalentes e baixa disponibilidade da produção” (NIU et al.,
2010, p791).
Embora nenhuma empresa na atualidade implemente totalmente um tipo de
gerencia de manutenção reativa – visto que as plantas industriais sempre realizam
tarefas preventivas básicas – a manutenção corretiva é, quase sempre, aplicada em
áreas não críticas, onde o custo de capital é pequeno; as consequências de uma falha
são leves; não existem riscos de seguridade imediatos e; uma rápida identificação da
falha, assim como uma rápida reposta ao problema são possíveis. A manutenção
corretiva é na maioria das vezes justaposta como um complemento às demais
estratégias existentes de manutenção (BOSA, 2009).
34
3.4.2. Manutenção Preventiva
A manutenção preventiva, ao contrário da corretiva, visa evitar a falha do
equipamento. Este tipo de manutenção é realizado em equipamentos que não estejam
com falha, ou seja, estejam operando em condições normais. Desta forma, podem
ocorrer as seguintes situações: a interrupção do equipamento antes (talvez muito antes)
do necessário para fazer a manutenção do mesmo; a segunda situação é a falha do
equipamento, por estimar o período de reparo do mesmo de maneira incorreta.
As intervenções sobre o equipamento são levadas a cabo, em intervalos de
tempo predeterminados, que se destinam a reduzir a probabilidade de ocorrência de
falhas, ou a degradação da funcionalidade de um ativo (SOUZA, 2008).
Ainda segundo SOUZA (2008), esta estratégia tem como ponto negativo que “os
programas e intervenções sobre os equipamentos e sistemas são planejados muitas
vezes quando um determinado item não precisa de ditas ações que obriguem sua
parada; o desmontar a máquina, a manipulação das peças e a submissão a inspeções
que terminam afetando, diretamente, a vida operacional normal da maquinaria”.
3.4.3. Manutenção Preditiva
Nas últimas décadas, com os avanços da tecnologia da informação e as
ferramentas de business intelligence, as redes industriais, entre outras tecnologias de
análise de grandes bases de dados combinados (big data), a manutenção preditiva,
também chamada de manutenção baseada em condição, ganhou uma grande
importância. A implementação desse tipo de manutenção mostrou que é possível prever
quando uma falha ocorrerá, com base numa série de parâmetros combinados
analisados em falhas anteriores. Essa possibilidade levou à expansão e ao auge, destas
abordagens nos domínios industriais, já que agrega confiabilidade às máquinas.
Na manutenção preditiva, o momento apropriado para executar a manutenção é
determinado a partir de um conjunto de medidas e informações do equipamento que
permitam detectar o aparecimento de mecanismos de degradação do mesmo (Souza,
2008). A implementação desse tipo de manutenção ocorre a partir do monitoramento da
condição das máquinas. Este é um processo que é facilitado pela intensa
instrumentação instalada nas plantas industriais, os programas de automação, os
bancos de dados e a facilidade no fluxo de informação da indústria.
Fazer uma análise preditiva é permitir que suas análises deem um passo à frente
no uso de business intelligence convencional, uma vez que o aprendizado de máquina
adapta os dados e com o passar do tempo converge o modelo preditivo para a
representação dos dados daquele momento da análise.
35
A modelagem preditiva é uma das tarefas de data mining mais comuns. Como o
nome indica, é o processo de tirar dados históricos (o passado), identificar padrões nos
dados que são vistos através de alguma metodologia (o modelo), e depois usar o
modelo para fazer previsões sobre o que acontecerá no futuro, marcando novos dados
(DEAN, 2014).
De acordo com PERERA (2017), a manutenção preditiva pode ser formulada de
uma das duas maneiras:
i. Abordagem de classificação - prevê se existe uma possibilidade de falha
nos próximos passos (onde a quantidade de próximos passos é definida).
ii. Abordagem de regressão - prevê a quantidade de tempo restante antes
da próxima falha, ou seja, a vida útil restante.
A abordagem por classificação fornece apenas uma resposta booleana, ou seja,
se ocorre ou não a falha nos próximos passos definidos, mas pode fornecer maior
precisão mesmo que o conjunto de dados históricos não seja muito grande. A
abordagem de regressão precisa de mais dados, embora forneça mais informações
sobre quando a falha acontecerá.
3.4.3.1. Indústria 4.0
Dessa forma, é possível perceber que o aproveitamento dos dados da planta é
essencial a qualquer modelo ou estratégia de manutenção preditiva, principalmente nos
equipamentos e máquinas mais críticos para o funcionamento da indústria. O objetivo é
geralmente estabelecer diagnósticos e prognósticos de falhas nos equipamentos e as
possíveis sugestões de tarefas de manutenção.
Para isso é necessária a integração entre máquinas, sistemas e pessoas na
cadeia produtiva, que é a essência da Indústria 4.0 (CAMEIRA et al., 2017). O termo
Indústria 4.0 refere-se à quarta revolução industrial que, de acordo com
CHUKWUEKWE et al. apud CAMEIRA (2017), mudará profundamente os processos de
manufatura, com a introdução das tecnologias citadas anteriormente, como big data,
machine learning, dentre outros sistemas inteligentes desenvolvidos recentemente.
Ao combinar a fabricação, automação e soluções de TI, é possível revolucionar
os processos produtivos das indústrias (CHUCKWUEKWE et al. apud CAMEIRA et al.
(2017), principalmente através de sensores (CAMEIRA et al., 2017), que vão permitir
que as máquinas e equipamentos da cadeia produtiva sejam consertados de acordo
com suas condições reais de uso, ao identificar e tratar anomalias antes de ocorrerem
paradas inesperadas.
36
Para CAMEIRA et al., (2017), big data terá um papel fundamental de
processamento e análise da enorme quantidade de dados provenientes de sensores do
chão de fábrica. O processamento e análise inteligente desses dados através de big
data permitirá determinar as probabilidades de falhas de máquinas, provendo
informações valiosas para tomada de decisões.
Assim, a Indústria 4.0 pode ser caracterizada por uma fusão entre a tecnologia
e as fábricas, onde cada componente da cadeia produtiva, ferramentas e estações de
trabalho, se comunicam constantemente. As máquinas, sistemas de TI e produtos
trocam informações entre si e também com o mundo externo, tornando-se assim, mais
inteligentes.
A MCKINSEY (2015) estima que, até 2025, os processos relacionados à
Indústria 4.0 poderão reduzir custos de manutenção de equipamentos entre 10% e 40%,
reduzir o consumo de energia entre 10% e 20% e aumentar a eficiência do trabalho
entre 10% e 25%. Ao otimizar as ferramentas e processos de produção, implementando
rotinas para manutenção preditiva também é possível reduzir o tempo de inatividade de
máquinas em 50% e reduzir o investimento de equipamentos e de capital em 3 a 5%,
estendendo a vida das máquinas, segundo o mesmo relatório.
As principais ferramentas necessárias para implementar a Indústria 4.0 já estão
disponíveis: sensores, controladores, big data, machine learning, computação em
nuvem, dentre outros. Mais do que uma revolução industrial, a Indústria 4.0 é uma
reorganização total dos processos de produção fazendo uso das ferramentas existentes
e depositando maior confiança nelas.
Esse novo modelo de indústria aumenta o dinamismo do setor de diferentes
formas: modernizando a produção, aumentando a produtividade, posicionando os
fabricantes para enfrentar os desafios da globalização e criando vantagens
competitivas. No estuda caso a seguir aprofundaremos uma proposta de como trazer
esse novo modelo de indústria com processos e ferramentas tecnológicos de
manutenção preditiva para usinas termelétricas da PETROBRAS, que, apesar de terem
evoluído bastante na monitoração das máquinas, ainda precisam de processos
estruturados para tirar dos dados todo o seu valor para o negócio.
37
4. ESTUDO DE CASO
A seguir, será apresentado o caso que motivou esse estudo. Esse é um grande
exemplo de como é difícil, principalmente para grandes empresas, como a
PETROBRAS, estruturar o uso de ferramentas de bussiness intelligence entre diferentes
áreas e equipes, com objetivos finais diferentes.
4.1. A organização estudada: PETROBRAS
A PETROLEO BRASILEIRO SA (PETROBRAS) é uma empresa de capital
aberto conhecida mundialmente que opera de forma integrada e especializada no setor
de petróleo, gás natural e energia, cujo acionista majoritário é o Governo do Brasil,
sendo, portanto, uma empresa estatal de economia mista. A PETROBRAS está
presente nos segmentos de exploração e produção, refino, comercialização,
transporte, petroquímica, distribuição de derivados, gás natural, energia elétrica, gás-
química e biocombustíveis5.
Com cerca de 70 mil empregados atualmente, a empresa foi instituída em 3 de
outubro de 1953 e deixou de monopolizar a indústria petroleira no Brasil em 1997, mas
continua a ser uma importante produtora do produto, produzindo mais de 2 milhões e
144 mil barris de óleo diariamente6.
A PETROBRAS sofreu entre 2014 e 2016 prejuízos de dezenas de bilhões de
reais consecutivamente, devido à esquemas de corrupção e quedas no preço do barril
de petróleo. Assim, a empresa tenta se recuperar dessa crise aumentando sua
eficiência operacional.
Na geração de energia elétrica, a PETROBRAS opera e tem participação em
usinas termelétricas, eólicas e pequenas centrais hidrelétricas, que complementam as
necessidades de energia do país, principalmente em períodos de seca e grande
demanda. No total, o parque gerador da PETROBRAS possui 36 unidades – próprias,
de subsidiárias ou de empresas em que possuem participação acionária –, incluindo
uma em construção7. A listagem das usinas próprias pode ser visualizada no Apêndice
A.
As usinas termelétricas têm o maior destaque no parque, mas a empresa
também gera energia elétrica por meio de cinco usinas eólicas e duas pequenas
5 PETROBRAS. Disponível em <http://www.petrobras.com.br>. Acesso em 02 ago. 2017.
6 Dados disponíveis em <http://www.petrobras.com.br/pt/quem-somos/perfil/>. Acesso em 02 ago. 2017.
7 Dados disponíveis em <http://www.petrobras.com.br/pt/nossas-atividades/areas-de-atuacao/geracao-
de-energia-eletrica/>. Acesso em 02 ago. /2017.
38
centrais hidrelétricas. A construção das termelétricas começou em 2000 e a
participação dessas usinas no setor ampliou significativamente desde lá e atualmente
tem presença em toda cadeia produtiva, com capacidade total de geração elétrica
maior que 6000 MW em 20 usinas termelétricas por todo o Brasil8. As usinas
termelétricas do parque gerador da PETROBRAS serão o objeto desse estudo.
4.2. O Centro de Monitoração e Diagnóstico
Os dados das usinas termelétricas abastecem uma base de dados relacional, ou
seja, um banco que modela os dados de uma forma que eles sejam percebidos pelo
usuário como tabelas.
Os dados são trazidos de muitas máquinas e tratar esses dados para transformá-
los em informação era um desafio para a Gerência de Suporte à Manutenção de
Grandes Máquinas e, depois de uma experiência na área de ciclos de geração, foi
identificado que era necessário analisar de forma mais abrangente as grandes máquinas
que compõe as usinas.
Devido a essa necessidade foi criada uma Gerência de Confiabilidade, para dar
suporte à manutenção proativa e preventiva. Essa gerência realizou um estudo das
técnicas utilizadas em outros centros de monitoramento para verificar o que seria
possível adaptar para a realidade da PETROBRAS. O objetivo era unificar os dados das
usinas termelétricas em único centro de monitoração, que passasse informações
consistentes às demais gerências para as devidas ações.
Assim foi criado o Centro de Monitoração e Diagnóstico (CMD). Houve um
esforço da área de Tecnologia da Informação Corporativa (TIC) muito grande para
unificar os dados provenientes de pontos de recolha nas usinas termelétricas para esse
centro.
Os dados dessas usinas começaram a ser armazenados em um historiador, o PI
System, utilizado como sistema de supervisão desses dados operacionais e
disseminado na PETOBRAS em TICs de vários estados há mais de vinte anos. Cada
usina termelétrica passou a possuir um servidor local do PI System, onde os dados da
mesma são armazenados e enviados através de conexão com a internet a um servidor
central. Nesses dados estão inclusos, entre outros, temperatura e pressão das
turbinas e a geração de cada turbina elétrica.
8 Dados disponíveis em <http://www.petrobras.com.br/pt/nossas-atividades/principais-
operacoes/termeletricas/>. Acesso em 02 ago. 2017.
39
Já com a base de dados montado no PI System, o CMD tinha um novo desafio:
unificar também a interface de supervisão desses dados. Até o momento, casa usina
termelétrica utilizava um supervisório com um fabricante diferente. Por esse motivo, a
PETROBRAS fez um novo esforço de unificação para que todas as usinas termelétricas
utilizassem o PI System também como interface de supervisão dos dados, já que a
base de dados já estava montada nele e toda infraestrutura necessária para uso já
estava pronta.
4.2.1. Monitoração de falhas nas usinas termoelétricas
Com uma base de dados e um sistema de supervisão montados, ainda faltavam
recursos que permitissem monitorar os dados que realmente importam para certificação
da continuidade de geração de energia pelas usinas, incluindo análise de variáveis de
processos e variáveis quantitativas.
O objetivo era construir uma ferramenta capaz de monitorar a eficiência
energética das unidades termoelétricas em tempo real e inferir a eficiência esperada
das mesmas, possibilitando a rápida identificação de desvios operacionais.
4.2.2. Motivação para mudança
Até 2013, a contabilização da eficiência energética das usinas era calculada
mensalmente de forma off-line pelos engenheiros e técnicos de manutenção. As usinas
tinham metas associadas apenas ao despacho de energia elétrica e devido ao cálculo
da eficiência ser manual, era difícil identificar os desvios de eficiência energética, o que
causava baixa operacionalização no tratamento dos desvios de eficiência.
Monitoramento da eficiência energética
Estabelecimento de metas de
eficiência
Mensuração das ações de melhoria de
eficiência
Atuação imediata para correção dos
desvios de eficiência
Identificação e registro dos
desvios de eficiência
Figura 12 – Fatores motivacionais para a implementação de monitoração centralizada. Fonte:
Elaboração Própria.
40
Com o monitoramento das usinas termelétricas seria possível calcular a
eficiência energética de forma menos dispendiosa, definindo métricas mais condizentes
com a realidade, além de possibilitar ações imediatas para correção de desvios de
eficiência (falhas) identificados na monitoração.
4.2.3. Descrição de ferramentas do CMD
Para suprir a necessidade de controlar as variáveis do processo de produção de
energia termelétrica, o CMD começou a utilizar o ETAPro, escolhido através de uma
licitação para softwares de monitoração, cujo principal requisito era a integração com o
PI System.
O ETAPro não oferece algumas funcionalidades que o CMD demanda, como,
por exemplo, gerar alarmes baseados em dados de produção das grandes máquinas,
como turbinas de gás e vapor, bem como as bobinas acopladas à essas turbinas. A
falha dessas grandes máquinas são as que geram maior impacto financeiro para o setor
de energia e, consequentemente, para a PETROBRAS como um todo. Por esse motivo,
atentar para qualquer indício de falha nessas máquinas é necessário e, para atender a
essa demanda o CMD buscou uma nova ferramenta para monitorar esses indícios de
falha, o OPEN Predictor.
Pela falta de recursos em ambas as ferramentas que provessem uma visão geral
de todo o parque resumida em apenas uma visualização, o COE (Centro de Operações
de Energia) que fica na estrutura de Gás e Energia, junto ao CMD, começou a utilizar o
Spotfire como ferramenta de business intelligence, para visão em tempo real do parque
gerador das usinas termelétricas.
O objetivo da adoção desse conjunto de ferramentas foi justamente sintetizar os
aspectos de condição, desempenho e confiabilidade das grandes máquinas,
conforme apresentado na Figura 13. Apesar de até hoje os operadores do CMD não
conseguirem extrair tudo que precisam da ferramenta, ele já possui hoje uma série de
alarmes configurados nas grandes máquinas.
41
Figura 13 – Aspectos avaliados nas grandes máquinas pelo CMD da PETROBRAS (Elaboração Própria)
Como não encontraram uma única ferramenta que cobrisse todos esses
aspectos de acordo com a demanda do CMD, foi necessária uma combinação entre
elas. O funcionamento de cada uma e a composição das mesmas para atingir endereçar
essas três necessidades será descrito a seguir.
4.2.3.1. ETAPro
O ETAPro VirtualPlant é um produto de modelagem termodinâmica para avaliar
o monitoramento e o desempenho de usinas geradoras de energia.
Com ele é possível construir modelos baseados em princípios de usinas
termelétricas que são usados para validar os dados de medição, calcular o desempenho
esperado dos componentes com base nas condições operacionais reais, recomendar
pontos de ajuste ideais para maximizar a lucratividade e simular análises.
No gerenciamento de alarmes da ferramenta, mostrada no Apêndice B, quando
é marcada a ciência de cada tipo de aviso da monitoração, o ETAPro exporta esses
alarmes ou alertas para um outro banco de dados (Oracle), onde todo histórico é
mantido. Esse banco de dados é uma das principais fontes das ferramentas de business
intelligence utilizadas pelo CMD, ou seja, é através desses dados que o CMD endereça
a necessidade de informações sobre confiabilidade.
O ETAPro é então utilizado para monitorar a performance das máquinas, como
no Apêndice C, onde está representada uma turbina a gás da UTE Jesus Soares Pereira
(JSP) e seus componentes. Sendo assim, o pilar de desempenho é atendido pelo
ETAPro.
A principal maneira de monitorar desempenho das máquinas é através de
sensores. Através deles, é possível medir, por exemplo, as vibrações nos mancais das
turbinas. Esses sensores sísmicos transformam as grandezas físicas mecânicas em
sinais elétricos, assim, na medição, que é pico a pico, quanto maior a amplitude, maior
Condição
•A usina está operante?
Desempenho
•A geração está dentro do normal?
Confiabilidade
•Qual a probabilidade de falha?
•Manutenção necessária?
42
o sinal de vibração (em mm/s). Os sensores de proximidade medem a vibração no eixo
do mancal em micrometros (µm). Na figura 14 é possível visualizar onde ficam
localizados os sensores em um mancal.
Figura 14 – Mancal de deslizamento e localização dos sensores. Adaptado de:
http://www.ebah.com.br/content/ABAAAfV8kAG/elementos-maquinas-introducao?part=3. Disponível em
06/08/2017, às 23:04h.
A monitoração do desempenho das grandes máquinas tem como objetivo avaliar
se a quantidade de energia que essa máquina está gerando. Um gerador, por exemplo,
deve entregar uma energia na ponta do eixo próximo ao valor nominal da máquina. No
caso da turbina de gás do Apêndice C, esse valor nominal é 160 MW, enquanto a
geração no momento era de 145KW.
São diversos os fatores que influenciam nessa geração. O principal deles é a
temperatura de entrada (ambiente). Ainda no Apêndice C é possível ver a eficiência da
máquina (Heat Rate), ou seja, a quantidade de combustível gasta para gerar essa
quantidade de energia (em KJ/KWh, ou watts). Sendo assim, quanto menor esse valor,
mais eficiente a máquina está.
O ETAPro provê informações para estudo de desempenho, que é interpretado a
a partir de conhecimentos práticos, não definidos pela ferramenta. O Apêndice D mostra
uma linha histórica da relação de pressão da turbina a gás do Apêndice C. Essa linha
mostra que quão maior é a geração (gross generation) dessa turbina, maior a pressão
na mesma, o que pode levar a uma falha. O CMD definiu, para esse estudo, indicadores
de eficiência das máquinas, como potência, razão de compressão, temperatura de gás
43
e exaustão, além dos indicadores implícitos (técnicos), como as vibrações e temperatura
ambiente.
4.2.3.2. OPEN Predictor
Escutar e interpretar os ruídos emitidos pelas máquinas é fundamental para obter
informações sobre necessidade de manutenção. Esse processo é conhecido como
análise de vibrações e se torna cada vez mais necessário na evolução do processo de
manutenção.
As forças dinâmicas geradas pelas máquinas possuem taxas de variação. Essas
forças alteram o nível de vibração das máquinas, que pode ser medido em pontos
acessíveis, sem interromper o funcionamento da mesma. Se ocorrer uma falha, a taxa
de variação se destacará do padrão.
Assim é possível detectar se, por exemplo, existir um desequilíbrio, um
desalinhamento ou danos no rolamento de uma máquina. Com ferramentas adequadas,
além de um diagnóstico exato, também é geralmente possível determinar se é
necessária uma intervenção urgente ou se é possível esperar até à próxima manutenção
programada. Para suprir essa necessidade, o CMD adotou uma nova ferramenta de
monitoração, o OPEN Predictor.
Os engenheiros do CMD definiram três pilares que precisavam monitorar, de
condição, desempenho e performance. Esses pilares podem ser representados de
forma geográfica por usina pelo OPEN Predictor, conforme exemplificado no Apêndice
E. Esses aspectos a serem monitorados estão representados em siglas na ferramenta:
• CM – Condição (condition)
• PM – Desempenho (performance)
• RM – Confiabilidade (reliability)
Nessa representação, basta uma ocorrência de nível mais grave para que todo
o aspecto seja representado por esse nível do parâmetro, ou seja, caso exista um alerta
de condição para uma das usinas, o aspecto de condição dessa usina ficará amarelo.
Como dito anteriormente, como os aspectos de desempenho e confiabilidade possuíam
melhores recursos no ETA Pro, o CMD utiliza no OPEN Predictor apenas os alarmes
respectivos a condição, conforme Apêndices F e G.
Na representação de condição do Apêndice F da UTE Rômulo Almeida são
mostrados o estado operacional, a carga elétrica gerada e a temperatura de exaustão
de cada máquina. As turbinas à vapor são representadas pela sigla ST (Steam Turbine)
e as turbinas a gás estão representadas pela sigla GT (Gas Turbine). Já no Apêndice
44
G está representado o detalhe (drill down) de uma das turbinas, com os seus respectivos
mancais (quadrados), gerador (círculo) e a própria turbina (em azul).
Assim, o OPEN Predictor é utilizado para análise em tempo real de como estão
as máquinas, gerando alarmes, baseados em variáveis quantitativas, dentre elas,
principalmente, o valor de vibração de mancais e a temperatura e nível de óleo nas
turbinas.
Os alarmes enxergam cada variável de processo proveniente do EtaPRO,
analisam o comportamento da variável e geram intervalos padrão. Quando a variável
extrapola um dos limites desse intervalo, a ferramenta emite um alerta (de cor amarela).
Quando a variável extrapola um certo alcance já fora do intervalo que leva certamente
a uma falha, um alarme (de cor vermelha) é exibido no painel de monitoramento.
Quando existe alguma inconsistência nos dados, como por exemplo, um comprimento
negativo, que é impossível, essa inconsistência (erro de dado) é marcado de azul.
Por exemplo, mancais de rolamento estão acoplados a uma turbina do parque
gerador. Essa turbina, por especificação do fabricante, possui um parâmetro de
vibração. No Open Predictor, a equipe técnica do CMD configura uma variável de
vibração com um alerta associado, já que é possível medir a vibração nos mancais
acoplados à turbina sem impactar o funcionamento da mesma. Quando um alerta é
emitido, significa que a vibração dessa turbina está fora do parâmetro e os técnicos
mecânicos do parque gerador podem investigar o problema.
Esse seria um exemplo de alerta da aba de Operações (Operations), conforme
exposto na Figura 11 a seguir. A representação do gráfico de vibração (rotações por
minuto – RPM) em um mancal de rolamento com os limites de alerta (linha amarela) e
alarme (linha vermelha) está no Apêndice H. Esse detalhe em gráfico é obtido a partir
das condições apresentadas na representação esquemática da turbina do Apêndice C,
clicando sobre o mancal ou qualquer outro componente da turbina.
O ideal é trabalhar sempre nos níveis de alertas, pois ainda seria considerada
uma manutenção preventiva, visto que a máquina está apresentando sinais de que vai
falhar, mas ainda não falhou, nesse caso. Quando não são realizadas as ações
necessárias de acordo com os alertas, o alarme é disparado e será necessária uma
manutenção corretiva, visto que já terá ocorrido falha. As manutenções indicadas, de
acordo com a mesma classificação, estão situadas na aba de Manutenção
(Maintenance).
Os alarmes e alertas da aba de Manutenção são programados através de um
arranjo de duas ou mais variáveis quantitativas (série de decisões lógicas – “se(s)” –
que definem qual a lógica de manutenção. Algumas das medidas utilizadas como
45
variáveis quantitativas para monitoração de manutenção estão descritas no Apêndice I.
Nesse exemplo estão descritas as medidas analisadas nas Turbinas de Gás (Gas
Turbine) para Auto Diagnóstico, que será descrito em seguir.
Figura 15 – Tela principal da ferramenta OPENPredictor. Fonte: Foto de tela do CMD, PETROBRAS.
O Auto Diagnóstico (AutoDiagnosis) é baseado em programação interna da
ferramenta, que identifica tendências nos sintomas das máquinas. Por exemplo, se de
acordo com a programação da ferramenta, toda vez que o balanceamento do rotor (rotor
balance) de uma máquina está dentro de um intervalo no qual a máquina já falhou várias
vezes, de acordo com o cálculo da ferramenta, ela também gera alarmes (em vermelho),
alertas (em amarelo) e avisos (ícone de exclamação). A PETROBRAS utiliza apenas o
autodiagnostico instantâneo, já que o histórico utiliza muitas informações e os cálculos
realizados pela ferramenta não são confiáveis. Ainda assim, por analisar somente uma
variável para cada cálculo, o autodiagnostico é útil, porém não é confiável também, pois
não considera a influência de variáveis cruzadas.
Os alertas e avisos de Confiabilidade (Reliability) emitidos pelo OPEN Predictor
baseiam-se em cálculos para dizer se a máquina está funcionando ou não. A ferramenta
não mostra de forma intuitiva a razão da máquina ter parado (se a parada foi
programada, se foi manual, acidental, etc), mas ela mantém um histórico dessas
informações. Assim é possível gerar um relatório de gerenciamento diário de
confiabilidade por máquina (Reliability Daily Manager - RDM), que exibe uma lista das
falhas dessa máquina, o tempo de inatividade (downtime) da mesma e a causa raiz de
cada falha. Um exemplo desse relatório de confiabilidade está representado no
Apêndice J e a lista de downtime está exemplificada no Apêndice K.
Porém, devido às limitações dos relatórios (que podem ser emitidos apenas por
máquina, e não da usina inteira, por exemplo), a PETROBRAS utiliza hoje o ETA-Pro
para confiabilidade e também para monitoração de desempenho (performance),
conforme citado anteriormente.
46
4.2.3.3. Spotfire
Esses indicadores são desenvolvidos pelo Centro de Operações de Energia
(COE), que oferece para os operadores do sistema elétrico locais uma visão geral do
parque gerador da PETROBRAS. Ele funciona de forma integrada com a Operadora
Nacional do Sistema Elétrico (ONS).
O Spotfire surgiu como uma ferramenta de monitoração que integra as
informações provenientes do ETAPro e OPEN Predictor de forma clara e objetiva. Essa
se tornou uma ferramenta fundamental para o projeto do Parque Gerador em Tempo
Real (PGTR) que visou a disponibilização da visão em tempo real do parque para a
ONS. Todas as informações (alertas, alarmes, características, valores dos sensores,
etc) foram mineradas e importadas para uma base de dados num servidor local. As
informações mais importantes importadas foram:
• Classificação das paradas
• Causas raiz das falhas
• Indicadores das grandes máquinas
• Eficiência energética
No Apêndice L está um dos dashboards do Spotfire utilizado no PGTR. Nele é
possível verificar a gestão de alarmes e alertas, separados por usina, tipo máquina (UG,
que significa unidade geradora), contendo também a descrição do alarme ou alerta
(temperatura, vibração, pressão, elétrica) e o valor desses indicadores. Além disso, o
COE criou visões resumidas de alertas e alarmes por dia e de geração de cada usina,
para comparação da eficiência energética, endereçando parcialmente o aspecto de
confiabilidade demandado pelo CMD.
4.2.4. Plano de Excelência Operacional
Com o objetivo de aumentar a eficiência das usinas foi criado o Plano de
Excelência Operacional (PAEX), através da diminuição da ocorrência de falhas, fator
que afeta mais e diretamente a eficiência das usinas. Visando o aumento da eficiência,
os gestores das usinas receberam indicadores padronizados a serem atingidos de, entre
outros: disponibilidade do parque gerador por usina; de execução de manutenção; e de
execução de ordens (manutenções ainda por fazer).
Para viabilizar esse controle, além dos dados obtidos através dos sensores, os
operadores das usinas passaram a inserir informações detalhadas em livros eletrônicos.
O objetivo desse registro foi obter recomendações por meio de relatórios, pela Gerência
de Suporte à Operação. As usinas já recebiam relatórios em intervalos regulares, mas
47
não havia acompanhamento das recomendações propostas no relatório pela gestão de
manutenção da usina.
Dessa forma, cada ação gerada pelos alertas, alarmes e identificação de causa
raiz através das ferramentas de monitoração passou a ser acompanhada, com um
detalhamento de tarefas, seu status e o respectivo responsável. Além disso, os gerentes
das usinas passaram a possui indicadores baseados no cumprimento dessas ações. O
banco de falhas passou a hospedar também esse Livro de registro e indicadores e
disponibilidade.
O PAEX visava, além disso, implementar uma metodologia contínua de
aprendizado sobre as falhas para evitar que elas ocorressem, usando métodos já
consagrados de engenharia de manutenção. Uma vez encontrada a causa raiz, o
objetivo passou a persegui-la para que não aconteça de novo. Porém, esse método se
provou pouco eficiente, visto que as causas raiz variam e às vezes não é só um fator,
mas sim uma combinação de fatores que levam uma máquina a falhar.
4.2.5. Resultados obtidos e evolução da solução
Com a implementação dessas três ferramentas, o CMD disponibilizou a
monitoração do desempenho energético de 20 usinas termelétricas e suas grandes
máquinas, além de uma visão consolidada para o parque gerador. Essas
implementações permitiram o monitoramento da eficiência energética em tempo real no
COE e a criação de um novo procedimento operacional para registro e tratamento de
desvios de eficiência energética.
A configuração de alarmes para os desvios entre a eficiência realizada e a
esperada possibilitou a identificação rápida dos desvios de eficiência e maior agilidade
na correção desses desvios, reduzindo então as perdas energéticas nas usinas.
Porém, ainda que a monitoração das usinas tenha evoluído muito com essas três
ferramentas e possibilitado a identificação e correção da causa de algumas falhas
recorrentes, o OPEN Predictor mostra alarmes e alertas que são consequências das
falhas, enquanto do ETAPro auxilia na investigação de performance e causa raiz das
falhas. Para ter realmente excelência operacional, a PETROBRAS ainda tinha a
necessidade um tratamento efetivo para evitar as falhas das máquinas das usinas.
Com todos os dados dos alertas e alarmes e falhas relacionados, bem como
suas respectivas causas raiz, é possível, aplicando um modelo de machine learning,
aprender com esse histórico de falhas e prever quando uma falha ocorrerá, de forma
que seja possível realizar uma manutenção preditiva, otimizando os recursos
disponíveis nas usinas termelétricas do parque gerador da PETROBRAS.
48
5. MANUTENÇÃO PREDITIVA NAS USINAS TERMELÉTRICAS
Os motores das turbinas de geração a gás ou vapor utilizadas nas usinas
termelétricas da PETROBRAS são peças normalmente sensíveis e caras. Como já visto
no capítulo anterior, soluções de manutenção para usinas geradoras de energia exigem
gerenciamento cuidadoso de disponibilidade das máquinas do parque gerador.
A capacidade de reunir inteligência sobre confiabilidade da máquina leva a uma
significativa redução de tempo em que a máquina fica inoperante, pois permite ao
operador fazer a manutenção proativa da máquina antes que ela falhe, reduzindo
consequentemente os custos da operação.
UZ (2017) afirma que os dados para problemas manutenção preditiva se
resumem, basicamente, aos seguintes componentes:
• Histórico de falhas de uma máquina ou componente dentro da máquina;
• Histórico de manutenção de uma máquina (códigos de erro, atividades
de manutenção anteriores ou substituições de componentes);
• Condições e uso da máquina, contendo dados de operação contínua
(dados coletados de sensores);
• Características da máquina, seus recursos (tamanho do motor, marca
e modelo, localização);
• Recursos do operador, como por exemplo gênero ou experiência
passada.
O CMD já possui todos esses dados, eles só precisam ser integrados e
conectados à um modelo de machine learning, para começarem a se beneficiar das
informações para manutenção preditiva.
A seguir será proposto um modelo de Machine Learning que pode ser aplicado
aos dados do PI System (onde ficam os dados dos sensores localizados nas máquinas)
e do Banco de Falhas do CMD, para prever falhas nas grandes máquinas, ou seja,
prever se uma máquina vai ou não falhar, antes que isso aconteça.
49
5.1. Modelo de Machine Learning
Para criar um modelo de machine learning será utilizado o Azure Machine
Learning Studio9, que é uma ferramenta gratuita na web para criação, treinamento,
validação e avaliação de modelos, utilizando computação em nuvem.
Por motivos de confidencialidade dos dados, a PETROBRAS não disponibilizou
a lógica de indicadores utilizados nem os dados históricos de uma turbina para que
fizéssemos um estudo real. Por esse motivo, serão utilizados, para esse modelo, dados
disponíveis no Repositório de Machine Learning da Universidade da Califórnia10 (Irvine)
– UCI, que são dados reais de sensores na monitoração do processo de produção de
um semicondutor11.
Esse conjunto de dados possui 1567 amostras de 591 sensores, onde ocorreram
104 falhas, representadas de forma que “-1” significa que ocorreu uma falha depois
dessa observação e antes da observação seguinte, enquanto “1” significa que nada
ocorreu. Esse conjunto de dados também possui ruídos, ou seja, dados irrelevantes,
como é o caso de alguns sensores, bem como dados ausentes que foram preenchidos
como “NaN”.
A escolha desse conjunto de dados especificamente foi por ele ter todas as
informações que precisamos para a criação do modelo de manutenção para prever se
as máquinas das usinas termelétricas do parque gerador da PETROBRAS vão falhar
com base nas informações históricas de falha, condição e uso das máquinas. São elas:
• Medidas dos sensores ao longo do tempo
• Detecção ou não de falha na medição correspondente
O procedimento de criação do modelo foi baseado em NOGARE & ZAVASCHI
(2016, p90-132), começando pela identificação do problema, que é prever se uma
máquina vai falhar. Para ter um experimento organizado, foi criado um novo projeto no
Azure ML Studio, onde foram colocados todos os componentes desse modelo.
9 Azure Machine Learning Studio. Disponível em <https://studio.azureml.net>. Acesso em 02 ago. 2017.
10 UCI Machine Learning Repository. Disponível em <http://archive.ics.uci.edu>. Acesso em 10 ago. 2017.
11 SECOM Data Set. Disponível em <http://archive.ics.uci.edu/ml/datasets/SECOM>. Acesso em 10 ago.
2017.
50
Figura 16 – Criação do projeto no Microsoft Azure Machine Learning Studio. Fonte: Elaboração Própria
Com o conjunto de dados do semicondutor já baixados, foi feito o carregamento
(upload) dele na aba Datasets (Conjunto de Dados).
Figura 17 – Importando um novo dataset (conjunto de dados). Fonte: Elaboração Própria
Com a coleta de dados realizada, foi
criado um novo experimento “Modelo de
Manutenção Preditiva”, onde será feito o
desenho do modelo, incluindo a parte de pré-
processamento de dados, incluindo a limpeza
dos mesmos, ou seja, a remoção de ruídos,
valores nulos, ou ainda variáveis redundantes
ou altamente correlacionadas, para que não
seja necessário o uso dos dados de todos os
591 sensores.
Figura 18 – Descrição do dataset importado.
Fonte: Elaboração Própria
51
Figura 19 – Criação e visão inicial do experimento. Fonte: Elaboração Própria
Para remover os recursos desnecessários para a criação do modelo foi usado o
módulo de Seleção de Colunas (Select Cloumns in Dataset), onde é possível, por nome
ou por regra, excluir ou incluir as colunas de interesse. No nosso caso, a coluna
“Timestamp” foi removida por não trazer dados referentes a nenhum dos sensores nem
da ocorrência de falha, que é o que interessa para a previsão buscada. Essa coluna
poderia ser utilizada caso o objetivo fosse criar um modelo para prever quando a falha
irá acontecer, mas conforme citado no item 3.4.3., seria necessário um conjunto de
dados muito maior para isso.
Figura 20 – Seleção de colunas do dataset. Fonte: Elaboração Própria.
52
Em seguida, conectando o módulo de Purificador de Dados Ausentes (Missing
Values Scrubber), ele faz a remoção dos
valores em que não aparecem os valores
da observação (representados como
“NaN”, conforme citado anteriormente),
por 0, ou qualquer outro valor
especificado, normalizando então o
conjunto de dados. Além disso, é possível
ainda explorar os dados do módulo
Missing Values Scrubber (Purificador de
Valores Ausentes), inserindo o módulo de
Funções Estatísticas (Statistic Functions).
Figura 22 – Visualização dos resultados do dataset após purificação. Fonte: Elaboração Própria.
Para identificar recursos importantes no dataset, utilizamos o módulo Seleção de
Recursos com Base em Filtros (Filter Based Features Selection), que identifica os
recursos (no caso, os sensores) com o maior poder preditivo no conjunto de dados
utilizado. Assim, os sensores que não tem informações pertinentes ao modelo de
previsão já são eliminados. Quando o objetivo do módulo não é claro somente pelo título
do mesmo, é possível ver uma descrição no canto inferior direito do Azure ML Studio.
Figura 21 – Módulo de Purificador de dados. Fonte:
Elaboração Própria.
53
De acordo com a documentação do Azure Machine
Learning Studio12, o escore de informação mútua é
particularmente útil na seleção de características porque
maximiza a informação mútua entre a distribuição conjunta
e as variáveis de destino em conjuntos de dados com
muitas dimensões, como caso desse, que possui 591. Esse
módulo foi usado para selecionar apenas os 20 sensores
com informações mais relevantes, selecionando a coluna
alvo “Yield_Pass_Fail”, que é a coluna que indica se houve
falha para aquela amostra.
Com os dados já processados e limpos, o próximo
passo é treinar o modelo. Como esse conjunto de dados é
pequeno e limitado, esse conjunto foi dividido através do
módulo de Divisão (Split), onde 80% dos dados serão
utilizados para treinar o modelo e 20% para validá-lo depois
de treinado.
Nesse estudo de caso, como o interesse é prever
se ocorre ou não uma falha dada a amostra,
classificaremos o problema em duas classes: Falha e
Não-Falha. Por isso, um dos modelos aderentes a esse
problema é Árvore de Decisão Reforçada de Duas
Classes (Two Class Boasted Decision Tree), que cria
um classificador binário usando um algoritmo de árvore
de decisão reforçada (já pronto). Todas as
classificações possíveis para o modelo estão
disponíveis na Documentação sobre Classificação do
Azure Machine Learning13.
12 Documentação sobre Recursos do Azure Machine Learning Studio. Disponível em
<https://msdn.microsoft.com/en-us/library/azure/dn913071>. Acesso em 11 ago. 2017.
13 Documentação sobre Classificação no Azure ML Studio. Disponível em
<https://msdn.microsoft.com/library/en-us/Dn905808.aspx >. Acesso em 11 ago. 2017.
Figura 23 – Módulo de
Seleção de Recursos com
Base em Filtros. Fonte:
Elaboração Própria.
Figura 24 – Módulo de
Divisão de dados. Fonte:
Elaboração Própria.
54
Figura 25 – Módulo de Classificação de Árvore de Decisão Robusta de Duas Classes. Fonte: Elaboração
Própria.
Por não saber quais os melhores parâmetros para essa classificação, será
utilizado o modo de treinamento Intervalo de Parâmetro14 (Parameter Range), com os
padrões propostos no modelo. Esses parâmetros podem ser revisitados e modificados
caso o modelo não se mostre confiável na avaliação.
O módulo de treino (Train Model) é conectado tanto ao Modelo de Classificação
como à parte do conjunto de dados destinada ao treino (os 80%). A coluna que deve
ser treinada é a de identificação de falha (Yield_Pass_Fail).
Figura 26 – Módulo de Treino do modelo. Fonte: Elaboração Própria.
14 Documentação sobre Definição de Parâmetros no Azure ML Studio. Disponível em
<https://msdn.microsoft.com/library/azure/e3c522f8-53d9-4829-8ea4-5c6a6b75330c>. Acesso em 10
ago. 2017.
55
Depois disso, já é possível treinar o modelo para posterior avaliação, com a outra
parte do conjunto de dados (os 20% separados com o módulo de Divisão). Os 80% dos
dados treinados foram conectados ao módulo de Pontuação (Score), bem como os 20%
dos dados sem treinamento, para ver se com o treino, o modelo acerta em quais
amostras ocorreram falhas. O módulo de Avaliação (Evaluation) foi conectado ao
módulo de Pontuação para verificar a acuracidade e precisão do modelo, além das
amostras em que houve ou não acerto da previsão.
Figura 27 – Pontuação e Avaliação do Modelo. Fonte: Elaboração Própria.
Ao término da execução do modelo, é possível visualizar os resultados da
avaliação. Ao visualizar o resultado, é possível acompanhar a curva de Falso Positivo x
Verdadeiro Positivo, além a acurácia e precisão do modelo.
Figura 28 – Resultados da avaliação do modelo criado. Fonte: Elaboração Própria.
O resultado da previsão foi acurado, mas impreciso. Ele pode ser melhorado
através da mudança dos parâmetros utilizados no modelo, ou mesmo treinando um
modelo baseado em outra classificação dentre as disponíveis, comparando então os
treinos e eliminando o algoritmo perdedor (que teve pior resultado).
O modelo finalizado foi salvo para poder ser utilizado de fato para análise
preditiva de manutenção. Para disponibilizar o modelo pra uso é necessário criar um
novo experimento, que foi nomeado “Previsão de Falha”. Nesse experimento, o primeiro
componente a ser utilizado é o modelo treinado salvo, que é conectado Modelo de
Pontuação, que por sua vez recebe os dados externos em lote (aqui foi utilizado
56
novamente o mesmo dataset, retirando dele a coluna que queremos prever:
“Yield_Pass_Fail”).
Para colocar o modelo em produção basta criar um novo experimento, onde o
experimento “Modelo de Manutenção Predtiva” salvo que é conectado no mesmo
Módulo de Pontuação que um pacote de dados (batch). Como não temos outros dados
dos mesmos sensores disponíveis, foi utilizado o mesmo dataset que na criação do
modelo. Depois de passar pelo modelo de manutenção preditiva, o resultado do módulo
de Pontuação, que é uma tabela com as previsões de falha ou não-falha, é exportado
através do módulo Exportar Dados (Export Data) e pode ser consumido por ferramentas
de business intelligence, por exemplo. O modelo completo pode ser consultado no
Apêndice M.
Figura 29 – Utilização do modelo para um lote (batch) de dados. Fonte: Elaboração Própria.
Para disponibilizar este modelo para utilização em tempo real, foi criado um novo
experimento semelhante ao anterior, mas com conexão a um Serviço Web (Web
Service), que pode ser uma aplicação, por exemplo. Essa aplicação entra com os dados
da amostra em tempo real (ou em lotes, conhecido como batch) no modelo, que é
executado e exporta para a aplicação o resultado da previsão, ou seja, se a máquina
vai ou não falhar.
57
Figura 30 – Utilização do modelo de análise de manutenção preditiva com Web Service em tempo real.
Fonte: Elaboração própria.
Nesse novo experimento para análise preditiva de manutenção em tempo real,
o modelo treinado salvo é conectado ao Modelo de Pontuação, que por sua vez recebe
os dados externos do web service. Esses dados são disparados contra o modelo
treinado e tem como saída para o webservice a previsão de Falha ou Não-Falha.
Assim, fica claro que é possível criar um modelo de manutenção preditiva com
uso de machine learning sem necessidade de conhecimentos mais profundos de
desenvolvimento. No Azure Machine Learning Studio todos os componentes
necessários para criação do modelo estão disponíveis em módulos, com algoritmos por
trás dos mesmos, que podem ser utilizados de maneira intuitiva, mesmo sem o
conhecimento profundo sobre a solução.
É claro que quanto maior o histórico, mais preciso é o modelo e quanto mais
modelos de classificação forem comparados, mais certo de estar usando o melhor
algoritmo possível você estará. Além disso, com dados de tempo (data, hora, minutos)
contínuos é possível criar modelos preditivos que calculam não só a probabilidade de
falha ou não-falha, mas também prever quanto tempo resta antes da próxima falha, ou
seja, a vida útil restante da máquina.
5.2. Modelo de Data Warehouse
Com a aplicação do modelo de machine learning, utilizando dados em tempo
real, o data warehouse do CMD da PETROBRAS teria uma arquitetura semelhante à
Figura 31.
58
Figura 31 – Modelo de Data Warehouse proposto. Fonte: Elaboração Própria.
Nesse esquema é possível visualizar como todas as ferramentas e conceitos
apresentados nesse trabalho se integram. Uma parte dos dados é importada e
transmitida em tempo real, ou seja, os provenientes dos sensores das máquinas das
usinas. A outra parte são dados operacionais e históricos, como o PI System.
Para armazenar os dados no seu formato bruto, seria necessário um data lake,
assim esses dados ficam disponíveis para qualquer interessado na PETROBRAS fazer
análises sobre eles. Com essa estrutura é possível trabalhar com big data e o modelo
de manutenção preditiva criado, conectados ao data warehouse.
No data Warehouse os dados são limpos e organizados e também ficam
disponíveis para análise depois do armazenamento. Além disso, outros bancos
importam e exportam dados para o data warehouse, como o Banco de Falhas e o PI
System.
Com o modelo in memory é possível realizar o processamento de transações e
análises em pararelo, para permitir trabalhar com grandes volumes de dados
processados rapidamente. As informações pós processamento de análise e também os
dados brutos do data lake podem ser então utilizados para construir relatórios em tempo
real, inclusive análises preditivas com as informações provenientes do machine learning,
além das ferramentas de monitoração já utilizadas pelo CMD.
59
6. CONCLUSÃO
Os avanços tecnológicos têm impulsionado aumentos dramáticos na
produtividade industrial desde o início da Revolução Industrial. Esse moviemnto tornou-
se mais dinâmico na quarta onda dessa revolução, com o surgimento da nova
tecnologia industrial digital conhecida como Indústria 4.0, uma transformação que é
alimentada por avanços tecnológicos que dão cada vez mais inteligência ao negócio
para tomada de decisões em diversos níveis de uma organização.
Esse estudo apresentou alguns desses avanços, como big data e recursos de
análise, como o machine learning, que geram informações valiosas para as ferramentas
de business intelligence. A análise baseada em grandes conjuntos de dados (datasets),
que é o principal objetivo das ferramentas de big data, como o Hadoop, emergiu
recentemente no mundo da fabricação, visando otimizar a qualidade da produção,
economizar energia e melhorar o serviço de equipamentos.
No contexto da transformação digital das indústrias, a coleta e avaliação
abrangente de dados de diversas fontes - equipamentos e sistemas de produção, bem
como sistemas de gestão empresarial e de clientes – estão se tornando padrão para
suportar a tomada de decisões em tempo real. Um dos processos que pode ser
melhorado significativamente com a coleta desses dados é o de manutenção, já que
atualmente temos disponíveis ferramentas mais robustas no back-end, que tornam a
utilização mais simples e intuitivas no front-end, além de poder de processamento
computacional muito mais evoluídos para fazer análises de manutenção preditiva em
máquinas e equipamentos.
A PETROBRAS, empresa cuja operação e sistemas de monitoração foram
analisados nesse estudo, não foge a esse caminho de transformação digital. O Centro
de Monitoramento e Diagnóstico (CMD) junto ao Centro de Operações de Energia
(COE) já possuem os dados necessários para dar inteligência aos processos de
manutenção, mas ainda não aplica esses dados como deveria, se atentando mais à
monitoração e tratamento das causas das falhas ocorridas, aplicando manutenções
preventivas e corretivas. A empresa possui potencial e motivadores para implementação
de processo de manutenção mais robustos e eficientes e ainda não os utiliza.
Foi introduzido o conceito de manutenção preditiva e quais os meios para
implementá-lo, além dos requisitos de dados para criar as análises preditivas. Para fazer
manutenção preditiva, é necessário ter sensores nas máquinas para monitorar e coletar
dados sobre suas operações, sensores que as turbinas das termoelétricas da
PETROBRAS já possuem. Os dados para manutenção preditiva são basicamente
60
dados de séries temporais, que incluem um carimbo de data/hora, um conjunto de
leituras de sensores coletadas ao mesmo tempo que esses carimbos e os
identificadores do dispositivo.
Foi apresentado um modelo de machine learning que prevê se ocorrerá ou não
uma falha (através de algoritmos já criados e disponíveis para uso), com base em dados
de sensores que não são os da PETROBRAS, que, por motivos de confidencialidade,
não foi possível utilizar. O conjunto de dados utilizado, extraído de uma biblioteca on-
line, já estava estruturado, apesar de não estar limpo. Porém, o modelo criado pode ser
adaptado, mudando apenas o conjunto de dados importados e, caso o mesmo não
esteja estruturado, necessitará de estruturação prévia.
O modelo de manutenção preditiva apresentado previu a probabilidade de falha
prevista nas próximas etapas 94% de acurácia, porém a precisão foi de apenas 40%.
As análises preditivas requerem uma quantidade significativa de dados de treinamento
que incluam bastante cenários de falha, que não era o caso do dataset utilizado (que
tinha apenas 1567 observações com ocorrência de 104 falhas). Como as falhas são
raras, as coleta de dados podem demorar muito. Porém, isso não seria um obstáculo
significativo para a aplicação desse modelo de manutenção preditiva para o CMD da
PETROBRAS, visto que eles já possuem um Banco de Falhas, além dos dados dos
sensores que ficam no PI System.
É importante ainda testar outros modelos de classificação para aprimorar o
experimento, bem como utilizar uma base de dados maior e, de preferência, com
intervalos de medições constantes e dados do horário da medição dos sensores, para
que seja possível prever a vida útil restante (tempo até a próxima falha).
Foi possível ver que existem ferramentas no mercado, como o Azure Machine
Learning Studio, com as quais é possível criar modelos e análises preditivas com
conhecimentos básicos de lógica e programação, desmistificando o mundo de ciência
de dados, já que hoje algoritmos em seu estado da arte já se encontram disponíveis
para consumo.
Como o trabalho se baseou no estudo e otimização das atividades de
manutenção preditiva das grandes máquinas de usinas termelétricas da PETROBRAS,
primeiramente foi estudado o processo de manutenção da empresa, que é baseado nos
pilares de condição, desempenho e confiabilidade. Em seguida foi feita uma
comparação com as ferramentas disponíveis no mercado atualmente e os possíveis
ganhos com uso dessas ferramentas.
Através da avaliação dos métodos utilizados pelo CMD, foram identificadas
oportunidades de melhoria nos processos de manutenção existentes, já que são
61
realizadas manutenções que levam em conta a condição (manutenção corretiva) e o
desempenho (manutenção preventiva) das máquinas, mas não existe ainda uma prática
de manutenção que enderece as necessidades de confiabilidade. Através da
implementação de novas técnicas e soluções ainda não utilizadas (como o machine
learning), o CMD pode desenvolver uma prática de manutenção preditiva.
Foram considerados resultados deste trabalho, além da avaliação dos dados
coletados sobre monitoração das usinas termelétricas, a sugestão do modelo de
machine learning para manutenção preditiva, mesmo que não tenha sido possível a sua
implementação dentro do período de desenvolvimento e aplicação deste trabalho, mas
que possam ser aplicadas futuramente, inclusive incluindo no modelo a previsão de
quando acontecerá a falha.
O modelo sugerido dever ser então aprimorado, para que possa ser efetivamente
utilizado no planejamento e execução de manutenções em máquinas industriais, em
outros setores industriais além do caso apresentado, para usufruto dos benefícios
apresentados ao longo do estudo, como reduções de custo e aumento de
disponibilidade das máquinas.
Por fim, foi possível concluir que a detecção de falhas em turbinas de usinas
termelétricas, por machine learning, é uma técnica válida e promissora para prever a
ocorrência ou não de falha, mas que precisa ser amadurecida e utilizada com conjuntos
de dados suficientemente grandes com muitas ocorrências de falhas, para que o modelo
fique mais “treinado”, e, portanto, aprimorando sua precisão.
62
7. REFERÊNCIAS BIBLIOGRÁFICAS
AFFELDT, F. S., JUNIOR, S. D. S., 2013, “Information architecture analysis using
business intelligence tools based on the information needs of executives”. Journal of
Information Systems and Technology Management, v.10, n. 2 (mai/ago), pp. 251-270.
ALPAYDIN, E., 2014. Introduction to machine learning. 3 ed. Massachusetts,
MIT Press.
ANEEL – Agência Nacional de Energia Elétrica. Disponível em
<http://www.aneel.gov.br>. Acesso em 14 jun. 2017.
BOSA, J. L., 2009, Sistema Embarcado para a Manutenção Inteligente de
Atuadores Elétricos. Dissertação de M.Sc., Programa de Pós-graduação em
Computação/UFRGS, Porto Alegre, RS, Brasil.
BOUÉE, C. E., 2015, “Digital Transformation Doesn’t Have to Leave Employees Behind”. Harvard Business Review. Disponível em <https://hbr.org/2015/09/digital-transformation-doesnt-have-to-leave-employees-behind>. Acesso em 5 jul. 2017.
BRASIL, Ministério de Minas e Energia, Empresa de Pesquisa Energética, 2015.
Plano decenal de expansão de energia 2024. Brasília, MME/EPE.
CAMEIRA, R. F.; BERNARDI, J. S. B.; SANTOS, L. F. A., 2017, “Indústria 4.0 e
Manutenção Preditiva”. SIMPOI. Disponível em
<http://www.simpoi.fgvsp.br/arquivo/2017/artigos/E2017_T00217_PCN54410.pdf>.
Acesso em 28/08/2017.
CARVALHO, A., 2013, “HANA: Convergence of OLTP and OLAP Analytics”.
Disponível em <https://blogs.sap.com/2013/08/07/hana-convergence-of-oltp-and-olap-
analytics/>. Acesso em 31 ago. 2017.
CEB, 2016. Digital Enterprise 2020: Challenges and Opportunities
for IT Leaders. CEB Global, CIO5765616SY N. Disponível em
<https://www.cebglobal.com/content/dam/cebglobal/us/EN/best-practices-decision-
support/information-technology/pdfs/CEB-TECH-Digital-Enterprise-2020-Challenges-
and-Opportunities-for-IT-Leaders.pdf>. Acesso em 15 jul. 2017.
CHO V., NGAI, E.W.T., 2003. “Data Mining for Selection of Insurance Sales
Agents”. Expert Systems, v. 20, n. 3 (Jul), pp. 123-132.
63
COATES, M., 2017, “Defining the Components of a Modern Data Warehouse”.
Disponível em <http://www.sqlchick.com/entries/2017/1/9/defining-the-components-of-
a-modern-data-warehouse-a-glossary>. Acesso em 27/08/2017
DEAN, J., 2014, Big Data, Data Mining and Machine Learning: Value Creation
for Business Leaders and Practitioners. 1 ed. Hoboken, Wiley.
DAVE, P., 2013, “Big Data – Buzz Words: What is MapReduce – Day 7 of 21”.
Disponível em < https://blog.sqlauthority.com/2013/10/09/big-data-buzz-words-what-is-
mapreduce-day-7-of-21/>. Acesso em 14 jun. 2017.
DEVI, M., 2017. “Top 6 big data tools to master in 2017”. Disponível em
<http://bigdata-madesimple.com/top-6-big-data-tools-to-master-in-2017/>. Acesso em 1
ago. 2017.
EDMEAD, M., 2016, “Digital transformation: Why it's important to your
Organization”, The IDG Contributor Network. Disponível em
<http://www.cio.com/article/3063620/it-strategy/digital-transformation-why-its-important-
to-your-organization.html>. Acesso em 14 jul. 2017.
EMC, 2014, “Big Data: Five tatics to modernize your data warehouse”.
Disponível em <https://www.emc.com/collateral/emc-perspective/h10915-ep-pdf-data-
warehouse-modernization.pdf>. Acesso em 27/08/2017.
EMERSON, 2014, “Data Center 2025: Exploring the Possibilities”. Emerson
Network Power. Disponível em
<http://www.missioncriticalmagazine.com/ext/resources/whitepapers/Data-Center-
2025-Report.pdf>. Acesso em 4 ago. 2017.
ESPOSITO, A., 2016, Perspectivas para o setor elétrico brasileiro nos
próximos 15 anos. BNDES, Rio de Janeiro, Mimeo.
ETAPRO. Disponível em <https://www.gpstrategies.com/solution/performance-
condition-monitoring-etapro. Acesso em 14 jun. 2017.
FORBES, 2015, “Betting on Big Data”. Forbes Insights. Disponível em <
https://images.forbes.com/forbesinsights/StudyPDFs/Teradata-BettingOnBigData-
REPORT.pdf>. Acesso em 20 jul. 2017.
64
FORRESTER, 2015. “Digital Transformation In The Age Of The Customer”.
Forrester Research, Inc. Disponível em <https://www.accenture.com/_
acnmedia/Accenture/Conversion-Assets/DotCom/Documents/Global/PDF/Digital_2/
Accenture-Digital-Transformation-In-The-Age-Of-The-Customer.pdf>. Acesso em 16 jul.
2017.
GIL, A. C., 2008, Métodos e técnicas de pesquisa social. 6 ed. São Paulo,
Atlas.
GIL, A. C., 2010, Como elaborar projetos de pesquisa. 5 ed. São Paulo, Atlas.
HAN, J.; KAMBER, M., Data Mining – Concepts and Techniques. 2 ed.
Waltham, Morgan Kaufmann.
HANDSCHIN, M., 2016, “Tableau Software for Data Visualization and
Analytics in Finance”. Disponível em <https://www.linkedin.com/pulse/tableau-
software-data-visualization-analytics-user-marina-handschin>. Acesso em 4 ago. 2017.
HINCHCLIFFE, D., 2016, “The digital transformation conversation shifts to
how”. Enterprise Web 2.0. Disponível em <http://www.zdnet.com/article/the-digital-
transformation-conversation-shifts-to-how/>.
IMPORT, 2017, “All the Best Big Data Tools and How to Use Them”.
Disponível em <https://www.import.io/post/best-big-data-tools-use/>. Acesso em 20 jul
2017.
INFORMATICA, 2016, “The State of Cloud Analytics 2016”. EMA, Deloitte &
Informatica. Disponível em <https://www.informatica.com/lp/the-state-of-cloud-
analytics-2016.html>. Acesso em 01 ago. 2017.
KANE, G. C., PALMER, D., PHILLIPS, A. N. et al, 2015, “Strategy, Not
Technology, Drives Digital Transformation”. MIT Sloan Management Review,
Deloitte University Press. Disponível em <http://sloanreview.mit.edu/projects/strategy-
drives-digital-transformation/>. Acesso em 15 jul. 2017.
KIMBALL, R., ROSS, M., 2013, “The Data Warehouse Toolkit: the definitive
guide to dimensional modeling”. 3 ed. Indianapolis, John Wiley & Sons.
65
LARSON, B., 2006, “Delivering Business Intelligence with MS SQL Server
2005”. 1 ed. Emeryville, McGraw-Hill.
LIBERT, B.; BECK, M.; WIND, Y., 2016, “How to Navigate a Digital
Transformation”. Haward Business Review. Disponível em
<https://hbr.org/2016/06/how-to-navigate-a-digital-transformation>; Acesso em 14 jul.
2017.
LINDEN, A., 2002, “Management Update: Data Mining Trends Enterprises
Should Know About”. Gartner Group. Disponível em
<http://www.bus.umich.edu/KresgePublic/Journals/Gartner/research/110600/110617/1
10617.pdf>. Acesso em 20 jul. 2017.
LOPEZ, J., 2016, “Building and Expanding a Digital Business Primer”.
Gartner Group. Disponível em <https://www.gartner.com/doc/3267726/building-
expanding-digital-business-primer>. Acesso em 16 jul 2017.
MCKINSEY, 2015, “The Internet of Things: Mapping the Value Beyond the
Hype". Disponível em
<http://www.mckinsey.com/insights/business_technology/the_internet_of_things_the_v
alue_of_digitizing_the_physical_world>. Acesso em 28/08/2017.
MIDDLETON, P., KOSLOWSKI, T., MCINTYRE, A., 2014, “Forecast Analysis:
Internet of Things, Endpoints and Associated Services, Worldwide, 2014 Update”.
Gartner Group. Disponível em <https://www.gartner.com/doc/2932021/forecast-
analysis-internet-things-endpoints>. Acesso em 17 jul. 2017.
MIKROYANNIDIS, A.; THEODOULIDIS, B., 2010, “Ontology management and
evolution for business intelligence”. International Journal of Information
Management, v. 30, n. 6 (Dez), pp. 559-566.
NOGARE, D., ZAVASCHI, T., 2016, Análise Preditiva com Azure Machine
Learning e R. São Paulo, B2U Editora.
NIU, G., YANG, B., PECHT, M., 2010, “Development of an Optimized Condition-
Based Maintenance System by Data Fusion Reliability-Centered Maintenance”.
Reliability Engineering and System Safety, v. 95, n.7 (Jul), pp. 786-796.
66
OLAVSRUD, T., 2015, “How to succeed at Digital Transformation”. The IDG
Contributor Network. Disponível em <http://www.cio.com/article/2998643/cio-role/how-
to-succeed-at-digital-transformation.html>. Acesso em 16 jul 2017.
ONS – Operador Nacional do Sistema Elétrico. Disponível em
<http://www.ons.org.br>. Acesso em 14 jun. 2017.
OTANI, M.; MACHADO, W. V., 2008, “A proposta de desenvolvimento de gestão
da manutenção industrial na busca da excelência ou classe mundial”. Revista Gestão
Industrial, v. 4, n.2 (Abr/Jun), pp. 1-16.
PEREIRA, A. P. G.; PUGA, F. P., 2016, “Infraestrutura no Brasil: ajustando o
foco”. Banco Nacional de Desenvolvimento Econômico e Social. Disponível em
<https://web.bndes.gov.br/bib/jspui/bitstream/1408/9914/1/TD_Infraestrutura__2016.pd
f>. Acesso em 02 ago. 2017.
PERERA, S., ALWIS, R., 2017, “Machine Learning Techniques for Predictive
Maintenance”. Disponível em <https://www.infoq.com/articles/machine-learning-
techniques-predictive-maintenance>. Acesso em 28 ago. 2017.
PETROBRAS – PETROLEO BRASILEIRO S.A.. Disponível em
<www.petrobras.com.br>. Acesso em 14 jun. 2017.
RAINARDI, V., 2008, Building a Data Warehouse – with examples in SQL
Server. 1ed. New York, Springer-Verlag.
SALLAM, R. L.; HOWSON, C.; IDOINE, C. J. et al, 2017, “Magic Quadrant for
Business Intelligence Analytics”. Gartner Group. Disponível em
<https://www.gartner.com/doc/3611117/magic-quadrant-business-intelligence-
analytics>. Acesso em 4 ago. 2017.
SCHWAB, K., 2016, “The Fourth Industrial Revolution: what it means, how
to respond”, World Economic Forum. Disponível em
<https://www.weforum.org/agenda/2016/01/the-fourth-industrial-revolution-what-it-
means-and-how-to-respond/>; Acesso em 14 jul. 2017.
SIMON, P., 2013, Too Big to Ignore: The Business Case for Big Data. 1ed.
Hoboken, Wiley.
67
SLACK, N.; CHAMBERS, S.; JOHNSTON, R., 2009, Administração da
Produção. 3 ed. São Paulo, Atlas.
SOUZA, Q., 2008, Metodologia e Desenvolvimento de um Sistema de
Manutenção Preditiva Visando à Melhoria da Confiabilidade de Ativos de Usinas
Hidrelétricas. Dissertação de M.Sc., Sistemas Mecatrônicos/UnB, Brasília, DF, Brasil.
SUMATHI, S., SIVANANDAM, S. N., 2006, Introduction to Data Mining and its
Appications, Berlin, Springer-Verlag, p. 400-403.
THEARLING, K., 2009, “An Introduction to Data Mining: Discovering hidden
value in your data warehouse”. Disponível em
<http://www.thearling.com/text/dmwhite/dmwhite.htm/>. Acesso em 19 jul 2017.
THOMPSON, W. J. J.; VAN DER WALT, J. S., 2010, “Business intelligence in
the cloud”. South Africa Journal of Information Management, v. 12, n. 1 (Dec), pp. 445-
450.
TOLMASQUIM, M. T., 2016, Energia Termelétrica: Gás Natural, Biomassa,
Carvão, Nuclear. 1 ed. Rio de Janeiro, EPE.
TURBAN, E.; SHARDA, R.; ARONSON, J. et al, 2009. Business Intelligence:
Um enfoque gerencial para a inteligência do negócio. 1 ed. Porto Alegre, Bookman.
UZ, F. B., 2017, “Guia Estratégico do Modelo de Solução do Cortana
Intelligence para a manutenção preditiva no setor aeroespacial e outras
indústrias”. Disponível em <https://docs.microsoft.com/pt-br/azure/machine-
learning/cortana-analytics-playbook-predictive-maintenance>. Acesso em 28 ago. 2017.
VERGARA, S. C., 2009, Projetos e relatórios de pesquisa em administração.
10 ed. São Paulo, Atlas.
VIANA, H. R. G., 2002, PCM - Planejamento e controle da manutenção. 1 ed.
Rio de Janeiro, Qualitymark.
WANG, J., 2008, Data WareHousing and Mining: Concepts, Methodologies,
Tools and Applications,Vol. 1. 1ed. Hershey, IGI Global.
WOODS, V., 2015, “Gartner Says It's Not Just About Big Data; It's What You
Do With It: Welcome to the Algorithmic Economy”. Gartner Group. Disponível em <
http://www.gartner.com/newsroom/id/3142917>. Acesso em 5 ago. 2017.
68
WU, L.; ALTO, P., BARASH, G. et. al, 2007, "A Service-oriented Architecture
for Business Intelligence". In: IEEE International Conference on Service-Oriented
Computing and Applications (SOCA), pp. 279-285.
69
8. ANEXOS
ANEXO A – Data Mining como um passo no processo de descobrimento do
conhecimento (Traduzido de Data Mining – Concepts and Techniques) 2 ed. p6.
70
ANEXO B – Funcionamento de uma usina termelétrica (ciclo combinado)
Fonte: Disponível em
<http://www.furnas.com.br/hotsites/sistemafurnas/magnify.asp?p=imagens/usina_term_comb.jpg&c>.
Acesso em 01 ago. 2017.
71
9. APÊNDICE
Apêndice A – Listagem das Usinas Termoelétricas da PETROBRAS
Apêndice B – Visão de ciência dos alertas, com descrições e medições das
usinas
72
Apêndice C – Aspectos monitorados da turbina de gás no EtaPRO
Apêndice D – Alarme para nível de pressão
73
Apêndice E – Open Predictor: Mapa Geográfico
74
Apêndice F – Open Predictor – Geração e Temperatura das Usinas
Apêndice G – Open Predictor
75
Apêndice H – Open Predictor – Gráfico de RPM com limites de alerta e alarme
76
Apêndice I – Fatores monitorados em Turbina de Gás
Apêndice J – Relatório de Confiabilidade da Disponibilidade das Máquinas
Usinas Termoelétricas
77
Apêndice K – Relatório de downtime em máquina específica
Apêndice L – Gerenciamento de Alarmes
78
APÊNDICE M – Proposta de Modelo de Manutenção Preditiva