uma aplicação da apredizagem por reforço na otimização da ...os dados coletados via o sistema...

78
UNIVERSIDADE DO RIO GRANDE DO NORTE FEDERAL UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E ENGENHARIA DE PETRÓLEO Uma aplicação da apredizagem por reforço na otimização da produção em um campo de petróleo Amanda Gondim de Oliveira Orientador: Prof. Dr. Jorge Dantas de Melo Co-orientador: Prof. Dr. Adrião Duarte Dória Neto Natal, RN, Janeiro de 2010

Upload: lamthuy

Post on 26-Jan-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE TECNOLOGIA

PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E ENGENHARIA

DE PETRÓLEO

Uma aplicação da apredizagem por reforço naotimização da produção em um campo de

petróleo

Amanda Gondim de Oliveira

Orientador: Prof. Dr. Jorge Dantas de Melo

Co-orientador: Prof. Dr. Adrião Duarte Dória Neto

Natal, RN, Janeiro de 2010

Page 2: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE TECNOLOGIA

PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E ENGENHARIA

DE PETRÓLEO

Uma aplicação da apredizagem por reforço naotimização da produção em um campo de

petróleo

Amanda Gondim de Oliveira

Orientador: Prof. Dr. Jorge Dantas de Melo

Co-orientador: Prof. Dr. Adrião Duarte Dória Neto

Dissertação de Mestradoapresentada aoPrograma de Pós-Graduação em Ciência eEngenharia de Petróleo da UFRN (área deconcentração: Automação na Indústria dePetróleo e Gás Natural) como parte dos re-quisitos para obtenção do título de Mestreem Ciência e Engenharia de Petróleo.

Natal, RN, Janeiro de 2010

Page 3: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

 

Page 4: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

Um sistema inteligente para o auxílio detomadas de decisões que visam à otimização da

produção em um campo de petróleo

Amanda Gondim de Oliveira

Dissertação de Mestrado aprovada em 27 de janeiro de 2010 pela banca examinadoracomposta pelos seguintes membros:

Prof. Dr. Jorge Dantas de Melo (orientador) . . . . . . . . . . . . . .. . . . . . DCA/UFRN

Prof. Dr. Adrião Duarte Dória Neto (co-orientador) . . . . . . .. . . . . . DCA/UFRN

Prof. Dr. Wilson da Mata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . DEE/UFRN

Prof. Dr. Francisco Chagas de Lima Junior . . . . . . . . . . . . . . . . .. . . . . . . . . UERN[Sutton & Barto 1998] [Russel & Norvig 1995] [Villanueva n.d.] [Almeida

2003] [da Silva 2006] [Nepomucemo 1997] [da MottaSalles Barreto 2008] [Bittencourt 1997] [de Araújo Cavalcante 2004] [Pedroso

1999] [Thomas 2001] [Rosa 2002] [Bianchi 2004] [Camponogara&Serra 2005] [de Lima Júnior 2005] [Valdivia 2005] [Almeida 2007] [de Oliveira 2006]

Page 5: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

Resumo

O objetivo da engenharia de reservatórios é o de gerenciar campos de produção de

petróleo de forma a maximizar a produção dos hidrocarbonetos obedecendo a restrições

físicas e econômicas existentes. A definição de estratégiasde produção é uma atividade

complexa por envolver diversas variáveis do processo. Deste modo, um sistema inteli-

gente, que auxilie na otimização das alternativas de desenvolvimento do campo, torna-se

bastante útil no dia-a-dia dos engenheiros de reservatórios. Este trabalho propõe o estudo

preliminar de um sistema inteligente de auxílio à tomadas dedecisões, no que diz respeito

à otimização de estratégias de produção em campos de petróleo. A inteligência desse sis-

tema será implementada por meio do uso da técnica de aprendizado por reforço, a qual

se apresenta como uma poderosa ferramenta em problemas de decisão multi-estágios. O

sistema estudado visa permitir que o especialista obtenha,em tempo hábil, a alternativa

ótima (ou quase-ótima) para o desenvolvimento de um campo depetróleo conhecido.

Palavras-chave: aprendizado por reforço, simulação matemática de reservatórios,

otimização da produção de petróleo.

Page 6: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

Abstract

The objective of reservoir engineering is to manage fields ofoil production in order

to maximize the production of hydrocarbons according to economic and physical res-

trictions. The deciding of a production strategy is a complex activity involving several

variables in the process. Thus, a smart system, which assists in the optimization of the

options for developing of the field, is very useful in day-to-day of reservoir engineers.

This paper proposes the development of an intelligent system to aid decision making, re-

garding the optimization of strategies of production in oilfields. The intelligence of this

system will be implemented through the use of the technique of reinforcement learning,

which is presented as a powerful tool in problems of multi-stage decision. The proposed

system will allow the specialist to obtain, in time, a great alternative (or near-optimal) for

the development of an oil field known.

Key-words: reinforcement learning, reservoir simulator, optimization of oil produc-

tion.

Page 7: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

Sumário

Sumário i

Lista de Figuras iii

Lista de Tabelas v

Lista de Símbolos e Abreviaturas vi

1 Introdução Geral 1

1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Campos Inteligentes e o Processo de Tomada de Decisão . . . .. . . . . 3

1.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5 Revisão Bibliográfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.6 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 O Problema da Aprendizagem por Reforço 8

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Fundamentos Matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.1 Processos de Decisões Sequenciais . . . . . . . . . . . . . . . .10

2.2.2 Processo Markoviano de Decisão . . . . . . . . . . . . . . . . . 12

2.2.3 O Aprendizado por Reforço . . . . . . . . . . . . . . . . . . . . 13

2.2.4 O AlgoritmoQ-Learning . . . . . . . . . . . . . . . . . . . . . . 19

i

Page 8: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

3 Fundamentos de Engenharia de Reservatórios 22

3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 Histórico de Produção . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3 Mecanismos de Produção . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4 Estimativas de Reservas . . . . . . . . . . . . . . . . . . . . . . . . . . .28

3.5 Métodos de Cálculo para Estimativas de Reservas . . . . . . . .. . . . . 30

3.6 Simulação Matemática de Reservatórios . . . . . . . . . . . . . .. . . . 31

3.6.1 Uso de Simuladores numéricos para Estudos de Reservatórios . . 33

4 Metodologia 35

4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.2 Arquitetura do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.3 Modelagem do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.3.1 Modelagem do Reservatório . . . . . . . . . . . . . . . . . . . . 39

4.3.2 Modelagem dos Componentes do Sistema Otimizador . . . . .. 40

4.4 O Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5 Resultados e Discussões 47

5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.2 Estudo de Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.3 Estudo de Caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.3.1 Experimento com Ciclos de Vapor com duração de 3 meses . .. 58

6 Conclusão 62

Referências Bibliográficas 65

Page 9: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

Lista de Figuras

2.1 Esquema da aprendizagem por reforço. . . . . . . . . . . . . . . . .. . . 11

2.2 A Interação Agente-Ambiente na Aprendizagem por Reforço. . . . . . . 14

3.1 Fluidos no Reservatório e na Superfície. . . . . . . . . . . . . .. . . . . 23

3.2 Reservatório com Mecanismo de Gás em Solução. . . . . . . . . .. . . . 26

3.3 Reservatório com Mecanismo de Capa de Gás. . . . . . . . . . . . . .. 26

3.4 Reservatório com Mecanismo de Influxo de Água. . . . . . . . . .. . . . 27

3.5 Reservatório com Mecanismo Combinado. . . . . . . . . . . . . . . .. . 27

3.6 Exemplo de Volume Recuperável e Fator de Recuperação. . .. . . . . . 29

4.1 Pirâmide da Automação em Processos Industriais. . . . . . .. . . . . . . 36

4.2 Arquitetura do Sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . .38

4.3 Modelagem do Reservatório em Estudo. . . . . . . . . . . . . . . . .. . 39

4.4 Exemplo de curva de produção acumulada e produção anual de um campo. 41

4.5 Curva de produção anual para a alternativa sem injeção contínua de vapor. 41

4.6 Curva de produção anual para a alternativa com injeção contínua de vapor. 42

4.7 Fluxo de Dados no Algoritmo de Aprendizado por Reforço. .. . . . . . . 44

4.8 Fluxo das iterações do algoritmo durante a simulação. . .. . . . . . . . . 46

5.1 Comparação dos efeitos de tomadas de decisão distintas noano de 2004. . 49

5.2 Curva de produção acumulada para a alternativa 1. . . . . . . .. . . . . 50

5.3 Curva de produção acumulada para a alternativa 2. . . . . . . .. . . . . 51

iii

Page 10: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

5.4 Comparação de VPLs entre as Alternativas de Desenvolvimento. . . . . . 52

5.5 Curva de produção anual da alternativa 1. . . . . . . . . . . . . . .. . . 53

5.6 Curva de produção anual da alternativa 2. . . . . . . . . . . . . . .. . . 54

5.7 Curva de produção acumulada da alternativa com injeção cíclica de vapor. 56

5.8 Gráfico Comparativo de VPL: Contínua, Cíclica e Sem Vapor. . .. . . . 58

5.9 Curva de produção acumulada da alternativa com ciclo de 1 ano. . . . . . 59

5.10 Curva de produção acumulada da alternativa com ciclo de 3meses. . . . . 59

5.11 Gráfico Comparativo de VPL, Volume de Produção e Valores de ROV. . . 60

Page 11: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

Lista de Tabelas

4.1 Exemplo de Espaço de Estados no Ambiente. . . . . . . . . . . . . .. . 40

5.1 Valores Finais da MatrizQ(s,a) para o Estudo de Caso 1. . . . . . . . . . 51

5.2 Diferença entre os volumes de produção anuais das alternativas 1 e 2. . . 53

5.3 Valores de ROV da alternativa 1. . . . . . . . . . . . . . . . . . . . . .. 55

5.4 Valores Finais da MatrizQ(s,a) para o Estudo de Caso 2. . . . . . . . . . 57

5.5 Comparação de VPL e ROV na injeção cíclica . . . . . . . . . . . . . .. 60

v

Page 12: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

Lista de Símbolos e Abreviaturas

AR Aprendizagem por Reforço

BCP Bombeio por Cavidades Progressivas

BCS Bombeio Centrífugo Submerso

BSW Basic Sediments and Water

MDP Markov Decision Process

RAO Razão Água-Óleo

RGO Razão Gás-Óleo

VPL Valor Presente Líquido

vi

Page 13: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 1

Introdução Geral

Page 14: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 1. INTRODUÇÃO GERAL 2

1.1 Introdução

Um reservatório de petróleo é um sistema dinâmico e complexoenvolvendo um grande

número de variáveis que determinam sua curva de produção. A engenharia de reservató-

rios tem como objetivo principal desenvolver estratégias que maximizem a produção dos

hidrocarbonetos, respeitando as restrições de viabilidade econômica bem como os fatores

físicos e ambientais do reservatório.

Com o decorrer do tempo, a energia natural dos reservatórios diminui e tem-se con-

sequentemente um decaimento nas curvas de produção. Como tentativa de recuperar a

produção do campo, utilizam-se comumente técnicas de recuperação suplementar. Estas

técnicas permitem recuperar parte da produção, e muitas vezes aumentá-la, até atingir

estágios de produção quando podem ser considerados campos maduros.

1.2 Motivação

Quando e como iniciar o processo de injeção de água ou de vapor, bem como a defi-

nição da disposição dos poços produtores e injetores no campo, são variáveis que podem

compor diversas alternativas de desenvolvimento da produção. Devido às restrições de

manipulação de campos petrolíferos reais, o uso de simuladores matemáticos computaci-

onais no estudo dos reservatórios torna-se bastante útil. Estes simuladores são capazes de

fornecer valores da produção de óleo, gás e água, bem como fazer previsões do compor-

tamento futuro da curva de produção do campo estudado.

O uso de uma metodologia de otimização eficiente permite auxiliar na tomada de

decisão, promovendo a melhor estratégia de produção, consequentemente a maximização

dos lucros e minimização dos riscos dos grandes investimentos relacionados à área de

petróleo. A tomada de decisão consiste em determinar qual destas alternativas é a que

permite otimizar a função custo do processo envolvido e deveser feita por profissionais

Page 15: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 1. INTRODUÇÃO GERAL 3

especialistas da área de gerenciamento de reservatórios depetróleo.

Deste modo, torna-se bastante importante um processo de otimização que permita

avaliar diferentes perfis de produção para diferentes configurações, de forma a determi-

nar a alternativa ótima do ponto de vista econômico sob as restrições técnicas existentes.

Porém, frequentemente a solução operacional para o desenvolvimento de um campo de

petróleo não é ótima, mas apenas um resultado viável que satisfaz as restrições operacio-

nais e econômicas em um momento específico.

A automação dos poços de petróleo em terra (On-shore) e em mar (Off-shore) vem

apresentando um notável crescimento desde o final da década de 90. Esse processo nos

leva ao conceito de campos inteligentes, que nada mais são que um conjunto de poços

dotados de instrumentação, a qual permite a monitoração e o controle de variáveis da pro-

dução. Esses instrumentos são capazes de fornecer uma base de dados sobre o campo, a

qual se apresenta componente essencial no desenvolvimentode um sistema de otimização

da produção.

1.3 Campos Inteligentes e o Processo de Tomada de De-

cisão

A engenharia de reservatórios tem apresentado um grande crescimento em temas re-

lacionados à utilização de poços inteligentes. Esse tipo depoço possui um conjunto de

equipamentos de instrumentação como sensores, válvulas e dispositivos de controle de

fluxo, que são instalados ao longo de sua coluna de produção e permitem o monitora-

mento das variáveis de processo. Quando se estende o conceito de poço inteligente temos

o que se chama de campo inteligente, que nada mais é do que um conjunto de poços

produtores e injetores de um campo equipados com instrumentação e integrados entre

si. [da Silva 2006]

Os dados coletados via o sistema de sensores alimentam um banco de dados e são

Page 16: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 1. INTRODUÇÃO GERAL 4

supervisionados em tempo real, o que possibilita a tomada dedecisões que visam a otimi-

zação da produção. Os processos de controle e automação possibilitam a implementação

de estratégias ditas inteligentes que poderão auxiliar na almejada otimização. O grande

número de dados gerados nesse tipo de campo representam um grande desafio para os

engenheiros de reservatório. Apesar das valiosas informações que é possível se obter

sobre os poços, deve-se lembrar que esses dados devem ser utilizados para a análise do

campo como um todo e não dos poços individualmente. Isso se deve ao fato de que um

reservatório é um sistema dinâmico em constante escoamentode fluido através dos poços

perfurados em sua área, ou seja, o comportamento de determinado poço pode ser total-

mente influenciado pelo comportamento dos poços ao seu redor. Diante do exposto, é

notável que uma tomada de decisão poderá influenciar não só a produção de um poço mas

de um conjunto de poços inter-relacionados no reservatório.

Um exemplo desse tipo de decisão é com relação à injeção de vapor em determinada

área do reservatório. Sabe-se que a injeção de vapor em um poço influencia diretamente

no comportamento dos poços que o circundam, e por esse motivoa localização do poço

injetor, sua cota de injeção, bem como o tipo e o momento exatodessa injeção são fa-

tores que devem ser bem analisados. A principal característica de um poço influenciado

por uma injeção de vapor é sem dúvida o aumento de produção líquida de óleo. Porém

aspectos negativos como o aumento da produção de água nos poços e o aumento exces-

sivo da temperatura do fluido, também são frequentemente observados. Além da análise

técnica dos aspectos citados, ao se tomar uma decisão envolvendo injeção de vapor, deve

ser levada em consideração principalmente a viabilidade econômica do projeto.

De forma resumida, os processos de tomada de decisões no desenvolvimento de um

campo de petróleo são bastante complexos por envolverem diversas variáveis de um sis-

tema dinâmico que estão totalmente inter-relacionadas. Nocotidiano da engenharia de

petróleo nem sempre as decisões obedecem a um critério de otimização. Por vezes não há

tempo hábil para a análise de todas as possibilidades, outras vezes são escolhidos critérios

Page 17: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 1. INTRODUÇÃO GERAL 5

que satisfazem alguma restrição operacional e em outras ocasiões a solução surge através

da comparação com outros campos semelhantes ou próximos.

Diante desta complexidade, um sistema inteligente que auxilie nesse processo se torna

bastante útil no dia-a-dia dos engenheiros de reservatório, principalmente quando se tem

à disposição a base de dados de um campo inteligente, fator que torna possível a imple-

mentação desse tipo de sistema.

A metodologia desse sistema inteligente consiste em analisar, em conjunto com um

simulador matemático, o comportamento futuro do reservatório ao longo dos anos. A

partir daí, esse sistema deve sugerir medidas que permitam se obter o máximo de produção

dentro dos limites físicos e econômicos existentes, proporcionando a minimização dos

riscos dos grandes investimentos relacionados à área de petróleo.

1.4 Objetivos

O uso de técnicas inteligentes, tais como redes neurais, lógica fuzzy, algoritmos evo-

lutivos têm sido as ferramentas mais utilizadas pela indústria do petróleo quando da im-

plementação de um sistema inteligente. Os métodos evolutivos têm se apresentado como

uma das principais técnicas utilizadas no problema de otimização. Uma técnica inteli-

gente que pode ser incorporada nesse problema é o aprendizado por reforço, que é uma

técnica de natureza estocástica e que tem como base a área de estudo de aprendizado de

máquinas.

Sendo assim, o objetivo principal deste trabalho é propor umestudo preliminar de

um sistema inteligente, baseado na técnica de aprendizado por reforço, que implemente

estratégias de controle e tomadas de decisão visando a otimização da produção de petróleo

em um reservatório.

O sistema inteligente deverá caracterizar o problema como uma máquina de estados

e utilizar o algoritmoQ-Learningno auxílio às tomadas de decisões, para que se obtenha

Page 18: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 1. INTRODUÇÃO GERAL 6

a maximização de uma função de custo especificada. O algoritmo deverá ter como saída

uma alternativa de desenvolvimento ótima que forneça ao especialista, em tempo hábil, a

melhor decisão a ser tomada para a situação em questão.

1.5 Revisão Bibliográfica

Recentemente inúmeros trabalhos envolvendo otimização deproblemas na indústria

do petróleo vêm sendo divulgados. InicialmentePedroso (1999)estudou a otimização

do número ideal de poços bem como suas respectivas locações fazendo uso apenas do

simulador numérico e de computação paralela.

Em Villanueva (n.d.), a otimização da produção é realizada por meio de algoritmos

genéticos em conjunto com o simulador de reservatórios IMEXda CMG. O algoritmo

evolutivo teve como objetivo determinar a localização dos poços produtores e injetores de

forma a maximizar o VPL da atividade.

Ainda na área de computação evolutiva,Almeida (2003)avaliou a otimização com

o emprego conjunto das técnicas de: Algoritmos genéticos, Algortitmos culturais e Co-

evolução, além da utilização da computação paralela com o intuito de reduzir o tempo

computacional. A alternativa consistia em encontrar a quantidade, localização, tipo (ver-

tical/horizontal) e função (injetor/produtor) dos poços do campo.

Em da Silva (2006), utilizou-se as redes neurais artificiais e os algoritmos genéticos

como ferramentas de modelagem de reservatórios para produzir soluções para a predição

e otimização na produção de petróleo.

Com o uso de técnicas híbridas,Bittencourt (1997)buscou otimizar do ponto de vista

econômico problemas da indústria do petróleo. Entre as técnicas utilizadas destacam-se

os algoritmos genéticos, a buscatabue a buscapolytope.

Page 19: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 1. INTRODUÇÃO GERAL 7

1.6 Organização do Trabalho

Esta dissertação de mestrado está organizada da seguinte forma:

• Capítulo 2: Introduz os conceitos de aprendizado por reforço, apresentando suas

principais características bem como os fundamentos matemáticos que embasam

esta técnica.

• Capítulo 3: Apresenta alguns conceitos essenciais para o entendimento dos objeti-

vos e dos processos que envolvem a disciplina de engenharia de reservatório.

• Capítulo 4: Descreve o objeto deste trabalho, apresentando uma descrição deta-

lhada do problema envolvido, bem como a modelagem sugerida para o mesmo na

implementação do sistema inteligente.

• Capítulo 5: Destaca os principais resultados que foram obtidos com este trabalho,

além de algumas discussões à respeito dos mesmos.

• Finalmente no Capítulo 6 são feitas as conclusões sobre o trabalho, além de suges-

tões para trabalhos futuros relacionados aos temas abordados.

Page 20: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2

O Problema da Aprendizagem por

Reforço

Page 21: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 9

2.1 Introdução

A Aprendizagem por Reforço (AR) é um formalismo da inteligência artificial que per-

mite a um indivíduo aprender a partir da sua interação com o ambiente no qual ele está

inserido [Sutton & Barto 1998]. Esta é uma abordagem computacional para a compreen-

são e automatização das metas de aprendizagem e de tomada de decisão. Ela se distingue

de outras abordagens computacionais pela sua ênfase na aprendizagem do indivíduo a par-

tir da interação direta com o seu ambiente, sem depender de supervisão ou de exemplares

de modelos completos do ambiente.

O problema da aprendizagem por reforço é concebido para ser uma simples definição

do problema da aprendizagem a partir da interação para alcançar uma meta. O aluno

é chamado de agente. A coisa com o qual ele interage, compreendendo tudo fora do

agente, é chamado de ambiente. Estes interagem continuamente, o agente selecionando

as ações e o ambiente respondendo a essas ações e apresentando novas situações para

o agente. O ambiente também fornece recompensas, que são valores numéricos que o

agente tenta maximizar ao longo do tempo. A especificação completa de um ambiente

define uma tarefa, um exemplo do problema da aprendizagem porreforço. O AR se

apresenta como um método de buscaon-linepara encontrar uma política de decisão ótima

em problemas de decisão multi-estágios. A aprendizagem dessa técnica, que é baseada

na noção de recompensa e punição, se dá através do conhecimento sobre o estado do

ambiente, das ações efetuadas no ambiente e das mudanças de estado decorrentes das

ações. Existem alguns conceitos matemáticos que devem ser conhecidos para facilitar a

modelagem de um problema como um sistema de aprendizagem porreforço. Na seção a

seguir, apresentamos uma breve descrição destes conceitos.

Page 22: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 10

2.2 Fundamentos Matemáticos

2.2.1 Processos de Decisões Sequenciais

Uma tomada de decisão pode ser caracterizada como um processo de escolha, seleção

de alternativas ou caminhos de ação ótima, entre o grupo de alternativas para atingir um

objetivo ou alguns objetivos.

Um problema de decisão é considerado simples, quando um agente deve tomar deci-

sões de modo que, em média, ele consiga o que quer. Nesses problemas a utilidade de

cada ação no ambiente é conhecida.

Um certo conjunto de objetivos não conseguem ser atingidos utilizando-se somente

os métodos de tomada de decisão simples, mas podem ser resolvidos através de uma

sequência de tomadas de decisão. Estes problemas de decisão, conhecidos também como

processos de decisão multi-estágios, são dependentes uns dos outros.

Os problemas de tomada de decisão sequencial envolvem uma série de escolhas su-

cessivas cujos efeitos podem se estender indefinidamente pelo futuro. Trata-se de um

paradigma genérico que engloba desde tarefas simples do dia-a-dia até desafios enfrenta-

dos pela indústria.

A característica fundamental dessa classe de problemas é que as decisões envolvidas

têm um efeito cumulativo, ou seja, as consequências de uma determinada ação podem se

estender por um intervalo indefinido de tempo. [da Motta Salles Barreto 2008]

Um cenário típico desse tipo de problema é onde o agente observa, toma uma decisão

condicionada à observação e age, observa novamente, toma outra decisão condicionada à

observação e age. Note que as ações subsequentes podem depender do que é observado

e o que é observado depende das ações anteriores. Às vezes a única razão para executar

uma ação é fornecer informação para ações futuras.

Para que seja possível lidar com problemas de decisão sequenciais de uma maneira

Page 23: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 11

sistemática é necessário estabelecer um modelo que descreva formalmente como ocorre

o processo de tomada de decisão. Nesse modelo as decisões sãotomadas por um agente

que interage com um ambiente. Em geral a interação do agente com o ambiente se dá

de maneira discreta, ou seja, o agente deve tomar as decisõesem instantes de tempo

específicost = 1,2, . . . ,T. A cada instante de tempot o agente se encontra em um estado

st e deve selecionar uma açãoat de um conjunto de ações disponíveis. A execução da

açãoat no estadost move o agente para um novo estadost+1, onde ele deve escolher

novamente uma ação, reiniciando o ciclo. A interação do agente com o ambiente pode

ocorrer indefinidamente (T = ∞) ou até que ele alcance um estado terminal (T < ∞). No

caso em que (T < ∞), a sequência de ações executadas pelo agente de um estado inicial

qualquer até um estado terminal é chamada de episódio. O conjunto formado por todos os

estados possíveis do ambiente é chamado de espaço de estadose normalmente denotado

por S. O conjunto de ações disponíveis no estadost é denotado porA(st), aqui também

uma coleção finita de elementos.

Para que uma escolha se caracterize como uma decisão é necessário estabelecer uma

maneira de comparar as diferentes alternativas. É aí que entra o conceito de recompensa.

Uma recompensa é um valor escalar que serve como medida da qualidade de uma de-

cisão. Quanto maior a recompensa, melhor para o agente. No modelo adotado aqui as

recompensas são entregues logo após a execução de uma ação, ou seja, a cada transição

st → st+1 o agente recebe uma recompensar ∈ R. O objetivo do agente é maximizar a

quantidade total de recompensas recebidas na interação como ambiente.

ambiente

agente

a tst+1 rt+1

Figura 2.1: Esquema da aprendizagem por reforço.

Page 24: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 12

As ações podem representar qualquer decisão que se pretendaaprender a tomar, e os

estados qualquer informação potencialmente útil nesse processo.

2.2.2 Processo Markoviano de Decisão

De uma maneira geral, a evolução dos sistemas dinâmicos não ocorre de maneira

determinística, ou seja, existe uma incerteza associada à cada transição de estadosst →

st+1. Isso significa que nem sempre a execução de uma determinada açãoat em um estado

st resulta sempre no mesmo estadost+1.

Matematicamente, a incerteza é incorporada ao modelo de tomada de decisão através

de uma distribuição de probabilidades, na qual sua função depende de toda a história do

sistema até o instantet, o que torna a descrição do modelo uma tarefa complexa do ponto

de vista computacional. Em muitos casos é possível se fazer uma simplificação do sistema

quando o mesmo apresenta a propriedadeMarkov.

Formalmente a propriedadeMarkové definida como uma condição que especifica que

o estado de um sistema no próximo instante(t + 1) é uma função que depende somente

do que se pode observar acerca do estado atual e da ação tomadapelo agente neste estado,

isto é, o estado de um sistema independe da sua história. Em umsistema Markoviano a

definição do estadost+1 que segue a execução da açãoat no estadost depende unicamente

destes dois últimos, ou seja, a probabilidade de ocorrênciado estadost+1 é dada por uma

função:P(st+1 | st ,at). [Bianchi 2004]

Um problema de decisão sequencial pode ser descrito formalmente por meio de um

processoMarkovianode Decisão e uma premissa básica quando se usa os MDPs como

um modelo de tomada de decisão é que a dinâmica do sistema atenda à propriedadeMar-

koviana.

Um ProcessoMarkovianode Decisão é aquele que obedece à condição deMarkov

e pode ser descrito como um processo estocástico no qual a distribuição futura de uma

variável depende somente do seu estado atual. Um MDP é definido formalmente pela

Page 25: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 13

quádrupla〈S,A,T,R〉, onde:

• S: é um conjunto finito de estados do ambiente.

• A: é um conjunto finito de ações que o agente pode realizar.

• T: S×A→∏(s) é a função de transição de estado, onde∏(s) é uma distribuição de

probabilidades sobre o conjunto de estadosS. T(st ,at ,st+1) define a probabilidade

de realizar a transição do estadost para o estadost+1 quando se executa a açãoat .

• R: S×A→ℜ é a função de recompensa, que especifica a tarefa do agente, definindo

a recompensa recebida por um agente ao selecionar a açãoa estando no estados.

Resolver um MDP consiste em computar a políticaπ: S×A que maximiza (ou mi-

nimiza) alguma função, geralmente a recompensa recebida, ao longo do tempo. [Bianchi

2004]

2.2.3 O Aprendizado por Reforço

Um sistema típico de aprendizagem por reforço constitui-sebasicamente de um agente

interagindo em um ambiente via percepção e ação. Ou seja, o agente percebe as situações

encontradas no ambiente, pelo menos parcialmente, e baseado nessas medições, seleciona

uma ação a ser implementada. A ação tomada muda de alguma forma o ambiente, afe-

tando o estado na tentativa de alcançar o seu objetivo, e as mudanças são comunicadas ao

agente através de um sinal de reforço e do próximo estado. [Camponogara & Serra 2005]

Mais especificamente, o agente e ambiente interagem entre si, em uma sequência de

passos discretos no tempo. Em cada passo, o agente recebe umarepresentação do estado

do ambientest ∈ S, ondeSé o conjunto de estados possíveis, e baseado nisso seleciona

uma açãoat ∈ A, ondeA é o conjunto de ações disponíveis no estadost . No próximo

passo, em parte como consequência da sua ação, o agente recebe uma recompensa nu-

méricart+1, e se encontra em um estado novost+1. O diagrama a seguir ilustra como

acontece a interação agente-ambiente.

Page 26: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 14

Agente

Ambientest+1

rt+1

a t

Açãort

Reforço (Ganho)st

Estado

Figura 2.2: A Interação Agente-Ambiente na Aprendizagem por Reforço.[Sutton & Barto 1998]

No AR existe um crítico externo ao ambiente, que avalia a açãotomada, mas sem

indicar explicitamente a ação correta. O agente não é informado quais as ações a to-

mar, como na maioria das formas de aprendizagem automática,mas sim deve descobrir

quais as ações lhe proporcionam um melhor rendimento. Nos casos mais interessantes e

desafiadores, as ações podem afetar não só a recompensa imediata, mas também a pró-

xima situação e, por isso, todas as recompensas. Estas duas características - busca por

tentativa e erro e recompensa atrasada - são as duas mais importantes características da

aprendizagem por reforço.

A cada passo, o agente implementa um mapeamento de estados para probabilidades

de seleção de cada possível ação. Este mapeamento é chamado de política do agente e

é denotadoπt , ondeπt(s,a) é a probabilidade de queat = a, sest = s. Os métodos de

aprendizagem por reforço especificam a forma como o agente muda a sua política com

resultado de sua experiência. O objetivo do agente é o de maximizar o valor total de

recompensas que recebe em longo prazo.

Os elementos principais que caracterizam a aprendizagem por reforço, diferenciando-

a de outras abordagens de aprendizagem, são descritos abaixo:

• Aprendizado por interação: O agente AR age no ambiente e aguarda pelo valor de

reforço que o ambiente retorna em resposta a ação tomada.

• Retorno atrasado: Uma ação é produto de uma decisão local no ambiente, sendo seu

Page 27: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 15

efeito imediato de natureza local, enquanto que, em um sistema de Aprendizagem

por Reforço, busca-se alcançar objetivos globais no ambiente.

• Orientado pelo objetivo: Simplesmente, existe um agente que age dentro do ambi-

ente desconhecido tentando alcançar um objetivo. O objetivo é, geralmente, otimi-

zar algum comportamento dentro do ambiente.

• Investigação× Exploração: Dilema que consiste em decidir quando se deve apren-

der e quando não se deve aprender sobre o ambiente, mas usar a informação já

obtida até o momento. Para que um sistema seja realmente autônomo, esta decisão

deve ser tomada pelo próprio sistema.

Quase todos os algoritmos da aprendizagem por reforço são baseados na estimativa da

função valor que estimam o quão bom é para o agente estar em um determinado estado (ou

o quão bom é executar uma determinada ação em um determinado estado). A noção de

“quão bom” aqui é definida em termos de futuras recompensas que podem ser esperadas,

ou, sendo mais preciso, em termos de retorno esperado. É claro que as recompensas que

o agente espera receber no futuro dependerão das ações que o mesmo irá tomar. Assim,

as funções valor são definidas de acordo as políticas.

Lembre-se que uma políticaπ, é um mapeamento a partir de cada estadost e de cada

açãoa, para a probabilidadeπt(s,a) de tomar a açãoa quando no estadost . Informal-

mente, o valor de um Estadost sob uma políticaπ, denotadaV(s), é o retorno esperado

quando se inicia ems e segue a políticaπ daí em diante. Para MDPs, podemos definir

formalmente como:

Vπ(s) = Eπ{Rt | st = s} = Eπ{∞

∑k=0

γkrt+k+1 | st = s}, (2.1)

ondeRt representa o retorno total acumulado e é definido como:

Page 28: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 16

Rt =∞

∑k=0

rt+k+1 (2.2)

Eπ denota o valor esperado, dado que o agente segue políticaπ, e t é qualquer passo

no tempo. Nós chamamosVπ de função valor-estado para a políticaπ.

Similarmente, nós definimos o valor de tomar a açãoa estando no estados sob a

políticaπ, denotadaQπ, como o retorno esperado quando se inicia ems, toma a açãoa e

segue a políticaπ daí em diante. Nós chamamosQπ de função valor-ação para a política

π.

Qπ(s,a) = Eπ{Rt | st = s,at = a} = Eπ{∞

∑k=0

γkrt+k+1 | st = s,at = a} (2.3)

As funçõesVπ eQπ nada mais são do que uma estimativa do valor de retorno acumu-

lado que o agente receberá dado que o mesmo seguirá a políticaótima.

Uma propriedade fundamental de funções valor utilizadas emaprendizagem por re-

forço é que as mesmas satisfaçam algumas relações recursivas. Para qualquer políticaπ e

qualquer estados, a seguinte relação entre o valor des e o valor do seu possível sucessor

deve ser satisfeita:

Vπ(s) = Eπ{Rt | st = s} (2.4)

= Eπ{∞

∑k=0

γkrt+k+1 | st = s} (2.5)

Page 29: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 17

= Eπ{rt+1 + γ∞

∑k=0

γkrt+k+2 | st = s} (2.6)

= ∑a

π(s,a)∑s′

Pass′[R

ass′ + γEπ{

∑k=0

γkrt+k+2 | st+1 = s′}] (2.7)

= ∑a

π(s,a)∑s′

Pass′[R

ass′ + γVπ(s′)] (2.8)

onde está implícito que as açõesa, são retiradas do conjuntoA, e os próximos estadoss′,

são retirados do conjuntoS. A equação 2.8 é a equação deBellmane ela exprime uma

relação entre o valor de um estado, e os valores dos seus estados sucessores.

Resolver um problema de aprendizagem por reforço significa,a grosso modo, encon-

trar uma política que atinja um grande valor de recompensa, alongo prazo. Para MDPs

finitas, podemos definir com precisão uma política ótima. A política π é definida para

ser melhor ou igual a uma políticaπ′ se o seu retorno esperado é superior ou igual ao

de π para todos os estados. Em outras palavrasπ = π′, se e somente se,Vπ ≥ Vπ′para

todoss∈ S. Há sempre, pelo menos, uma política que é melhor ou igual a todas as outras

políticas. Esta é a política ótima. Embora possa haver mais de uma, nós chamamos deπ∗

todas as políticas ótimas. Elas compartilham a mesma funçãovalor-estado ótima e mesma

função valor-ação ótima denotadas comoV∗ eQ∗, respectivamente, e definidas como:

V∗(s) = maxπ

Vπ(s) (2.9)

Page 30: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 18

Q∗(s,a) = maxπ

Qπ(s,a) (2.10)

Para todos∈ S e a ∈ A. Para cada par estado-ação(s,a), esta função fornecerá o

retorno esperado para a escolha da açãoa no estados e seguindo a política ótima daí em

diante. Assim, podemos escreverQ∗, em termos deV∗ como se segue:

Q∗(s,a) = E{rt+1 + γV∗(st+1 | st = s,at = a)}. (2.11)

Segundo [Camponogara & Serra 2005], o problema de aprendizagem por reforço

apresenta cinco partes fundamentais. São elas:

1. O Ambiente: Todo sistema de AR aprende um mapeamento de situações em ações

por experimentação em um ambiente dinâmico.

2. A Política de Controle / Decisão: Uma política expressa pela funçãoπ, representa

o comportamento que o sistema AR segue para alcançar o objetivo. Em outras

palavras, uma políticaπ é um mapeamento de estadoss e açõesa em um valor

π(s,a) o qual corresponde à probabilidade do agente tomar a açãoa ∈ A quando

este se encontrar no estados∈ S.

3. Reforço e Retorno: O reforço é um sinal do tipo escalarr(st ,at) devolvido pelo

ambiente ao agente assim que uma ação tenha sido efetuada e uma transição de

estado(st → st+1) tenha ocorrido. O agente deve maximizar a quantidade total

de reforços recebidos chamado de retorno acumulado, que nemsempre significa

maximizar o reforço imediato a receber, mas o reforço acumulado durante a “vida

do agente”.

4. Função de Reforço: Existem pelo menos três classes de problemas frequentemente

Page 31: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 19

usadas para criar funções adequadas a cada tipo de problema:

• Reforço só no estado final: As recompensas são todas zero, exceto no estado

final, em que o agente recebe uma recompensa real (e.g., +1) ouuma penali-

dade (e.g., -1).

• Tempo mínimo ao objetivo: O agente realiza ações que produzem o caminho

ou trajetória mais curta para um estado objetivo.

• Minimizar reforços: nem sempre o agente precisa ou deve tentar maximizar a

função de reforço, podendo também aprender a minimizá-la.

5. Função Valor: Define-se uma função valor como o mapeamentodo estado ou par

(estado-ação) em um valor que é obtido a partir do reforço atual e dos reforços futu-

ros. A função valor que considera só o estados é denotada porV(s) e denominada

função valor-estado, enquanto que a função valor que considera o par estado-ação

(s,a) é denotada porQ(s,a) e denominada função valor-ação.

2.2.4 O Algoritmo Q-Learning

Tido como o mais popular algoritmo de AR, o algoritmoQ-Learning foi proposto

como uma maneira de aprender iterativamente a política ótima π∗ quando o modelo do

sistema não é conhecido [Bianchi 2004].

O algoritmo propõe que o agente, ao invés de maximizarV∗, aprenda uma função de

recompensa esperada com descontoQ, conhecida como função valor-ação. Esta função

de estimaçãoQ é definida como sendo a soma do reforço recebido pelo agente por ter

realizado a açãoat no estadost em um momentot, mais o valor (descontado deγ) de

seguir a política ótima daí por diante:

Q∗(st ,at) = r(st ,at)+ γV∗(st+1) (2.12)

Page 32: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 20

A atualização dos valores de utilidadeQ(s,a) estimados para os pares (estado, ação)

é feita de acordo com a seguinte equação:

Qt+1(st ,at) = Qt(st ,at)+α[r(st ,at)+ γmaxa

Qt(st+1,a)−Qt(st ,at)] (2.13)

Onde:

• Qt(st ,at): É o valor de utilidade da açãoat no estadost .

• r(st ,at): É o reforço imediato recebido no estadost por ter tomado a açãoat .

• α: É a taxa de aprendizado (normalmente definida entre 0 e 1).

• γ: É a taxa de desconto temporal.

• t: É uma sequência discreta de passos no tempo.

• maxaQt(st+1,a): É o valorQ correspondente à ação com maior valor de utilidade

no estado futuro.

Após executar a açãoat , o agente sai do estadost e vai para um estadost+1 recebendo

por esta ação uma recompensa imediatar(st ,at). No estadost+1 é feita uma busca entre

as ações disponíveis para encontrar a açãoat+1 que tenha o maior valor de retorno espe-

rado. Essa busca está representada na equação porγmaxaQt(st+1,a), ondeγ é a taxa de

desconto temporal e pode assumir valores entre 0 e 1.

Como a busca representada porγmaxaQt(st+1,a) sempre retorna paraat+1 aquela

ação com maior valor de retorno esperado, existe uma grande possibilidade de o algoritmo

cair em máximos locais. Porém, para que a convergência do algoritmo seja garantida, é

necessário que todos os pares (estado, ação) sejam visitados continuamente e tenham seus

valores de utilidadeQ(st ,at) atualizados.

É por este motivo que neste algoritmo as ações usadas duranteo processo iterativo de

aproximação da funçãoQ podem ser escolhidas usando qualquer estratégia de exploração

(ou explotação). Uma estratégia para a escolha das ações bastante utilizada em imple-

Page 33: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 2. O PROBLEMA DA APRENDIZAGEM POR REFORÇO 21

mentações doQ-Learningé a exploração aleatóriaε−Greedy, na qual o agente executa

a ação com o maior valor deQ com probabilidade 1−ε e escolhe uma ação aleatória com

probabilidadeε. O pseudocódigo do algoritmoQ-Learningé apresentado logo a seguir:

Inicialize Q(s,a).

Para cada instantet repita:

1. Observe estadost e escolha uma açãoat , usando a exploraçãoε−Greedy

2. Observe o estadost+1 e atualizeQt(st ,at) de acordo com:

Qt+1(st ,at) = Qt(st ,at)+α[r(st ,at)+ γmaxa

Qt(st+1,a)−Qt(st ,at)]

Até t igual a limite de passos.

Quanto mais próximo de 1 for o valor deγ, maior importância é dada aos reforços

mais distantes no tempo.

Page 34: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3

Fundamentos de Engenharia de

Reservatórios

Page 35: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 23

3.1 Introdução

A engenharia de reservatórios se preocupa basicamente com aretirada dos fluidos

do interior das rochas, de forma que os mesmos possam ser levados até a superfície de

maneira mais otimizada possível. São estudadas na engenharia de reservatórios a ca-

racterização das jazidas, as propriedades das rochas, as propriedades dos fluidos nelas

contidos, a maneira como estes fluidos interagem dentro da rocha e as leis físicas que

regem o movimento dos fluidos no seu interior, com o objetivo de maximizar a produção

de hidrocarbonetos com o menos custo possível. [Thomas 2001]

Um comportamento padrão esperado para um reservatório de óleo é que ele produza

óleo, gás natural e água. Assim, um reservatório típico apresenta uma vazão de produção

de óleo, uma vazão de produção de gás e uma vazão de produção deágua. A figura a

seguir apresenta esquematicamente os fluidos existentes noreservatório e o que resulta

quando eles são levados para a superfície.

Condições deReservatórios

Condições deSuperfície

Figura 3.1: Fluidos no Reservatório e na Superfície.Thomas (2001)

Page 36: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 24

As vazões são sempre expressas nas condições de superfície,como, por exemplo, me-

tro cúbico standart por dia ou barrilstandartpor dia. As condições de superfície também

são chamadas de “condições padrão” e correspondem à pressãode 1atme temperatura de

20oC.

Para se estimar as quantidades de óleo, gás e água contidas nas formações, é neces-

sário se estabelecer que percentual do volume poroso é ocupado por cada fluido. Esses

percentuais recebem o nome de “saturação”. Desta forma, a saturação de óleo, saturação

de água e saturação de gás é o percentual do volume poroso da formação ocupado pela

fase óleo, fase água e fase gás, respectivamente.

Além da produção de hidrocarbonetos, é bastante comum a produção de água nos

campos. Porém, a quantidade produzida vai depender das condições em que ela se apre-

senta no meio poroso. Apesar de a água estar sempre presente nos reservatórios, nem

sempre a sua quantidade, expressa pela saturação, é suficiente para que ela se desloque.

Esta água produzida pode ter origem em aquíferos adjacentesàs formações portadoras de

hidrocarbonetos ou pode ser devida à água injetada em projetos que visam aumentar a

recuperação de óleo.

3.2 Histórico de Produção

Existem algumas relações dentro da engenharia de petróleo que são utilizadas como

indicadores da vida produtiva dos reservatórios. Os mais utilizados são a razão gás-óleo

(RGO), a razão água-óleo (RAO) e o BSW (Basic Sediments and Water).

A RGO é a relação entre a vazão de gás e a vazão de óleo, ambas medidas nas condi-

ções de superfície. Já a RAO é a relação entre a vazão de água e avazão de óleo, também

medidas nas condições de superfície. Uma alta RGO poderia estar indicando que o re-

servatório está bastante depletado ou que possui elevadas frações de componentes mais

voláteis na mistura líquida. Uma RAO igual a zero significa que, na época da medição, a

Page 37: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 25

saturação de água na formação é igual ou menor que o valor irredutível, ou seja, o valor

mínimo necessário para que haja um fluxo de água. O BSW é o quociente entre a va-

zão de água mais os sedimentos que estão sendo produzidos e vazão total de líquidos e

sedimentos.

Histórico de produção é o registro das pressões, das vazões,das relações RGO, RAO

e BSW feito ao longo da vida útil de um reservatório, além das produções acumuladas

de cada fluido. Esse histórico é importante, pois serve de base de dados para ferramentas

que permitem uma previsão do comportamento futuro do reservatório. Desta forma, este

histórico influencia diretamente na tomada de decisões do gerenciamento do campo, no

que diz respeito à otimização do processo e consequente redução de custos.

3.3 Mecanismos de Produção

Os fluidos contidos em uma rocha reservatório devem dispor decerta quantidade de

energia, resultado de circunstâncias geológicas da jazida, para que possam ser produzidos.

Além disso, é necessário que outro material venha preenchero espaço poroso ocupado

pelos fluidos produzidos. Este preenchimento se dá principalmente por meio de dois

efeitos: a descompressão (que causa a expansão dos fluidos contidos no reservatório e

contração do volume poroso) e o deslocamento de um fluido por outro fluido. Ao conjunto

de fatores que fazem desencadear esses efeitos dá-se o nome de Mecanismo de Produção

de Reservatório.

Os principais mecanismos de produção de reservatórios são:mecanismo de gás em

solução, mecanismo de capa de gás e mecanismo de influxo de água.

No mecanismo de gás em solução a produção é o resultado da expansão do gás que

inicialmente estava dissolvido e que vai saindo da solução.Quanto mais a pressão cai,

mais o gás se expande e mais líquido é deslocado.

No mecanismo de capa de gás, a produção na zona de óleo acarreta uma redução de

Page 38: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 26

Figura 3.2: Reservatório com Mecanismo de Gás em Solução.Thomas (2001)

pressão que se transmite para a capa de gás, que se expande, penetrando gradativamente

na zona de óleo. Como o gás possui uma alta compressibilidade,a sua expansão ocorre

sem que haja queda substancial da pressão.

Figura 3.3: Reservatório com Mecanismo de Capa de Gás.Thomas (2001)

No mecanismo de influxo de água, a produção ocorre de maneira semelhante ao da

capa de gás. A diferença está no fato de que a expansão acontece em um aquífero e

para que este mecanismo funcione bem, o aquífero deve possuir grandes proporções. Po-

dem ocorrer situações em que mais de um mecanismo atua simultaneamente no mesmo

reservatório, existindo assim um mecanismo combinado.

Page 39: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 27

Figura 3.4: Reservatório com Mecanismo de Influxo de Água.Thomas (2001)

Figura 3.5: Reservatório com Mecanismo Combinado.Thomas (2001)

Page 40: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 28

3.4 Estimativas de Reservas

Em uma jazida de petróleo, nem todo o fluido existente pode serextraído, ou seja, ape-

nas uma fração do volume total de óleo pode ser efetivamente produzida. Normalmente,

ao se descobrir uma jazida, faz-se uma estimativa de quanto fluido se pode recuperar

da mesma, e a esse volume estimado dá-se o nome de volume recuperável. O volume

recuperável é uma importante informação, pois influenciarádiretamente na decisão da

implantação do projeto exploratório, já que os custos de operação devem ser mantidos

com a comercialização dos fluidos produzidos. [Thomas 2001]

Denomina-se estimativa de reservas a atividade dirigida à obtenção dos volumes de

fluidos que se pode retirar do reservatório até que ele chegueà condição de abandono.

Além da ocasião do descobrimento, essas estimativas tambémsão feitas ao longo da vida

produtiva da jazida, à medida que se vai obtendo mais informações a respeito da mesma.

Para se falar nos métodos de estimativas de reservas é conveniente que antes se co-

nheça algumas definições relacionadas á área:

• Volume Original: Quantidade de fluido existente no reservatório na época da sua

descoberta.

• Volume Recuperável: Quantidade de fluido que se pode produzir ou recuperar de

uma acumulação de petróleo.

• Fator de Recuperação: Quociente entre volume recuperável evolume original, ou

seja, percentual do volume original que se espera produzir de um reservatório.

• Reserva: Quantidade de fluido que ainda pode ser obtida de um reservatório de

petróleo numa época qualquer de sua vida produtiva.

Nota-se que o fator de recuperação é um número que representao que se espera pro-

duzir do reservatório e que depende fortemente do mecanismode produção dessa jazida.

Esse valor é obtido de um estudo que utiliza as informações disponíveis na época e que

Page 41: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 29

3.200.000

Óleo original - 3.200.000 m³ std

23%

Volume recuperável - 736.000 m³ stdFator de recuperação - 23%

736.000

Figura 3.6: Exemplo de Volume Recuperável e Fator de Recuperação.Thomas (2001)

indica o provável comportamento futuro do reservatório. Como decorrer do tempo, nada

mudará em termos físicos do reservatório, porém a contribuição das informações obtidas

durante anos de produção possibilitará um aprimoramento dos estudos e uma estimativa

de valores provavelmente mais corretos.

Para se fazer a estimativa do volume recuperável, além do estudo do reservatório

deve-se levar em consideração outros aspectos técnicos e econômicos, pois além dos in-

vestimentos iniciais para a perfuração dos poços existem também outros custos relativos

à operação e manutenção do sistema.

À medida que o tempo vai passando a produção de petróleo vai decrescendo, tendendo-

se à situação em que a receita proveniente da venda do petróleo é insuficiente para cobrir

as despesas de manutenção da operação. Essa é a condição de abandono do projeto.

Portanto, o volume recuperável e por consequência o fator derecuperação sofrem alte-

rações ao longo da vida produtiva do reservatório, não só pelas novas informações obtidas

sobre a formação, mas também pelas mudanças que ocorrem no cenário econômico.

Page 42: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 30

3.5 Métodos de Cálculo para Estimativas de Reservas

Existem diversas maneiras de se estimar os volumes originais e de reserva de uma

jazida de petróleo. Dentre os métodos utilizados destacam-se a analogia, a análise de

risco, o método volumétrico e a performance do reservatório.

A analogia e a análise de risco são procedimentos realizadosantes da perfuração do

poço descobridor e as estimativas são feitas a partir dos dados sísmicos e resultados de

reservatórios localizados nas proximidades, os quais se acredita tenham características

semelhantes às do reservatório que está sendo estudado. A diferença entre estes métodos

está no fato de que a análise de risco possui uma certa sofisticação no tratamento esta-

tístico dos dados e os resultados são apresentados não como um valor único, mas como

uma faixa de resultados possíveis. No método volumétrico efetua-se o cálculo do volume

original de fluido a partir de dados obtidos de ensaios, tais como: volume total da rocha,

porosidade média, saturação de fluidos e fator volume de formação do fluido.

A performance do reservatório são modelos em que a previsão do comportamento

futuro (ou performance) do reservatório se baseia em seu comportamento passado. Para

que esta previsão seja feita é necessário conhecer o histórico de produção e em alguns

casos o mecanismo de produção do reservatório. Os principais métodos que fazem parte

do grupo chamado performance do reservatório são: a análisedo declínio de produção,

a equação de balanço de materiais e a simulação matemática dereservatórios. A escolha

entre um ou outro método depende da quantidade e do tipo de dados disponíveis, além da

disponibilidade de recursos computacionais.

A análise de declínio de produção baseia-se na observação docomportamento das va-

zões de produção ao longo do tempo. A partir da análise do histórico de produção pode-se

caracterizar a tendência de declínio da vazão e com a extrapolação dessa tendência pas-

sada, estima-se o comportamento futuro da produção. A equação de balanço de materiais

é uma relação que associa o balanço de massa dos fluidos do reservatório com as reduções

Page 43: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 31

de pressão no seu interior.

A equação é escrita em função das propriedades da rocha e do comportamento do

fluido em função da pressão, das propriedades rocha-fluido, do histórico de produção e

do mecanismo de produção. Como esta equação descreve o comportamento passado do

reservatório relacionando a produção acumulada com a quedade pressão, admite-se que

a mesma também é capaz de descrever o comportamento futuro doreservatório.

A simulação matemática de reservatórios se aplica à utilização de simuladores numé-

ricos e computacionais em estudos de reservatórios. Os procedimentos utilizados para

se fazer as previsões do comportamento futuro são semelhantes aos da equação de ba-

lanço de materiais com informações geológicas, dados da rocha e do fluido para que se

reproduza o histórico de produção. A diferença entre os doisprocessos está na maneira

como o reservatório é tratado. Na equação de balanço de materiais se utiliza uma única

equação descrevendo o reservatório como um único bloco com propriedades uniformes.

Já a simulação é capaz de subdividi-lo em células menores compropriedades diferentes

envolvendo um grande número de equações que representam o fluxo no meio poroso.

3.6 Simulação Matemática de Reservatórios

Os simuladores de sistemas podem ser classificados entre físicos e matemáticos. Os

físicos são, por exemplo, os simuladores analógicos, os modelos reduzidos e os protótipos.

Os simuladores matemáticos podem ser subdivididos em analíticos e numéricos.

A simulação numérica é dos métodos empregados na engenhariade petróleo para se

estimar características e prever o comportamento de um reservatório de petróleo. Esses

simuladores são conhecidos como simuladores numéricos de fluxo, devido ao fato de

que são utilizados para se estudar o comportamento do fluxo defluidos em reservatórios

empregando uma solução numérica.

A classificação dos simuladores numéricos é feita normalmente em função de três

Page 44: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 32

características básicas: O tratamento matemático utilizado, o número de dimensões con-

sideradas e o número de fases admitidas.

⋆ Classificação pelo Tratamento Matemático

• Modelo tipo Betaou volumétrico: Também conhecido comoblack oil, o modelo

envolve funções da pressão e da temperatura do reservatório. Admite-se que cada

das várias fases (água, óleo ou gás) eventualmente presentes no reservatório seja

constituída de um único componente.

• Modelo composicional:Esse modelo considera não somente a pressão e a tempe-

ratura do reservatório, mas também as composições das diversas fases presentes no

meio poroso.

• Modelo térmico: Utilizado quando é necessário considerar os efeitos de variações

da temperatura no interior do reservatório, como por exemplo no caso em que é

estudada a aplicação de um método térmico de recuperação secundária. Os mode-

los térmicos, devido ao fato de tratarem situações complexas, são necessariamente

composicionais.

⋆ Classificação pelo Número de Dimensões

• Unidimensional: Quando admite fluxo em uma única direção.

• Bidimensional: Simula o fluxo em duas direções. Neste caso pode-se representar

um fluxo horizontal, um fluxo vertical ou um fluxo radial.

• Tridimensional: Admite-se que o fluxo de fluidos no meio poroso ocorra nas três

direções:x, y ez.

⋆ Classificação de Acordo com o Número de Fases

• Monofásico: Considera a presença de uma só fase no reservatório (gás, óleoou

água).

Page 45: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 33

• Bifásico: Considera a presença de duas fases, normalmente água e óleo (reservató-

rio de óleo) ou gás e água (reservatório de gás).

• Trifásico: Considera a ocorrência de três fases no reservatório (água, gás e óleo).

3.6.1 Uso de Simuladores numéricos para Estudos de Reservatórios

Por meio do uso de simuladores numéricos é possível obter informações geológicas,

sobre as propriedades da rocha e dos fluidos existentes no meio poroso, informações sobre

os históricos de produção (vazão, produção acumulada) e de pressão, e outras informa-

ções a respeito dos poços de petróleo, como característicasde completação. Esse tipo

de ferramenta permite a obtenção de informações sobre o desempenho de um campo ou

reservatório sob diversos esquemas de produção, de modo quepodem ser determinadas

as condições ótimas para se produzir esse campo. Mais especificamente, pode ser ana-

lisado o comportamento de um reservatório quando sujeito à injeção de diferentes tipos

de fluido, analisada a influência de diferentes vazões de produção ou injeção, ou determi-

nado o efeito da localização dos poços e do espaçamento entreeles na recuperação final

de óleo ou gás.

As etapas normalmente seguidas na execução de um estudo de reservatório, utilizando

simuladores numéricos, podem ser resumidas da seguinte forma:

• Coleta e Preparação dos Dados:Procura-se armazenar e interpretar todos os da-

dos disponíveis sobre o reservatório em questão, incluindogeologia, rocha, fluidos,

produção e completação dos poços.

• Preparação do Modelo Numérico:Nesta etapa faz-se o lançamento degrid, ou

seja, constrói-se uma malha para transpor as informações necessárias. Consiste

em dividir o reservatório em várias células, cada uma delas funcionando como um

reservatório.

• Ajuste de Histórico: O objetivo é calibrar o modelo numérico com o reservatório

Page 46: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 3. FUNDAMENTOS DE ENGENHARIA DE RESERVATÓRIOS 34

real a partir dos melhores dados disponíveis referentes aoshistóricos de produção e

de pressão. O ajuste consiste em calcular o comportamento passado do reservatório

e comparar com o histórico do campo. Se os dados fornecidos forem adequados,

provavelmente um bom ajuste de histórico será obtido e o modelo poderá ser usado

para se efetuar previsões confiáveis em relação ao seu comportamento futuro.

• Extrapolação: Essa etapa consiste na utilização do modelo para se prever o com-

portamento futuro do reservatório. Nessa previsão podem ser impostas vazões para

todos os poços, as pressões de fluxo dos poços e até mesmo que uma vazão seja

mantida até que a pressão caia abaixo de um limite onde então éiniciado um pro-

jeto de injeção de água ou vapor. Enfim, vários esquemas de explotação podem ser

avaliados, e uma análise econômica pode ser feita com os resultados, de forma que

se possa decidir pelo esquema ótimo de produção.

Page 47: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4

Metodologia

Page 48: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 36

4.1 Introdução

Por serem equipados com instrumentação, os campos inteligentes de petróleo se com-

portam como fontes de dados de um reservatório em tempo real.Estes quando são arma-

zenados, formam uma base de dados sobre o campo, cuja principal finalidade é de auxílio

no processo de tomada de decisão.

No âmbito da automação, o sistema inteligente de auxílio à tomada de decisão pode

ser representado pela figura 4.1 a seguir:

Supervisão

Controle e Automação

Sensores e Atuadores

Planta Industrial: Poços Petrolíferos

SistemaInteligente

Figura 4.1: Pirâmide da Automação em Processos Industriais.

De acordo com a figura, na base da pirâmide da automação está representada a parte

física do processo, ou seja, os poços do campo com seus respectivos equipamentos de

elevação artificial, tais como: unidades de bombeio mecânico, BCS (bombeio centrífugo

submerso), BCP (bombeio por cavidades progressivas) e etc.

Acima do nível da planta física está o nível onde se encontramos sensores e os atua-

dores do processo, os quais são responsáveis por aquisitar os dados do campo bem como

intervir no processo quando necessário.

O nível hierárquico logo acima dos sensores e atuadores é o decontrole e automação.

Neste nível está localizado o controle direto do processo, ou seja, as variáveis do campo

são aquisitadas pelos sensores e enviadas ao controlador localizado nesse nível que é

Page 49: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 37

responsável por manter os valores dessas variáveis dentro de uma faixa recomendada

de operação. O controlador também é responsável por enviar sinais de comando aos

atuadores, quando necessário for.

No nível de supervisão é possível monitorar em tempo real as variáveis do processo

que estão sendo controladas no nível de controle e automação. Os dados coletados pelos

sensores são enviados a uma estação central e visualizados em uma tela de supervisório

permitindo a intervenção remota do operador na planta remotamente. As informações

coletadas são armazenadas em uma base de dados e alimentam o histórico de produção

do reservatório que por sua vez é componente essencial do nível hierárquico superior onde

está localizado o sistema inteligente de auxílio à tomada dedecisão desenvolvido nesse

trabalho.

Como pode-se observar, o sistema inteligente encontra-se notopo da pirâmide da

automação e seus parâmetros de entrada provêm diretamente do histórico de produção

do campo de petróleo. A saída do sistema representa a alternativa de desenvolvimento

ótima para o campo, de forma que o mesmo promova o melhor resultado do ponto de

vista econômico ao longo dos próximos anos.

Em outras palavras, deve-se maximizar o VPL calculado com base no preço do petró-

leo e no perfil de produção de petróleo obtido a partir do simulador de reservatório.

O sistema inteligente deve auxiliar em tomadas de decisões que envolvam problemas

como:

• Decidir quando se deve iniciar ou interromper a injeção de vapor de forma contínua

em determinado poço injetor;

• Decidir quais os momentos mais viáveis para a realização de ciclos de vapor em

determinado poço do campo.

Neste trabalho, a otimização do sistema é realizada com o usode uma técnica inteli-

gente conhecida como aprendizado por reforço, que é uma técnica de natureza estocástica

Page 50: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 38

e que tem como base a área de estudo de aprendizado de máquinas. O aprendizado por

reforço, tem se apresentado como uma poderosa ferramenta emproblemas de tomada de

decisões onde muitas variáveis estão envolvidas. Um dos objetivos desta proposta é inves-

tigar esta técnica e analisar seu desempenho em problemas reais da indústria do petróleo.

4.2 Arquitetura do Sistema

O sistema inteligente é composto por 3 módulos: o módulo otimizador, o simulador

de reservatórios STARS e o módulo de cálculo do VPL.

O módulo otimizador contém o algoritmo de aprendizado por reforço Q-Learning,

o qual determina os parâmetros que configuram certa alternativa de desenvolvimento de

produção. Uma alternativa de desenvolvimento é definida como uma combinação de se-

quencias de injeções de vapor ao longo de 5 anos. Essa alternativa é então submetida ao

simulador de reservatórios, o qual fornece como saída as curvas de previsões de produção

de óleo, gás e água da alternativa. Os valores de previsão sãoutilizados para calcular o

VPL associado à alternativa, que por sua vez servirá de base para o cálculo do valor de

reforço no módulo otimizador. A arquitetura do sistema é apresentada na figura 4.2.

Simulador de

Reservatórios(STARS)

Alternativa

Sistema

Otimizador

Cálculo

do VPLPreço do

Petróleo

Avaliação

(VPL)

Curva de

Produção

Figura 4.2: Arquitetura do Sistema.

Ao longo das iterações, o sistema inteligente será capaz de comparar diversas alterna-

tivas de produção, para então sugerir aquela que representará a melhor tomada de decisão

Page 51: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 39

para a situação em questão. Deve ser levado em conta que o objetivo buscado não é a

obtenção de ótimos locais, mas sim a maximização do VPL ao longo do tempo (horizonte

de otimização).

4.3 Modelagem do Problema

4.3.1 Modelagem do Reservatório

Como muitas variáveis estão envolvidas no problema de otimização da produção, a

modelagem de um reservatório real em um simulador matemático demandaria um alto

tempo computacional. Tendo isso em vista, foi realizada neste trabalho uma modelagem

simples, simulando um modelo5-spotem um reservatório homogêneo com dimensão 200

x 200 x 26 metros divididos em um grid 41 x 41 x 23 blocos. Os 5 poços do campo estão

localizados nas extremidades e no centro do campo, sendo sempre 4 produtores e um

injetor, conforme pode ser observado na figura 4.3.

Figura 4.3: Modelagem do Reservatório em Estudo.

Page 52: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 40

4.3.2 Modelagem dos Componentes do Sistema Otimizador

O sistema inteligente desenvolvido caracterizou o problema de otimização como uma

máquina de estados. Para isso, faz-se necessário definir alguns componentes essenciais

na modelagem de um problema de AR: o espaço de estados do ambiente e o conjunto

de ações possíveis do agente dentro do ambiente, a função de retorno e o horizonte de

otimização, dividido em etapas (instantes de decisão).

O Espaço de Estados

O espaço de estados no ambiente é representado pela produçãoanual de petróleo no

campo, de tal forma que todos os valores possíveis de produção estejam discretizados e

distribuídos em 10 faixas de valores distintos. Dessa forma, o objetivo do sistema otimiza-

dor é sempre identificar qual a melhor ação a ser tomada no momento diante de qualquer

valor de produção apresentado. Uma ilustração do espaço de estados do ambiente é apre-

sentada na tabela 4.1.

Tabela 4.1: Exemplo de Espaço de Estados no Ambiente.Estado Produção Anual Melhor Ação

1 < 1.600m3 Injetar2 < 1.800m3 Não Injetar3 < 2.000m3 Injetar4 < 2.200m3 Injetar5 > 2.200m3 Não Injetar

A cada iteração do algoritmo, uma curva de produção associada à alternativa é gerada

pelo simulador, e a produção anual refere-se à diferença da produção acumulada entre

o ano atual e o anterior. Um exemplo de curva de produção acumulada gerada pelo si-

muladorSTARSpode ser vista na figura 4.4. A partir dessa, foi calculada a produção de

petróleo do ano de 2001 (2.100m3), também destacada na figura.

Desta forma, a intenção do sistema é analisar o comportamento da produção do campo

Page 53: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 41

2.100 m³/ano

Pro

duçã

o d

e Ó

leo

Acu

mula

da (

m³)

Tempo (Data)

Figura 4.4: Exemplo de curva de produção acumulada e produção anual de um campo.

mediante à aplicação de uma ação a cada instante de decisão. Este comportamento pode

ser observado nas figuras 4.5 e 4.6 onde são apresentadas as produções anuais para dife-

rentes alternativas de produção.

2.630 m³/ano

Pro

du

ção

An

ua

l de

Óle

o (

m³)

Tempo (Data)

Figura 4.5: Curva de produção anual para a alternativa sem injeção contínua de vapor.

Page 54: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 42

2.940 m³/ano

Pro

du

ção

An

ua

l de

Óle

o (

m³)

Tempo (Data)

Figura 4.6: Curva de produção anual para a alternativa com injeção contínua de vapor.

Note que entre os anos de 2004 e 2005 a diferença de produção entre as alternativas é

bem significativa e refere-se à decisão de injetar ou não injetar vapor contínuo no campo

ao longo desse ano.

O Episódio

Um episódio do algoritmo corresponde a uma simulação da produção do campo ao

longo de 5 anos, ou seja 5 iterações. O final de cada ano de simulação representa um

instante de decisão, onde se deve escolher uma das ações possíveis no ambiente.

O Conjunto de Ações do Ambiente

O conjunto de ações do ambiente deve ser modelado de acordo com o objetivo que se

quer alcançar com o sistema, ou seja, de acordo com a variáveldo processo que deve ser

otimizada. Existem inúmeras possibilidades de otimizaçãona produção de petróleo, po-

rém neste trabalho escolheram-se dois estudos de caso envolvendo as seguintes variáveis:

Page 55: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 43

• Estudo de Caso 1: Decisão de injetar ou não injetar vapor de forma contínua no

campo de produção. O conjunto de ações para o estudo de caso 1 édado por A =

{Injetar, Não Injetar};

• Estudo de Caso 2: Decisão de injetar ou não injetar vapor de forma cíclica no campo

de produção. De forma análoga ao caso 1, o conjunto de ações para o estudo de caso

2 é dado por A = {Injetar, Não Injetar}.

O Retorno

O valor do reforço em um sistema AR deve sempre representar deforma mais real

possível o retorno que o agente obtém com determinada decisão. Diante disso, o cál-

culo do reforço nesse trabalho incorporou um método de análise de rentabilidade muito

utilizado no mercado de petróleo, o VPL - Valor Presente Líquido.

O VPL é uma técnica sofisticada de análise de orçamentos de capital, obtida subtraindo-

se o investimento inicial de um projeto do valor presente dasentradas de caixa descontada

a uma taxa igual ao custo de capital da empresa. Essa taxa, frequentemente chamada de

taxa de desconto, custo de oportunidade ou custo de capital,refere-se ao retorno mínimo

que deve ser obtido por um projeto, de forma a manter inalterado o valor de mercado da

empresa.

Neste trabalho o custo de oportunidade foi estimado em 12% a.a, de forma que, a cada

iteração do algoritmo, o VPL associado à decisão é calculadoda seguinte forma:

VPL=((ganho de óleo no ano * R$m3 do óleo) - custo do vapor no ano)

(1,12)t (4.1)

onde se estimou, com o auxílio de profissionais experientes na área, o preço do barril do

petróleo em U$$ 60,00 e o custo total de injeção de vapor em R$ 50,00/ton de vapor

(incluindo custos de pessoal, manutenção e combustível).

O VPL calculado é então normalizado e utilizado como valor dereforço no algoritmo

Page 56: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 44

de aprendizado a fim de recompensar ou punir o agente pela decisão tomada naquele

momento.

4.4 O Algoritmo

++

rQ (x,a)k

Q (x,a)k-1

Estado x

Avaliação

da

Tabela

da

Função

Valor-Ação

Percepção

de Estado

Seletor

de Ação

Agente

Crítico

Figura 4.7: Fluxo de Dados no Algoritmo de Aprendizado por Reforço.

Assim como qualquer sistema baseado em um algoritmo de aprendizado por reforço,

o sistema inteligente desenvolvido neste trabalho cumpre três etapas básicas em cada ciclo

de execução. A figura 4.7 apresenta um esquema do fluxo de dadosno algoritmo, onde é

possível analisar a relação entre as mesmas.

A etapa inicial consiste na percepção do estado atual, já queno aprendizado por re-

forço o ambiente é composto por um espaço de estados possíveis. Como na nossa modela-

gem um estado é representado como uma faixa de valores de produção anual de petróleo,

o agente deverá perceber em qual destas faixas a produção atual se encaixa.

Após a percepção do estado, o agente passa para a etapa seguinte, onde se deve es-

colher a melhor ação ser realizada naquele momento. A escolha dessa ação é baseada

na estimativa do retorno acumulado a partir do estado atual,de modo que aquela que lhe

proporcionou melhores resultados ao longo da execução, terá maiores chances de ser a es-

Page 57: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 45

colhida. Esse processo de escolha foi implementado com o usode uma técnica e-gulosa,

onde atribui-se probabilidades de escolha a cada uma das ações possíveis, evitando a

ocorrência de máximos locais durante a execução.Como nosso conjunto de ações está re-

lacionado à decisão de injetar ou não vapor no campo, em resumo, a etapa de escolha da

ação deverá definir se no próximo intervalo de simulação haverá ou não esta injeção.

Depois de escolhida a ação, é possível saber qual será o novo estado do ambiente, ou

seja, a nova produção anual de petróleo dada a decisão de injetar ou não vapor no campo.

Essa produção será obtida com o auxílio do simulador de reservatório que retornará uma

previsão da curva de produção associada à decisão tomada. Esse novo valor de produção

possibilita uma avaliação dessa nova alternativa de produção para saber se a tomada de

decisão lhe rendeu um bom ou um mau resultado. Essa avaliaçãocompõe a terceira etapa

do sistema, a qual permite realizar uma análise econômica dasolução escolhida, para

avaliar o impacto da mesma no cenário e em função disso, o crítico possa retornar um

valor de reforço em forma de recompensa ou punição. A partir desse momento, um novo

ciclo se inicia onde a nova produção de petróleo passará a sero estado atual do ambiente.

A figura 4.8 apresenta um esquema do fluxo das iterações do algoritmo para um epi-

sódio de 5 anos. Note que para cada iteração, é calculada uma produção anual e seu

respectivo VPL antes de iniciar a iteração seguinte.

Page 58: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 4. METODOLOGIA 46

Iteração: 1Estado: 0Ação escolhida: 0 (injetar)Produção anual: 3.000 m³VPL: R$ 442.000,00

0 00

000

0000

10000

Ações

Iteração: 2Estado: 4Ação escolhida: 0 (injetar)Produção anual: 2.250 m³VPL: R$ -125.000,00

Ações

Iteração: 3Estado: 6Ação escolhida: 0 (injetar)Produção anual: 2.050 m³VPL: R$ -275.000,00

Ações

Iteração: 4Estado: 2Ação escolhida: 0 (injetar)Produção anual: 2.400 m³VPL: R$ 0,00

Ações

Ações

Iteração: 5Estado: 9Ação escolhida: 1 (não injetar)Produção anual: 2.650 m³VPL: R$ 2.000.000,00

Retorno = r1

Retorno = r2

Retorno = r3Retorno = r4

Retorno = r5

Figura 4.8: Fluxo das iterações do algoritmo durante a simulação.

Page 59: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5

Resultados e Discussões

Page 60: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 48

5.1 Introdução

Este capítulo se dedica à apresentação dos resultados obtidos no que diz respeito à

otimização dos problemas submetidos ao sistema inteligente desenvolvido.

O sistema inteligente desenvolvimento foi implementado nalinguagem C++ com o

auxílio da ferramenta Dev-C++ 4.9.9.2 e trabalha em conjunto com o simulador de reser-

vatórios STARS da CMG versão 2007.1 na plataforma Windows.

A seguir serão apresentados experimentos realizados com base nos dois estudos de

casos citados na seção 4.3.2, onde todos os resultados apresentados foram obtidos nas

seguintes condições:

• Número de iterações do algoritmo: 500;

• Para o cálculo da probabilidade de escolha da ação foi utilizado o valorε = 0.6 para

as primeiras 100 iterações do algoritmo eε = 0.1 para as demais;

• Os parâmetros de aprendizadoγ (taxa de desconto temporal) eα (taxa de aprendi-

zado) foram configurados com os seguintes valores:γ = 0.9 eα = 0.1.

5.2 Estudo de Caso 1

Para este estudo de caso, tem-se o objetivo de otimizar a produção de petróleo ao

se fazer uso da injeção contínua de vapor, observando, é claro, os aspectos econômicos

envolvidos na operação. Neste caso, o conjunto de ações do ambiente se dará por duas

ações diferentes: injetar ou não injetar vapor no poço injetor que está localizado no centro

do campo.

A injeção de vapor é realizada de forma contínua durante o período de um ano, a uma

vazão de 100 ton/dia e ao final de cada período deve-se decidirse a injeção continuará ou

se deverá ser interrompida.

Page 61: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 49

T=4

Pro

du

ção

An

ua

l de

Óle

o (

m³)

Tempo (Data)

Figura 5.1: Comparação dos efeitos de tomadas de decisão distintas no ano de 2004.

A figura 5.1 apresenta um exemplo de uma sequência de decisõesno tempo, onde no

instanteT = 4 é destacado o contraste dos efeitos de tomadas de decisão distintas nesse

momento. Destacada de azul encontra-se a produção anual do campo após a decisão de

não injetar vapor durante o ano em questão. De vermelho é apresentada a produção anual

após um ano de injeção contínua. É notável que, para esta alternativa de produção, a

decisão de injetar vapor no instante em questão ocasionariaum valor maior de produção.

Não é garantido, porém, que esta mesma alternativa retorne omaior VPL.

Após várias simulações e experimentos analisando todas as combinações possíveis de

decisões, observou-se que os maiores valores de produção são obtidos quando existe a

injeção contínua de vapor em todos os períodos de decisão. Esta alternativa de desen-

volvimento (injeção em todos os períodos em decisão), obteve uma produção acumulada

de 12.636m3 ao longo dos 5 anos. A curva de produção acumulada para a alternativa 1,

chamaremos assim a partir de agora, é apresentada na figura 5.2.

Apesar desta alternativa retornar os maiores valores de produção de petróleo para o

campo, a mesma não apresenta um bom desempenho quando é avaliada pelo ponto de

Page 62: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 50

Pro

du

ção

de

Óle

oA

cum

ula

da

(m

³)

Tempo (Data)

Figura 5.2: Curva de produção acumulada para a alternativa 1.

vista econômico.

Ao utilizar o VPL como forma de avaliação da alternativa, a opção de injetar vapor em

todos os períodos não se mostrou como a alternativa de melhorviabilidade econômica.

Ao contrário disso, o sistema otimizador revelou que a alternativa que lhe renderia o

melhor resultado do ponto de vista econômico seria o desenvolvimento do campo sem

a injeção de vapor ao longo dos 5 anos. Este resultado pode serobservado na tabela

5.1, que apresenta os valores da matrizQ(s,a) do sistema otimizador após o final de seu

aprendizado.

Nesta tabela, é notável que para todos os estados do sistema,os valores da matriz são

bem maiores para a ação de não injetar vapor, o que nos deixa concluir que independente

do valor de produção apresentado, a melhor decisão a ser tomada será sempre a de não

injetar vapor.

A alternativa de não injetar vapor em nenhum dos períodos de desenvolvimento (al-

ternativa 2) retorna a curva de produção acumulada apresentada na figura 5.3.

Page 63: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 51

Tabela 5.1: Valores Finais da MatrizQ(s,a) para o Estudo de Caso 1.Estado Com Vapor Sem Vapor

0 4.339 6.1491 4.249 5.9382 541 4.5203 2.131 5.5354 604 4.2995 4.183 5.8096 1.104 4.4017 2.775 5.7078 4.402 5.784

Pro

du

ção

de

Óle

oA

cum

ula

da

(m

³)

Tempo (Data)

Figura 5.3: Curva de produção acumulada para a alternativa 2.

Page 64: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 52

Como podemos notar, a produção acumulada para esta alternativa é de 10.062m3 de

petróleo ao longo de 5 anos, ou seja, quase 2.600 m3 de óleo a menos quando compa-

rada com a produção da alternativa anterior. A indicação da alternativa 2 pelo sistema

otimizador, mesmo diante da visível perda de produção, é devida aos valores de VPL que

esta alternativa apresenta, que conforme mostrado na figura5.4, são bem maiores que os

valores da alternativa 1.

Figura 5.4: Comparação de VPLs entre as Alternativas de Desenvolvimento.

Note na figura 5.4, que na alternativa com injeção de vapor, o VPL se apresenta ne-

gativo logo após o primeiro ano de produção e que ainda os valores de VPL anual para

a alternativa sem vapor são sempre maiores que os valores da alternativa com vapor du-

rante os cinco 5 anos. Isto acontece porque apesar do uso da injeção contínua aumentar

a produção de óleo no campo, esse aumento não é suficiente paraindicar a viabilidade

econômica da injeção. Em outras palavras, os incrementos devolume de produção com

o uso da injeção contínua de vapor no reservatório estudado,são muito pequenos quando

comparado ao custo que se tem com esta injeção.

Como prova disso, podemos analisar o desempenho das alternativas em cada período

de decisão através dos dados da tabela 5.2. Esta tabela compara os volumes de produção

anual das alternativas, retirados das curvas de produção apresentadas nas figuras 5.5 e 5.6.

Page 65: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 53

Note que a diferença entre os volumes de produção das alternativas é muito pequeno, ex-

ceto no último ano de simulação onde a produção da alternativa 1 é o dobro da alternativa

2, resultado da influência do vapor dos anos anteriores.

Tabela 5.2: Diferença entre os volumes de produção anuais das alternativas 1 e 2.Ano Alternativa 1 Alternativa 2 Diferença2000 3.010 2.940 702001 2.194 2.148 462002 2.058 1.850 2082003 2.430 1.640 7902004 2.945 1.484 1.461

Pro

du

ção

An

ua

l de

Óle

o (

m³)

Tempo (Data)

Figura 5.5: Curva de produção anual da alternativa 1.

Esta diferença de 1.461m3 equivale a cerca de 1m3/dia de óleo em cada um dos qua-

tro poços produtores do campo e geraria uma receita de R$ 1.095.375,00. Porém, o custo

da injeção contínua de vapor em um ano é estimado em R$ 1.822.500,00, o que resul-

taria em um VPL de R$−462.101,00, provando que a atividade não é economicamente

recomendada. Considerando o custo do vapor de R$ 50,00/ton, o incremento mínimo de

Page 66: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 54

Pro

du

ção

An

ua

l de

Óle

o (

m³)

Tempo (Data)

Figura 5.6: Curva de produção anual da alternativa 2.

produção que compensaria a injeção contínua é de 2.434m3/ano.

Além do VPL, outro indicador econômico muito utilizado na indústria do petróleo é

a razão óleo/vapor (ROV), que é a razão entre o volume de óleo ganho com a injeção

de vapor e o volume de vapor injetado no campo. Trata-se de um indicador prático que

expressa o quão bom foi resultado obtido com a injeção de vapor. Após vários cálculos,

levando-se em consideração os custos do gás, do óleo e suas respectivas eficiências ener-

géticas, os especialistas da área definiram uma constante que representa a ROV limite, ou

ROV econômica, para que haja viabilidade econômica na atividade. A ROV econômica

normalmente tem o valor de 0.07, ou seja, para que a injeção seja viável deve-se obter

pelo menos 70m3 de óleo para cada 1000 ton de vapor injetado. Os valores de ROVsão

calculados da seguinte forma:

ROV=Volume de óleo adicional obtido devido à injeção de vapor

Volume de vapor injetado(5.1)

Para a alternativa 1 os valores de ROV são apresentados na tabela 5.3. Note que a

Page 67: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 55

ROV do primeiro e do último são maiores que 0.07, porém a ROV do período de 5 anos é

menor que a ROV econômica, comprovando o resultado que a alternativa 1 não é viável

economicamente. Na prática, esse indicador é bastante utilizado, de forma que, caso a

ROV do projeto esteja acima da ROV econômica, o mesmo será considerado viável e sua

implantação efetivada.

Tabela 5.3: Valores de ROV da alternativa 1.2000 2001 2002 2003 2004 Período0,082 0,060 0,056 0,067 0,081 0,069

Diante do exposto, pode-se concluir que embora a alternativa 1 promova os melhores

volumes de produção, é a alternativa 2 que promove os melhores resultados do ponto de

vista econômico.

5.3 Estudo de Caso 2

De forma análoga ao caso anterior, o estudo de caso 2 tem o objetivo de otimizar do

ponto de vista econômico a injeção de vapor em um campo de petróleo, onde a injeção se

dará de forma cíclica e não contínua.

Desta forma, o conjunto de ações do ambiente também será composto por duas ações

diferentes: injetar ou não injetar vapor de forma cíclica nopoço que está localizado no

centro do campo.

A injeção de vapor é realizada por meio de ciclos com duração de 1 ano, onde o vapor

é injetado no poço escolhido nos 10 primeiros dias do ciclo a uma cota de 100 ton/dia.

Durante os próximos 7 dias o mesmo ficará inativo realizando afase desoaking, onde

espera-se que a transmissão do calor do vapor para óleo seja efetivada. Passada a fase

desoaking, o poço voltará a produzir petróleo até que um novo ciclo de injeção se inicie

após um ano. Sendo assim, o objetivo do sistema otimizador é decidir ao final de cada

Page 68: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 56

ciclo, se o poço deverá continuar na fase de produção ou se um novo ciclo de injeção de

vapor deverá se iniciar.

Após vários experimentos constatou-se que os maiores volumes de produção foram

obtidos com alternativa onde são realizados ciclos de vaporem todos os períodos de

decisão. Esta alternativa proporcionou uma produção acumulada ao longo dos 5 anos

de 20.293m3 e sua curva de produção pode ser observada na figura 5.7.

Pro

du

ção

de

Óle

oA

cum

ula

da

(m

³)

Tempo (Data)

Figura 5.7: Curva de produção acumulada da alternativa com injeção cíclica de vapor.

Ao utilizar o VPL como forma de avaliação da alternativa, o sistema otimizador con-

firmou que a alternativa de realizar ciclos de vapor em todos os períodos de decisão é a de

melhor viabilidade econômica. Este resultado pode ser observado na tabela 5.4, que apre-

senta os valores da matrizQ(s,a) do sistema otimizador após o final de seu aprendizado.

Note que para todos os estados do sistema, os valores da matriz são sempre maiores

para a ação onde se deve injetar vapor, o que nos leva a concluir que independente do

valor de produção apresentado a melhor decisão a ser tomada será sempre a de injetar

vapor.

Perceba que enquanto que no estudo de caso 1 com a injeção contínua a alternativa

Page 69: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 57

Tabela 5.4: Valores Finais da MatrizQ(s,a) para o Estudo de Caso 2.Estado Com Vapor Sem Vapor

0 3.387 1.8271 446 822 1.793 2843 1.816 4874 394 835 1.807 5006 1.945 1.4617 2.232 1.5028 2.669 1.540

ótima seria a de não injetar vapor em nenhum período, no estudo de caso 2 com a injeção

cíclica, a alternativa ótima se apresenta sendo justamenteo inverso, onde deve-se realizar

ciclos de vapor em todos os períodos.

Este contraste entre os resultados deve-se principalmenteao desempenho da injeção

cíclica nesse campo, a qual obteve um volume de produção de petróleo muito superior ao

da injeção contínua, 20.293m3 e 12.636m3 respectivamente. Um outro fator importante

foi a quantidade de dias em que se injetou vapor durante a simulação, já que na cíclica

injeta-se apenas durante 10 dias e não durante todo o ano comona contínua. Esse fator

faz com que o custo da injeção de vapor em um ano baixe de R$ 1.822.500,00 para R$

50.000,00, o que significa que um ganho 67m3 em um ano já compensaria a injeção desse

vapor. A figura 5.8 apresenta um gráfico comparativo entre os VPLs ao longo dos 5 anos

de simulação para o desenvolvimento do campo com a injeção contínua, injeção cíclica e

sem injeção de vapor.

Note que o VPL da alternativa com injeção cíclica é praticamente o dobro do VPL da

alternativa de desenvolvimento sem nenhuma injeção de vapor.

Page 70: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 58

Figura 5.8: Gráfico Comparativo de VPL: Contínua, Cíclica e Sem Vapor.

5.3.1 Experimento com Ciclos de Vapor com duração de 3 meses

Um segundo experimento realizado com base no estudo de caso 2, foi o de diminuir

a duração do ciclo de injeção de 1 ano para apenas 3 meses, com ointuito de otimizar o

tempo de intervalo entre as injeções cíclicas de vapor. Com o objetivo de reduzir o tempo

de simulação, esse experimento foi realizado apenas para o 1o ano de desenvolvimento

do campo, o qual apresenta os maiores valores de produção.

No resultado deste experimento também obteve-se como alternativa ótima a opção de

injetar vapor em todos os períodos de decisão, ou seja, a cada3 meses deve-se iniciar

um novo ciclo de injeção no campo. Esse resultado pode ser explicado pelo aumento

de 40% na produção de petróleo durante o 1o ano de simulação. As curvas de produção

acumulada das alternativas de apenas 1 ciclo e dos 4 ciclos de3 meses são apresentadas

nas figuras 5.9 e 5.10, respectivamente.

Page 71: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 59

Pro

du

ção

de

Óle

oA

cum

ula

da

(m

³)

Tempo (Data)

Figura 5.9: Curva de produção acumulada da alternativa com ciclo de 1 ano.

Pro

du

ção

de

Óle

oA

cum

ula

da

(m

³)

Tempo (Data)

Figura 5.10: Curva de produção acumulada da alternativa com ciclo de 3 meses.

Page 72: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 60

Isso significa que o incremento de produção que o vapor proporciona nesses 3 meses,

é suficiente para compensar os custos com a injeção e gerar lucros. Na figura 5.11, é

apresentada uma comparação dos resultados do 1o ano de simulação com o ciclo de 1 ano

e com ciclos de 3 meses.

Figura 5.11: Gráfico Comparativo de VPL, Volume de Produção e Valores de ROV.

Tabela 5.5: Comparação de VPL e ROV na injeção cíclicaProdução ROV VPL

Ciclo - 1 ano 3.010 3,0099 2.207.425Ciclo - 3 meses 6.994 1,7484 5.045.200

Note que a ROV para a alternativa em que apenas 1 ciclo de vaporé realizado durante

o ano é quase o dobro da ROV da alternativa com ciclos de 3 meses. Porém, os volumes

de produção e consequentemente os valores de VPL são bem maiores para a alternativa

onde se realiza ciclos de 3 em 3 meses.

Esta é uma observação importante, pois muitos especialistas se baseiam apenas na

ROV como indicador econômico para tomadas de decisões na área de petróleo. Se apenas

a ROV fosse utilizada como base para a tomada de decisão nessecaso, a alternativa com

apenas 1 ciclo de vapor durante o ano seria a escolhida, porémfica claro que esta não é

Page 73: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 5. RESULTADOS E DISCUSSÕES 61

a decisão que rende os melhores resultados econômicos. Dessa forma, esse experimento

prova que a análise para tomadas de decisões deve ser realizada por meio do VPL, o qual

incorpora variáveis como o preço do petróleo e do gás no mercado.

Page 74: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 6

Conclusão

Page 75: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 6. CONCLUSÃO 63

Este trabalho se propôs a investigar o desempenho da técnicade aprendizado por

reforço na otimização do desenvolvimento da produção através da maximização do VPL

ao longo do tempo.

A grande dificuldade encontrada no desenvolvimento deste trabalho foi com relação

ao uso do simulador matemático STARS, pois o mesmo necessitade um grande tempo de

execução para simular o comportamento de reservatórios relativamente simples, quando

comparados com situações reais encontradas na indústria dopetróleo. Este fator foi de-

cisivo para a escolha dos problemas a serem modelados para osestudos de casos, onde

limitações foram impostas aos modelos com o intuito de diminuir o tempo de simulação.

Apesar da pouca complexidade dos problemas estudados nessetrabalho diante da

magnitude dos problemas reais da indústria do petróleo, é possível notar que a técnica

de AR se mostrou bastante eficiente na otimização dos problemas modelados. Este bom

resultado pode sugerir o uso da técnica como ferramenta adicional no processo de tomadas

de decisões ao lado de outras técnicas já utilizadas atualmente, como a própria simulação

numérica. Além disso, mostra que o aprendizado por reforço écapaz de competir com

outras técnicas inteligentes já estudadas nesse tema, comoos algoritmos evolutivos.

Esse trabalho se mostra bastante relevante para o cotidianodos engenheiros de reser-

vatório, já que a atividade de otimizar o desenvolvimento daprodução torna-se bastante

complicada quando se há a necessidade de avaliar inúmeras alternativas sem o auxílio de

uma ferramenta computacional. Diante disso, a tomada de decisão é quase sempre ba-

seada na experiência do profissional tomando-se como base indicadores práticos como o

ROV. Porém conforme resultados apresentados, uma tomada dedecisão baseada no va-

lor presente líquido é bem mais confiável e rentável do ponto de vista econômico, o que

pode ser realizado facilmente por meio do uso de sistemas inteligentes como o que foi

desenvolvido nesse trabalho.

Como trabalhos futuros, sugere-se que a técnica de AR seja investigada em problemas

que busquem a otimização de outros aspectos da indústria do petróleo, tais como: as

Page 76: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

CAPÍTULO 6. CONCLUSÃO 64

cotas de injeção de vapor do campo, a localização dos poços injetores, profundidade ideal

da camada de injeção de vapor. Uma outra sugestão, é utilização de uma rede neural

como fonte das curvas de predição da produção de petróleo, aoinvés do uso do simulador

matemático. Isto aumentaria bastante o poder de computaçãodo sistema, já que o tempo

de simulação foi a grande restrição para o desenvolvimento desse trabalho.

Page 77: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

Referências Bibliográficas

Almeida, Luciana Faletti (2003),Otimização de alternativas para desenvolvimento de

campo de petróleo utilizando computação evolucionária, Dissertação de Mestrado,

PUC-RJ.

Almeida, Luciana Faletti (2007),Sistema Híbrido de Otimização de Estratégias de Con-

trole de Válvulas de Poços Inteligentes sob Incertezas, Tese de Doutorado, PUC-RJ.

Bianchi, Reinaldo Augusto Costa (2004),Uso de Heurísticas para a Aceleração do

Aprendizado por Reforço, Tese de Doutorado, Escola Politécnica da Universidade

de São Paulo.

Bittencourt, Antonio Carlos (1997),Optimizing Hydrocarbon Field Development Using

a Genetic Algorithm Based Approach, Tese de Doutorado, Stanford University.

Camponogara, Eduardo & Maurício Rangel Guimarães Serra (2005), Aprendizagem por

Reforço: Uma Primeira Introdução, Universidade Federal de Santa Catarina.

da Motta Salles Barreto, André (2008),Soluções Aproximadas para Problemas de To-

mada de Decisão Sequencial, Tese de Doutorado, COPPE/UFRJ.

da Silva, Luis Carlos Ferreira (2006),Inteligência Computacional para Predição de Pro-

dução de Reservatórios de Petróleo, Tese de Doutorado, COPPE/UFRJ.

de Araújo Cavalcante, José Sérgio (2004),Metodologia de Geração de Mapas de Quali-

dade com Aplicação na Seleção e Otimização de Estratégias deProdução, Disser-

tação de Mestrado, UNICAMP.

65

Page 78: Uma aplicação da apredizagem por reforço na otimização da ...Os dados coletados via o sistema de sensores alimentam um banco de dados e são CAPÍTULO 1. INTRODUÇÃO GERAL 4

REFERÊNCIAS BIBLIOGRÁFICAS 66

de Lima Júnior, Manoel Leandro (2005),Uma Contribuição à solução do Problema dos

k-Servos Usando Aprendizado por Reforço, Dissertação de Mestrado, Universidade

Federal do Rio Grande do Norte.

de Oliveira, Amanda Gondim (2006),Desenvolvimento de um ambiente de simulação

para o estabelecimento de trajetórias em ambientes com obstáculos usando apren-

dizagem por reforço, Trabalho de Conclusão de Curso, Universidade Federal do Rio

Grande do Norte.

Nepomucemo, Francisco (1997),Tomada de Decisão em Projetos de Risco na Exploração

de Petróleo, Tese de Doutorado, UNICAMP.

Pedroso, Carlos (1999),Otimização de Locações de Poços Usando Simulação Numérica

de Reservatórios, Dissertação de Mestrado, UNICAMP.

Rosa, Adalberto (2002),Previsão de Comportamento de Reservatórios de Petróleo: Mé-

todos Analíticos, Interciência Ltda.

Russel, Stuart & Peter Norvig (1995),Artificial Intelligence: A Modern Approach, Pren-

tice Hall.

Sutton, Richard S. & Andrew G. Barto (1998),Reinforcement Learning: An Introduction,

MIT Press.

Thomas, José Eduardo (2001),Fundamentos de Engenharia de Petróleo, Interciência

Ltda.

Valdivia, Yván Jesús Túpac (2005),Sistema Inteligente de Otimização de Alternativas de

Desenvolvimento de Campos Petrolíferos, Tese de Doutorado, PUC-RJ.

Villanueva, Juan Moises Mauricio (n.d.),Otimização de Alternativas de Desenvolvimento

de Campos Petrolíferos por Algoritmos Genéticos, Revista de Inteligência Compu-

tacional Aplicada, Vol X.