previsÃo de fÁcies deposicionais usando perfis de … · 2017. 11. 27. · ser o irm~ao que todos...

PREVISÃO DE FÁCIES DEPOSICIONAIS USANDO PERFIS DE POÇO DO

CAMPO DE NAMORADO

Lucas Lima de Carvalho

Projeto de Graduação apresentado ao Curso

de Engenharia Mecânica da Escola Politécnica,

Universidade Federal do Rio de Janeiro, como

parte dos requisitos necessários à obtenção do

t́ıtulo de Engenheiro.

Orientadores: Jules Ghislain Slama

Edmilson Helton Rios

Rio de Janeiro

Setembro de 2017

de Carvalho, Lucas Lima

PREVISÃO DE FÁCIES DEPOSICIONAIS USANDO

PERFIS DE POÇO DO CAMPO DE NAMORADO/

Lucas Lima de Carvalho. – Rio de Janeiro: UFRJ/Escola

Politécnica, 2017.

XIV, 57 p.: il.; 29, 7cm.



Projeto de Graduação – UFRJ/ Escola Politécnica/

Curso de Engenharia Mecânica, 2017.

Referências Bibliográficas: p. 55 – 57.

1. Machine Learning. 2. Predição de fácies. 3.

Métodos supervisionados. I. Ghislain Slama, Jules et al..

II. Universidade Federal do Rio de Janeiro, UFRJ, Curso

de Engenharia Mecânica. III. PREVISÃO DE FÁCIES

DEPOSICIONAIS USANDO PERFIS DE POÇO DO

CAMPO DE NAMORADO.

iii

À minha mãe e ao meu pai pelo

dom da vida e pelo amparo ao

longo desses anos. Ao Tiago por

ser o irmão que todos desejariam

ter e à Denise pelo carinho e

apoio em todas as horas.

iv

Agradecimentos

Agradeço primeiramente à minha famı́lia pelo apoio e dedicação durante todos estes

anos. Agradeço também a minha namorada, Denise, pelo carinho e paciência em

todas as etapas deste processo.

Agradeço à minha equipe na Schumberger pelo conhecimento compartilhado e

toda a ajuda prestada neste trabalho. Em especial à Laura Lima, Vanessa Simões e

Nadege Bize-Forest pelo apoio e discussões durante todo meu estágio.

Ao orientador Edmilson Rios pelo auxilio e ao orientador Jules pela acolhida do

assunto e disponibilidade.

v

Resumo do Projeto de Graduação apresentado à Escola Politécnica/UFRJ como

parte dos requisitos necessários para a obtenção do grau de Engenheiro Mecânico

PREVISÃO DE FÁCIES DEPOSICIONAIS USANDO PERFIS DE POÇO DO

CAMPO DE NAMORADO


Setembro/2017



Programa: Engenharia Mecânica

A perfilagem geof́ısica é realizada em quase todos o poços perfurados para ex-

ploração de petróleo. Estas medidas são importantes para avaliação da formação,

integridade de poços e estudo do reservatório. A identificação precisa de fácies

geológica só é posśıvel com a descrição de testemunhos ou plugs laterais. No en-

tanto, as operações para extração das rochas são muito caras, sendo assim limitadas

a pequenos intervalos. Este trabalho estuda a possibilidade da predição de fácies

deposicionais usando dados de perfis convencionais, tais como raio gama, resistivi-

dade, densidade e neutron e técnicas de aprendizado de máquinas. Algoŕıtimos de

’Support Vector Machine’, ’Random Forest’ e k vizinhos próximos foram aplicados

a dados brutos e depois a dados pré-processados. Este estudo foi realizado em um

dos mais produtivos reservatórios na Bacia de Campos, no sudeste brasileiro.

vi

Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment

of the requirements for the degree of Mechanical Engineer

MACHINE LEARNING SUPERVISED METHOD APPLICATION ON THE

NAMORADO FACIES PREDICTION PROBLEM


September/2017

Advisors: Jules Ghislain Slama


Department: Mechanical Engineering

Geo-petrophysical well logging is performed in almost all wells drilled for

petroleum exploration. They are important for formation evaluation, well integrity,

reservoir surveillance and reserve calculations. Accurate and high resolution iden-

tification of geological facies crossed by a well is only possible with the description

of rock samples coming from drilling cuts, whole cores or lateral plugs. However,

these technics are very expensive, time consuming and limited to specific intervals.

This work describes then how to predict depositional facies using conventional wire-

line logs, such as gamma ray, resistivity, density and neutron and; data mining

techniques. Support Vector Machine, Random Forest and k-nearest neighbors al-

gorithms were applied to a raw data set and also after a preprocessing workflow.

The study is performed in one of the most productive turbidite reservoir in Campos

Basin, Southeast Brazil.

vii

Sumário

Lista de Figuras xi

Lista de Tabelas xiv

1 Introdução 1

2 Descrição dos dados 3

2.1 Perfilagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 Testemunhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Campo de Namorado . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3.1 Poços dispońıveis . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3.2 Classificação dos testemunhos . . . . . . . . . . . . . . . . . . 6

2.3.3 Descrição dos perfis trabalhados . . . . . . . . . . . . . . . . . 6

2.4 Reorganização das Fácies . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Aprendizado de máquina 13

3.1 Definição e motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2 Métodos utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2.1 Support vector machine (SVM) . . . . . . . . . . . . . . . . . 14

3.2.2 Random forest . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.2.3 K vizinhos mais próximos (KNN) . . . . . . . . . . . . . . . . 18

4 Análise dos Dados 19

4.1 Cross-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2 Análise de componentes principais . . . . . . . . . . . . . . . . . . . . 19

4.3 Fácies vizinhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.4 Espessura média das fácies . . . . . . . . . . . . . . . . . . . . . . . . 22

viii

4.5 Presença das fácies por poço . . . . . . . . . . . . . . . . . . . . . . . 23

5 Metodologia 26

5.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.1.1 Transformação de ILD em log . . . . . . . . . . . . . . . . . . 26

5.1.2 Normalização . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

5.1.3 Regressão para DT . . . . . . . . . . . . . . . . . . . . . . . . 27

5.1.4 Volume de folhelho . . . . . . . . . . . . . . . . . . . . . . . . 28

5.1.5 Criação de zonas . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.2 Limpeza dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.3 Métodos de aprendizado de máquina supervisionado . . . . . . . . . . 30

5.3.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.3.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.3.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.4 Métricas de avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.4.1 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.4.2 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.4.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.5 Matriz de confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.6 Validação cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.6.1 Métricas de avaliação . . . . . . . . . . . . . . . . . . . . . . . 33

6 Resultados e discussões 35

6.1 Discussão dos parâmetro do caso Inicial . . . . . . . . . . . . . . . . . 35

6.1.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6.1.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 36

6.1.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.2 Avaliação dos resultados iniciais . . . . . . . . . . . . . . . . . . . . . 37

6.3 Remoção de Borda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

6.4 Discussão dos parâmetros caso final . . . . . . . . . . . . . . . . . . . 38

6.4.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

6.4.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.4.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

ix

6.5 Avaliação dos resultados finais . . . . . . . . . . . . . . . . . . . . . . 39

6.6 Comparação entre previsão final e inicial . . . . . . . . . . . . . . . . 39

6.6.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.6.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.6.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.7 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

7 Conclusão 54

Referências Bibliográficas 55

x

Lista de Figuras

2.1 Imagem dos dados do poço NA05 no software Techlog. . . . . . . . . 3

2.2 Perfilagem de poço (fonte: [4]). . . . . . . . . . . . . . . . . . . . . . 4

2.3 Rochas de testemunho (fonte: [6]). . . . . . . . . . . . . . . . . . . . 5

2.4 Localização campo de namorado (fonte: [8]). . . . . . . . . . . . . . . 8

2.5 produção campo de namorado (fonte: [8]). . . . . . . . . . . . . . . . 8

2.6 Imagem 7NA do programa AnaSeTe. . . . . . . . . . . . . . . . . . . 9

2.7 Numero de amostras de cada Facies original. . . . . . . . . . . . . . . 11

2.8 Numero de amostras de cada Facies após modificação. . . . . . . . . . 12

3.1 Imagem de descrição do processo SVM: a) sem e b) com penalização

(fonte: [15]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2 exemplo de transformação por kernel (fonte : [2]). . . . . . . . . . . . 16

3.3 Funcionamento Random Forest: A) representa a amostragem do con-

junto de dados de treino para cada árvore e B) representa o voto de

cada árvore para a decisão final (fonte : [3]). . . . . . . . . . . . . . . 17

3.4 Exemplo de aplicação do método KNN (fonte : [1]). . . . . . . . . . . 18

4.1 cross-plot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.2 pca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.3 Dados observados no software Techlog para o poço NA02. . . . . . . . 25

5.1 Exemplo de regressão dos k vizinhos. . . . . . . . . . . . . . . . . . . 28

5.2 Exemplo de zonation em 2 poços. . . . . . . . . . . . . . . . . . . . . 34

xi

6.1 Variação do parâmetro C para a avalição da acurácia nos conjuntos de

teste e treino, sendo Treino a avaliação do modelo aplicando o mesmo

no próprio conjunto de dados de treino, e teste a rotina apresentada

no trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

6.2 Variação do parâmetro C para avaliação do recall do caso inicial. . . . 41

6.3 Variação do parâmetro C para avaliação da precisão do caso inicial. . 41

6.4 Variação do parâmetro de profundidade da árvore. . . . . . . . . . . . 42

6.5 Variação do parâmetro de profundidade da árvore para avaliação do

recall do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

6.6 Variação do parâmetro de profundidade da árvore para avaliação da

precisão do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6.7 Variação do parâmetro do número de vizinhos. . . . . . . . . . . . . . 43

6.8 Variação do parâmetro do número de vizinhos para avaliação do recall

do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.9 Variação do parâmetro do número de vizinhos para avaliação da pre-

cisão do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.10 Boxplot resultado Inicial. . . . . . . . . . . . . . . . . . . . . . . . . . 45

6.11 matriz de confusão SVM caso inicial. . . . . . . . . . . . . . . . . . . 45

6.12 matriz de confusão Random Forest caso inicial. . . . . . . . . . . . . 46

6.13 matriz de confusão KNN caso inicial. . . . . . . . . . . . . . . . . . . 46

6.14 Variação do parâmetro C. . . . . . . . . . . . . . . . . . . . . . . . . 47

6.15 Variação do parâmetrs C para avaliação do recall do caso final. . . . . 47

6.16 Variação do parâmetro C para avaliação da precisão do caso final. . . 48

6.17 Variação do parâmetro de profundidade da árvore. . . . . . . . . . . . 48

6.18 Variação do parâmetro de profundidade da árvore para avaliação do

recall do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6.19 Variação do parâmetro de profundidade da árvore para avaliação da

precisão do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6.20 Variação do parâmetro do número de vizinhos. . . . . . . . . . . . . . 50

6.21 Variação do parâmetro do número de vizinhos para avaliação do recall

do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

xii

6.22 Variação do parâmetro do número de vizinhos para avaliação da pre-

cisão do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6.23 resultado Inicial SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6.24 matriz de confusão SVM caso final. . . . . . . . . . . . . . . . . . . . 52

6.25 matriz de confusão Random Forest caso final. . . . . . . . . . . . . . 52

6.26 matriz de confusão KNN caso final. . . . . . . . . . . . . . . . . . . . 53

xiii

Lista de Tabelas

2.1 Fácies definidas no programa AnaSeTe) . . . . . . . . . . . . . . . . . 10

2.2 Fácies definidas por Barboza . . . . . . . . . . . . . . . . . . . . . . . 11

4.1 Facies depositadas consecutivamente . . . . . . . . . . . . . . . . . . 21

4.2 Espessura média das fácies . . . . . . . . . . . . . . . . . . . . . . . . 22

4.3 Presença das amostras de fácies por poço. . . . . . . . . . . . . . . . 23

6.1 Acurácia com a remoção de borda. . . . . . . . . . . . . . . . . . . . 38

xiv

Caṕıtulo 1

Introdução

Esta monografia tem como objetivo a criação de um fluxo de trabalho, focado no

processamento de dados e na utilização de modelos de aprendizado de máquinas

para a predição de fácies deposicionais utilizando dados de geof́ısica de poços e

classificações baseadas no testemunho.

A predição de fácies tem como objetivo otimizar o aproveitamento da informação

presente no testemunho, pois quanto mais informação for extráıda do mesmo maior

é o conhecimento do reservatório em questão. Tem-se assim uma melhor base para

toda a operação, e um menor número de testemunhos é necessário para obtenção da

informação desejada. Reduzindo-se os custos e os riscos de exploração.

O fluxo de trabalho desenvolvido nesta monografia pode ser dividido em 3 eta-

pas. A primeira etapa consiste na análise estat́ıstica dos dados dispońıveis. Na

segunda etapa, foi realizado o pré-processamento dos dados, envolvendo limpeza,

transformação, normalização e integração dos dados. A terceira etapa consiste na

aplicação de três métodos de aprendizado de máquina (Support Vector Machine,

Random Forest, K Nearest Neighbors) para a criação de funções de previsão de

classes, utilizando os dados processados anteriormente.

Foram analisados 17 poços de petróleo verticais localizados no Campo de Namo-

rado, na Bacia de Campos. Os dados estão dispostos verticalmente com a taxa de

amostragem de 0.2m e representam variações f́ısicas da rocha e do fluido locais. Den-

tre os poços, 11 são caracterizados por cinco curvas: radioatividade natural (GR),

porosidade de neutrons (NPHI), densidade (RHOB), resistividade(ILD) e vagarosi-

dade das ondas compressionais (DT); e 6 poços caracterizados por apenas quatro

1

curvas (GR, NPHI, ILD e RHOB).

As classes utilizadas, denominadas “fácies”, foram sugeridas em [11], que rea-

grupa 21 fácies descritas no software interno da Petrobrás, Análise Sequencial de

Testemunhos (AnaSeTe), em 7 fácies baseadas na granulometria e textura das ro-

chas analisadas. Em [11] é sugerido que através desta classificação, seja posśıvel a

descrição do ambiente deposicional da bacia, aprimorando os modelos deposicionais

tridimensionais do campo de Namorado.

No caṕıtulo 2 os dados dispońıveis serão apresentados. Após isso, no caṕıtulo 3

será apresentada a importância do aprendizado de máquinas e a explicação teórica

dos métodos utilizados para este estudo de caso. No caṕıtulo 4 os dados dis-

pońıveis serão estudados e analisados. No caṕıtulo 5 a metodologia de aprendizado

de máquina e processamento de dados será definida e no caṕıtulo 6 os resultados

obtidos com os diversos métodos de aprendizado de máquina e processamento de

dados serão discutidos, sendo assim analisada a eficiência do fluxo de trabalho, e as

limitações da previsão de fácies.

2

Caṕıtulo 2

Descrição dos dados

Os dados utilizados como entrada dos modelos de predição foram obtidos através

do processo de perfilagem, já os dados de classificação, denominadas fácies, foram

obtidos por meio da descrição dos testemunhos. A maneira usual de observar os

dados é apresentada na figura 2.1, mostrando que a classificação testemunho está

presente em apenas um intervalo limitado do poço.

Figura 2.1: Imagem dos dados do poço NA05 no software Techlog.

2.1 Perfilagem

Em 5 de setembro de 1927, H. Doll e os irmãos Schlumberger fizeram uma medida

resistiva semi condutiva em um campo na região da Alsácia, o que acabou sendo

denominado como a primeira operação perfilagem [13]. Os resultados de perfilagem

posteriores foram de grande valia, se tornando assim um método essencial para o

3

desenvolvimento da indústria do petróleo.

A perfilagem de um poço pode ser descrita pela figura 2.2, onde uma ferramenta

percorre todo o poço realizando medidas. Estas ferramentas efetuam medidas com

diversas taxas de amostragem enquanto as ferramentas percorrem o poço. É posśıvel

ainda que seja necessário que a ferramenta esteja parada no momento da amostra-

gem.

As ferramentas utilizam diversos prinćıpios f́ısicos na aquisição dos dados, como

ressonância magnética, acústica, elétrica entre outros. Realizadas durante a per-

furação ou em uma etapa posterior, as medidas são utilizadas por especialistas de

diversas áreas de conhecimento como: geólogos, geof́ısicos e engenheiros de reser-

vatórios. Descritas em [13].

Figura 2.2: Perfilagem de poço (fonte: [4]).

4

2.2 Testemunhos

Durante a operação de perfuração, também existe a possibilidade de retirada de

amostras denominadas testemunhos, que podem ser vistos na figura 2.3. O processo

de obtenção desse material é geralmente de alto custo financeiro, considerando a

necessidade de uma broca especial que melhor conserve a integridade da amostra.

Estes testemunhos são usados para testes de laboratório, mas também são avaliados

por geólogos para criação de diversas classificações das rochas, denominadas fácies.

Figura 2.3: Rochas de testemunho (fonte: [6]).

2.3 Campo de Namorado

Para este estudo de caso foi escolhido o campo de Namorado, que está localizado na

bacia de Campos. Este campo é de grande importância por ser o primeiro campo

escola, do qual a ANP disponibilizou os dados para pesquisa em acadêmica.

Segundo o plano de desenvolvimento de 2016 , o campo de Namorado ocupa a

região central da Bacia de Campos conforme a figura 2.4, com uma área de 49,5

km2 e lâminas d’água de aproximadamente 120 a 270m.

Em produção desde 1979, o campo de Namorado encontra-se atualmente em

estágio final de sua produção. A figura 2.5 mostra o avanço da produção neste

periodo.

5

2.3.1 Poços dispońıveis

Para este estudo foram utilizados 17 poços, onde:

a) 11 poços com os perfis DT, GR, ILD, NPHI, RHOB e as seguintes deno-

minações - na01, na02, na04, na05A, na07, na11, na12, na372, rjs019, rjs042, rjs234

b) 6 poços com os perfis GR, ILD, NPHI, RHOB e com as seguintes denominações

- na22, na40D, na44, na47D, na48D, na53D

Os dados foram cedidos pela ANP, sendo os perfis em formato .las e e a descrição

dos testemunhos em formato .jpeg. A descrição dos testemunhos, em .jpeg, são de

um programa interno da Petrobras chamado AnaSeTe. Cada poço é disponibilizado

como uma imagem individual, sendo um exemplo visto na figura 2.6

2.3.2 Classificação dos testemunhos

A classificação original foi obtida conforme a figura 2.6 e relacionada com a profun-

didade exata dos perfis obtidos no formato .las. Podendo assim ser usada para os

modelos matemáticos usados neste trabalho. A classificação original é dividida em

21 fácies observadas na tabela 2.1.

Na figura 2.7 observa-se a presença das diferentes fácies no conjunto de dados

constrúıdos. Para este fim, foram contabilizadas as incidências de cada facies no

conjunto de dados amostrado com a taxa de uma a cada 0.2 metros. Este cálculo

foi feito em rotina programada em Python.

2.3.3 Descrição dos perfis trabalhados

Conforme já salientado os perfis utilizados são: RHOB, NPHI, GR, ILD, DT.

Densidade aparente da formação (RHOB), é a razão massa volume em um

determinado intervalo. Este valor é calculado a partir da densidade eletrônica

da formação, sendo obtido a partir de uma ferramenta que emite raios gama na

formação e medindo o número de colisões desses raios e os elétrons na mesma [13].

Porosidade neutron (NPHI) é a resposta das ferramentas que medem a concen-

tração de hidrogênio na formação. A ferramenta emite nêutrons na formação que

interage com os átomos de hidrogênio e perde energia. A concentração de hidrogênio

é então transformada em porosidade [13].

6

Raios Gama (GR), o dispositivo mede a radioatividade natural da formação

e ajuda a identificar folhelhos, que contém elementos radioativos como potássio,

urânio e tório. Ao contrário das rochas areńıticas e carbonáticas que quase não

emitem radiação [13].

Resistividade (ILD), a resistividade é medida através de uma ferramenta de

induçãomagnética. Esta medida é usada para o cálculo de diversas medidas impor-

tantes como: litologia e flúıdos presentes na formação [12].

Vagarosidade da onda compressional (DT) é obtida com a medida da veloci-

dade de propagação da onda acústica compressional pela formação. Este valor é

relacionado a litologia e a porosidade da formação [13].

2.4 Reorganização das Fácies

Ao contrário das reclassificações propostas por trabalhos anteriores de predição no

campo de Namorado, como por exemplo em [16] e [14], onde as simplificações pro-

postas foram baseadas em semelhanças petrof́ısicas, possuindo assim melhor relação

com as medidas de perfil. Este trabalho será fundamentado na classificação de

fácies proposta em [11], que reduziu as 21 fácies originais, classificadas no programa

AnaSeTe, para 7 fácies. A classificação proposta em [11] foi baseada no ambiente

deposicional, tornando-se assim, um grande desafio do ponto de vista matemático.

Pois, a classificação deposicional tem menor relação com os padrões nos dados de

perfil.

Pode-se observar esta nova classificação com as descrições utilizadas e como as

fácies foram agrupadas na tabela 2.2. A descrição teórica foi explicada extensamente

em [11].

Tem-se assim a nova distribuição de dados da imagem por fácies 2.8.

7

Figura 2.4: Localização campo de namorado (fonte: [8]).

Figura 2.5: produção campo de namorado (fonte: [8]).

8

Figura 2.6: Imagem 7NA do programa AnaSeTe.

9

Tabela 2.1: Fácies definidas no programa AnaSeTe)

Fácies descrição

1 interlaminado lamoso deformado ou calcarenito fino/muito fino peloidal

2 conglomerado e brechas carboniticas ou calcissiltito peloidal

3 diamictito areno lamoso

4 conglomerados residuais

5 arenito intraclastos argilosos

6 arenito grosso amalgamado

7 arenito médio laminado

8 arenito médio maciço gradado

9 arenito médio cimentado

10 arenito/folhelho interestratificados

11 arenito folhelho finamente interestratificados

12 siltito argiloso estratificado

13 interlaminado siltito argiloso e marga ou intercalações arenito/marga

14 folhelho radioativo

15 interlaminado arenoso bioturbado

16 interlaminado siltito e folhelho bioturbado ou deformado

17 marga bioturbada

18 ritmito

19 arenito glauconitico

20 folhelho com niveis de marga bioturbados

21 arenito cimentado com instraclastos, feições de escorregamento ou deformação

10

Figura 2.7: Numero de amostras de cada Facies original.

Tabela 2.2: Fácies definidas por Barboza

Barboza(2005) AnaSeTe

L1 - Conglomerados e Arenitos Conglomeráticos 4, 5 e 21

L2 - Arenitos Maciços e Estratificados 6, 7, 8, 9 e 19

L3 - Turbiditos de Bouma em camadas espessas 10

L4 - Turbiditos de Bouma em camadas finas 11, 12 e 15

L5 - Conglomerados Suportados pela Matriz 2 e 3

L6 - Escorregamentos 1

L7 - Lamitos 13, 14, 16, 17, 18 e 20

11

Figura 2.8: Numero de amostras de cada Facies após modificação.

12

Caṕıtulo 3

Aprendizado de máquina

3.1 Definição e motivação

Aprendizado de máquina é um tema bastante atual e que está em pleno desenvol-

vimento. Ele é definido em [20] como o fenômeno de aquisição de conhecimento na

ausência de uma programação expĺıcita.

O crescimento da quantidade de dados dispońıveis, junto com o aumento da

capacidade de processamento, principalmente com a utilização de GPUs (unidades

de processamento gráfico), gerou um terreno fértil para o aproveitamento desses

dados e tomada de decisão por computadores baseado em eventos passados. Em

muitos casos, o aprendizado de máquina já começa a rivalizar com a capacidade de

decisão humana, gerando assim grandes possibilidades para diversas indústrias.

Carros autônomos já são uma realidade; sistemas de recomendação de produ-

tos se tornaram muito eficientes; e métodos de tradução simultânea já estão dis-

pońıveis. Empresas como Microsoft, Facebook e Google vem sendo pioneiras no

desenvolvimento de novas tecnologias, porém não são, de longe, as únicas empresas

que trabalham neste sentido.

A indústria do petróleo, com empresas como Schlumberger e Halliburton, está

em busca de um melhor aproveitamento dos dados dispońıveis. Muitas pesquisas

estão sendo desenvolvidas, por exemplo em aplicações para identificação automática

de falhas em dados śısmicos [9].

13

3.2 Métodos utilizados

Aprendizado supervisionado e não supervisionado são as principais ferramentas para

o estudo dos perfis. Logo, está seção os descreve e enumera os métodos usados neste

trabalho.

Métodos não supervisionados são em geral métodos que buscam encontrar

padrões nos dados. Para estes métodos não são necessários dados de treino (onde

é conhecido o resultado esperado). Estes métodos são muito usados em petrof́ısica,

para encontrar clusters petrof́ısicos, localizando assim regiões com medidas seme-

lhantes. Como exemplo de métodos muito famosos e úteis pode-se citar, K-Média

[10] e Aglomeração Espectral [21].

Métodos supervisionados são aqueles que encontram uma função em dados de

treino, onde temos parâmetros de entrada e um parâmetro de sáıda esperado. Esta

função será usada para prever o dado de sáıda baseado em novos dados de entrada.

Um grande número de algoŕıtimos podem ser encontrados já desenvolvidos em

bibliotecas online. Neste trabalho será usada a biblioteca chamada scikit-learn dis-

pońıvel para Python e desenvolvida através de uma plataforma colaborativa em

formato aberto ao público. Esta biblioteca foi escolhida por possuir uma grande

quantidade de métodos implementados e uma extensa comunidade de usuários,

sendo considerada, pela mesma, como uma referência para métodos clássicos de

aprendizado de máquina.

Este estudo tem como objetivo a previsão de uma classificação especifica baseada

em dados de treino, logo para isso são usados métodos de aprendizado supervisio-

nado. Os métodos utilizados neste trabalho serão os descritos abaixo.

3.2.1 Support vector machine (SVM)

Support vector machine (SVM), em [15], pode ser considerada a teoria que estende a

separação de classes separáveis por hyperplanos, para casos onde não existem classes

separáveis. Com este método são criados limites não lineares, através da concepção

de separações lineares em espaços modificados por técnicas de kernel e penalizações

por classificações falhas.

Para a explicação simplificada será estudado o caso de um espaço de duas di-

14

menções (X1 e X2), logo a equação do hyperplano separador é a equação da reta:

β0+(β1∗X1)+(β2∗X2) = 0. Assim, caso β0+(β1∗X1)+(β2∗X2) > 0 o ponto(X1,

X2) estará de um lado do espaço separado e se β0 + (β1 ∗ X1) + (β2 ∗ X2) 6 0 o

ponto estará do outro lado

Assim, considerando yi = 1 para amostras da classe posicionado na região onde

β0 + (β1 ∗X1) + (β2 ∗X2) = 0 e yi = −1 para a classe posicionada na região onde

β0+(β1∗X1)+(β2∗X2) 6 0. O problema de maximação da margem(M) ,mostrado

na figura 3.1 imagem a), possui a restrição:

yi(xTi β + β0) >M, i = 1, . . . , N (3.1)

onde N é o número de amostras.

Figura 3.1: Imagem de descrição do processo SVM: a) sem e b) com penalização

(fonte: [15]).

O presente método realiza a separação de duas classes linearmente separáveis,

porém tem-se o interesse de obter um classificador que também funcione para con-

junto de dados não linearmente separáveis. Com este objetivo é adicionado o con-

ceito de variáveis de penalização sendo ξ = (ξ1, . . . , ξN). Como observado na figura

3.1 b.

Logo, a restrição gerada pela equação da reta anterior se transforma na seguinte

restrição:

yi(xTi β + β0) >M − ξi, i = 1, . . . , N (3.2)

15

Sendo o objetivo do novo problema a maximização da margem (M) subtráıda da

soma das variáveis de penalização: M−K∑N

i=1 ξi. Observa-se que a variável K será

o equiĺıbrio entre maximizar a margem e reduzir o número de falsas classificações

no conjunto de treino.

Para a otimização, muitas transformações são feitas, surgindo no problema de

otimização final a variável C, que tem um objetivo similar a variável K e terá o

comportamento estudado neste trabalho.

Para a criação de separadores não lineares, é inserido o conceito de kernel, que

não vai ser explicado teoricamente, pois foge ao escopo deste trabalho. Pode-se

ilustrar de uma maneira informal como um método de transformação do espaço de

estudo, onde é tentado transformar dados não separados por um hyperplano, em

dados separados por um hyperplano em uma outra dimensão. Como exemplo, a

figura 3.2, onde uma terceira dimensão é adicionada relacionando a distância ao

centro de um ćırculo. Tornando assim o conjunto de dados separável.

Figura 3.2: exemplo de transformação por kernel (fonte : [2]).

3.2.2 Random forest

Conforme em [17], o random forest é um método classificador que consiste em uma

coleção de estruturas de árvores classificadoras h(x,Θk), k = 1, ... onde Θk são in-

dependentes e identicamente vetores aleatórios distribúıdos e cada árvore é uma

unidade de voto para a classe de voto mais popular com a entrada x.

Ou seja, Random Forest é composto de um grupo de k árvores de decisão, que

funcionam como classificadores independentes, sendo assim, tem-se k resultados pre-

16

vistos. Para a obtenção do resultado final é escolhida a classe mais presente nos

resultado previstos como a sáıda do modelo.

Para a construção de cada árvore de decisão, realiza-se uma amostragem de

tamanho m com ou sem remoção dos dados já selecionados, sendo n o tamanho

original do conjunto de dados. Neste trabalho, será usado m=n e sem remoção dos

dados já selecionados.

Depois de separados os dados que vão ser usados em cada árvore de decisão,

para cada nó são selecionados aleatoriamente os perfis que vão estar dispońıveis

para se obter a melhor separação dos dados (maximizando o ganho de informação).

Por exemplo, tendo-se 5 perfis dispońıveis, usa-se somente 3 desses para avaliar a

melhor partição.

Pode-se também definir a profundidade máxima de cada árvore, entre outros

parâmetros que serão discutidos posteriormente.

A funcionamento da Random Forest pode ser explicado de maneira simplificada

na figura 3.3.

Figura 3.3: Funcionamento Random Forest: A) representa a amostragem do con-

junto de dados de treino para cada árvore e B) representa o voto de cada árvore

para a decisão final (fonte : [3]).

17

3.2.3 K vizinhos mais próximos (KNN)

Este método é considerado um método lento, pois não aprende uma função de decisão

com os dados de treino, mas guarda na memória todos os valores de treino. Este

método avalia os k-ésimos vizinhos mais próximos para cada ponto de previsão, e

então a classe mais presente nessa vizinhança é selecionada como a classe resposta

do modelo preditivo.

Por exemplo, na figura 3.4, onde x1 e x2 são as dimensões dos dados de entrada e

os pontos amarelos e roxos são os dados de treino. A amostra representada na ima-

gem como estrela 3.4, quando avaliados os 3 vizinhos mais próximos a amostra seria

classificada como classe B e quando 6 vizinhos próximos são escolhidos a amostra

seria classificada com classe A.

Figura 3.4: Exemplo de aplicação do método KNN (fonte : [1]).

18

Caṕıtulo 4

Análise dos Dados

Neste caṕıtulo, os dados serão estudados no formato inicial, cedido pela ANP, an-

teriormente apresentados. Como não estão dispońıveis os valores de DT para todos

os poços, a variável DT não será utilizada no estudo, incluindo tanto cross-Plot,

quanto análise dos componentes principais.

4.1 Cross-plot

A figura 4.1 é a construção de todos os cross-plots posśıveis, combinando todos os

dados de entrada (perfis) 2 a 2, sendo a classificação (fácies) as cores dos gráficos.

Observa-se também nesta figura o histograma de cada dado de entrada na diagonal.

É interessante observar que as fácies mais presentes, 2 e 7, são muito bem sepa-

radas pelo RHOB. Para a realização deste plot foi usada a biblioteca Seaborn em

Python.

4.2 Análise de componentes principais

O método dos componentes principais (PCA) é usado para redução de dimensão

em grandes conjuntos de dados. Este faz o cálculo de uma nova base para o espaço

vetorial existente atravás de transformações ortogonais.

Tendo um conjunto de dados com dimensão n e k amostras, o PCA encontra a

matriz P(n,m), onde Y=XP, sendo Y um conjunto de dados com m dimensões e k

amostras.

19

Esta transformação representa o máximo de variância posśıvel no primeiro com-

ponente, então o máximo posśıvel no segundo e assim sucessivamente.

Este método é muito utilizado para redução do tempo de cálculo em métodos

não supervisionados e para a visualização em 2 ou 3 dimensões de dados que estão

dispońıveis em grandes dimensões.

O método é feito em 3 passos:

a) Cálculo da matriz de covariância do dado normalizado (a normalização feita

será explicada no próximo caṕıtulo deste trabalho).

b) Cálculo dos autovalores e autovetores.

c) P = [v1 v2], sendo v1 e v2 ou autovetores correspondentes ao maiores auto-

valores.

Para este estudo serão utilizados os perfis iniciais presentes em todos os poços,

não usando assim o perfil DT. Neste caso a melhor visualização é 2 dimensões,

portanto é dessa forma que o dado será plotado, sendo a dimensão das cores a

representação de qual classe o dado faz parte.

Este conjunto de dados exprime 0.83 da variância total (valor calculado automa-

ticamente pela biblioteca scikit-learn) em duas dimensões, podendo então ser dito

que a representação em duas dimensões é uma boa representação do comportamento

dos dados. Para melhor observação foi escolhida a representação de um ponto a cada

3. Sendo os mesmos uma nova amostragem, um ponto a cada 0.6m, do conjunto de

dados original.

Para a realização de todo o cálculo acima foi usada a biblioteca Scikit-learn em

Python

Pode-se observar na figura 4.2 que não existem clusters bem definidos. Algumas

classes estão mais concentradas em algumas regiões (2, 6), mesmo que com alguns

’outliers’, e outras não muito bem definidas(1). Através da observação da figura,

fica claro que a tarefa de classificar os dados não é fácil, sendo muitas das classes

sobrepostas, o que acarretará uma acurácia limita neste exerćıcio de previsão.

20

4.3 Fácies vizinhas

Observa-se na figura do software Techlog 4.3 representada na coluna a esquerda

que as fácies, diferenciadas pela sua coloração, estão dispostas sequencialmente.

Havendo assim uma relação de vizinhança entre as fácies, que é a existência de um

ponto onde observa-se a transição de uma fácies para outra.

Torna-se interessante , inicialmente, o estudo de como estas fácies se sequenciam

e se existem relações preferenciais de sobreposição das fácies, buscando assim padrões

de sequências. Para este estudo foi elabora um código em Python. Este percorre

todos os dados (discretização das curvas existentes) e adiciona uma unidade ao valor

existente na coluna ’m’ e linha ’n’ de uma matriz caso a fácies m apareça após a

fácies n. Ver imagem na tabela 4.1.

Para percorrer os dados, foram considerados somente os dados dos testemunhos

(onde se tem a classificação), observando-se um por vez e percorrendo o mesmo,

do ponto mais próximo a superf́ıcie até o mais profundo. Ressalta-se que as fácies

presentes no topo do testemunho não tem um vizinho superior definido, e que as

fácies presentes na parte inferior do testemunho também não possuem um vizinho

inferior definido.

Tabela 4.1: Facies depositadas consecutivamente

Facies L1 L2 L3 L4 L5 L6 L7

L1 0 6 2 12 2 1 9

L2 9 0 4 20 9 2 25

L3 1 4 0 3 0 0 2

L4 11 16 3 0 7 0 5

L5 4 8 0 6 0 8 8

L6 0 1 0 0 7 0 4

L7 10 26 1 8 6 1 0

É importante lembrar que cada fácies é composta de diversas amostras em

sequência (com uma taxa de amostragem de 0.2m), logo o fato de existirem mais

amostras de uma fácies não quer dizer que esta fácies possui maior quantidade de

diferentes blocos. Este fato pode representar que a mesma possui blocos maiores.

21

Observa-se na na tabela 4.1 algumas relações de sobreposição. Como exemplo,

verifica-se que a fácies 6 possui poucos vizinhos, sendo majoritariamente vizinha a

fácies 5, mesmo a fácies 5 estando muito menos presente nos testemunhos do que as

fácies 2 e 7. Logo, seria de se esperar que a fácies 6 tivesse como vizinhos prioritários

as fácies 2 e 7.

Apesar da observação de alguns padrões de vizinhança, os mesmos não foram

considerados restritivos aos modelos de aprendizado de máquina utilizados neste

trabalho, que tratam a informação de forma pontual, não levando em conta assim

as relações de vizinhança.

4.4 Espessura média das fácies

Foi desenvolvido um código em Python com o objetivo de calcular a espessura média

com a qual as fácies se apresentam. Para isso foi calculado o número de amostras

de cada classe no conjunto de dados discretizado e este valor divido pelo número de

aparições de cada bloco de fácies.

O número de bloco de fácies foi obtido com um algoritmo que percorre todos os

dados discretizados, da parte mais próxima a superf́ıcie de cada testemunho até a

mais profunda. E cada vez que uma amostra tem como classe um valor diferente ao

da amostra anterior, essa nova classe tem uma unidade adicionada ao somatório de

aparições da mesma, a classe presente na parte superior de cada testemunho também

é contada. Os resultados estão apresentados na tabela4.2.

Tabela 4.2: Espessura média das fácies

Fácies tamanho médio (medido em número de amostras)

L1 4.0

L2 10.68

L3 7.7

L4 7.5

L5 6.9

L6 33.6

L7 15.0

22

4.5 Presença das fácies por poço

Apresenta-se na tabela 4.3 a quantidade de amostras, de cada fácies, presentes em

cada um dos 17 poços do campo de Namorado selecionados para o estudo. Observa-

se que a distribuição tem um grau de heterogeneidade elevado, fato que afetará a

acurácia de predição em cada poço.

Tabela 4.3: Presença das amostras de fácies por poço.

Poço L1 L2 L3 L4 L5 L6 L7 Total

na01 3 46 8 17 24 0 59 157

na02 11 64 8 28 0 0 33 144

na04 3 158 23 5 4 12 85 290

na05 0 0 0 0 10 100 63 173

na07 40 104 3 174 45 0 144 510

na11 1 67 0 12 30 275 345 730

na12 37 145 16 55 62 22 225 562

na372 19 41 0 0 15 41 0 115

rjs019 0 5 0 0 0 0 63 68

rjs042 0 112 6 8 0 0 0 126

rjs234 0 0 0 0 0 0 66 66

na22 32 54 19 83 58 0 8 254

na40 0 52 5 3 0 0 0 60

na44 9 81 5 6 0 0 2 103

na47 2 39 0 36 0 0 0 77

na48 10 51 7 8 0 0 2 78

na53 2 49 0 0 0 54 91 196

23

Figura 4.1: cross-plot.

Figura 4.2: pca.

24

Figura 4.3: Dados observados no software Techlog para o poço NA02.

25

Caṕıtulo 5

Metodologia

Neste caṕıtulo serão apresentados os métodos utilizados no pré-processamento dos

dados, como são escolhidos os principais parâmetros dos modelos de aprendizado de

máquinas utilizados e as métrica de avaliação usadas neste estudo.

5.1 Pré-processamento

É muito frequente na indústria não possuir todas as variáveis dados dispońıveis em

todos os poços. Como exemplo, neste estudo a variável DT não está dispońıvel em

todos os poços. Logo, fez se a regressão dessa variável para os poços onde a mesma

não está presente

Algo também frequente é o emprego de medidas diretas para o cálculo de diversos

fatores de interesse, entre esses cálculos tem-se dados de litologia, porosidade, volume

de folhelho etc. Logo, nesta seção também será calculado o volume de folhelho. Além

dos processamentos descritos, nesta seção também será definida a variável ”zona”.

5.1.1 Transformação de ILD em log

A variável ILD possui uma calda longa (poucas amostras com valores muito supe-

riores aos demais). Sendo assim, o primeiro passo do fluxo de trabalho o cálculo do

log da variável ILD.

26

5.1.2 Normalização

Os dados serão normalizados usando centralização e desvio padrão, então o dado

será diminúıdo da média e dividido pelo desvio padrão. Neste trabalho também é

empregada a técnica usual de excluir os 5% menores e 5%maiores valores do cálculo

da média e do desvio padrão. Este método é bem definido por Sebastian Raschka em

[18] mas também no seu site [5]. Para este calculo foi usado o método RobustScaler

da biblioteca Scikit-learn em Python.

5.1.3 Regressão para DT

Como apresentado anteriormente, os dados DT não estão dispońıveis em todos os

poços. Porém, métodos de aprendizado de máquina em geral não conseguem lidar

com a falta de algum dado de entrada. Logo, para que este problema seja resolvido,

existe a opção de não usar a variável DT, perdendo assim a informação que a mesma

aporta. Outra opção é a reconstrução do dado por métodos de regressão nos poços

onde o mesmo não está presente.

Logo, neste estudo será usado como caso base a exclusão da variável DT, e o caso

final com a reconstrução dos dados nos poços feita por métodos de regressão. Assim,

estabelecendo uma comparação de como o método de regressão proposto afetará o

resultado final da predição.

Para a escolha do método de regressão, este trabalho baseou-se na dissertação de

mestrado do aluno Frederico Ribeiro[19], onde diversos métodos foram testados. O

método K Neighbors Regressos foi escolhido como o com melhor resultado. Porém,

diferente do trabalho apresentado, este escolheu como cinco o número de vizinhos a

serem considerados, substituindo o valor de um vizinho definido no trabalho.

Para esta regressão, os poços onde se possui a medida DT serão usados como

dado de treino, considerando os perfis, RHOB, GR, NPHI como entrada e o perfil

DT como sáıda.

Após obter-se o modelo treinado, o mesmo será aplicado para a previsão de DT

nos poços onde o mesmo não está presente, sempre se baseando nos logs RHOB, ILD,

GR e NPHI como os dados de entrada. Como primeira etapa os dados de entrada do

conjunto de treino (RHOB, GR, NPHI, ILD) serão utilizados para calculo da média

e desvio padrão necessários para a normalização dos mesmos, sendo esses valores

27

usados para normalização dos dados de entrado do conjunto de treino e do que se

quer prever o valor esperado de DT.

Para cada dado de entrada do conjunto onde se quer obter o valor de DT, o

modelo buscará os k dados de treino mais próximos, utilizando os dados de entrada

considerando a distância euclidiana, e calculará o DT de sáıda como a média do

valor de DT dos k vizinhos mais próximos.

Para a utilização deste modelo será usada a biblioteca Scikit-learn dispońıvel

para Python, e um exemplo da aplicação deste método pode ser vista na figura 5.1

disponibilizada na mesma biblioteca.

Figura 5.1: Exemplo de regressão dos k vizinhos.

5.1.4 Volume de folhelho

Neste trabalho foram utilizados os dados de porosidade neutrão(NPHI) e densidade

aparente da formação (RHOB) para através da equação abaixo calcular o ”volume

de shale”, abreviado neste como V SHND. O cálculo desta variável foi feito com

o programa Techlog, e segundo ’chart book’ do mesmo, o volume de folhelho é

calculado como:

X0 = NPHIMA

X1 = NPHI +M1 × (RHOBMA −RHOB)

X2 = NPHISh +M1 × (RHOBMA −RHOBSh)

M1 =NPHIFL −NPHIMARHOBFL −RHOBMA

28

ShaleV olume =X1 −X0X2 −X0

(5.1)

Onde NPHIMA e NPHISh são as respostas padrão de porosidade neutron para

arenito e rocha de lama respectivamente. Sendo também RHOBMA e RHOBSh as

respostas de RHOB padrão para arenito e rocha de lama respectivamente.

5.1.5 Criação de zonas

A variável de formação é gerada tendo como alicerce o comportamento similar de po-

rosidade neutrão e densidade aparente de formação entre os poços. Essa correlação

foi sugerida por Faria e al. (2001) apud Barbosa[11] para todo o campo de Namo-

rado. Onde identificou-se 5 diferentes formações que sempre aparecem na mesma

sequência, podendo todas as formações estarem presentes ou não em cada poço,

tem-se como exemplo da variável gerada a figura 5.2. Pode-se observar na mesma

figura que a ultima coluna de cada poço é dividade em diferentes cores, sendo elas

transformadas em variáveis com diferentes valores para cada cor, sendo em ordem

da parte superior do poço até a inferior.

A ideia de separação em formações surge neste trabalho devido a necessidade

de adição de alguma informação de localidade no modelo preditivo. Por exemplo,

tendo duas regiões com respostas (perfis) semelhantes, uma na região mais profunda

do poço, e outra mais próxima a superf́ıcie, a informação da formação vai adicionar

uma diferença entre as mesmas. Essa nova informação possibilitará ao modelo a

comparação prioritariamente do dado que se quer prever a classe de sáıda com

dados de localidades semelhantes em outros poços.

É importante ressaltar, que a escala na qual as formações são definidas (o seu

comprimento), é muito maior do que a variação de fácies. como mostra a figura

5.2, sendo a última coluna a variável das zonas e a penúltima a variável da clas-

sificação (fácies). Assim, adição da variável de formação não foi considerada como

um problema de metodologia. Essa informação adicional sobre a formação não está

carregada do conhecimento prévio das fácies classificadas nos testemunhos.

29

5.2 Limpeza dos dados

Neste trabalho é proposto um método de remoção de borda. Os dados petrof́ısicos

são dados obtidos através de medidas discretas de fenômenos cont́ınuos, então sabe-

se que a transição entre duas fácies é suave. Existindo assim uma região de transição

entre duas fácies.

Deve ser levado também em consideração que os dados de perfil, em geral, são

medidos a uma grande profundidade e num ambiente hostil, logo, existe uma grande

incerteza associada aos dados obtidos. Outra fonte de incerteza está na relação de

profundidade entre as diversas medidas e a classificação dos testemunhos. Pois,

deve-se associar a profundidade exata dos dados de perfil com a classificação do

testemunho no local.

Para mitigar os problemas apresentados anteriormente, o presente trabalho

propõe a retirada, no conjunto de dados de treino, de amostras da parte superior

e inferior de cada fácies presente. Processo denominado de ”remoção de bordas”.

A quantidade de amostras retirada vai ser alvo de estudo e discussão no próximo

caṕıtulo.

A remoção de borda, como a maioria dos processos de limpeza de dados, segue

um compromisso entre a melhoria dos dados de treino e a redução do conjunto de

dados de treino. Com a remoção dos dados de borda obtém-se uma redução do

número de dados mal classificados. Porém, ocorre também a redução do conjunto

de dados de treino, tendo como resultado a perda de informação não avaliada.

É importante lembrar que esses dados só podem ser removidos dos conjuntos de

treino do modelo, a remoção de dados do conjunto de teste é considerado um erro

metodológico, pois adicionaria uma informação obtida somente com o conhecimento

da verdadeira classificação.

5.3 Métodos de aprendizado de máquina super-

visionado

Nesta seção os parâmetros de entrada dos modelos serão definidos, e explicitados

quais parâmetro serão variados e terão o comportamento estudado no caṕıtulo de

30

resultados.

5.3.1 SVM

Visto que não se conhece um padrão definido para o conjunto de dados foi escolhido

um kernel gaussiano, denominado em scikit-learn como ’rbf’. O coeficiente do kernel,

gamma, vai ser definido como o valor estipulado automáticamente pela biblioteca,

1/(Numerodeamostras). Não serão considerados pesos diferentes para diferentes

classes. Será usado a função de decisão de uma versus o resto.

O parâmetro C é uma constante de penalização que terá o seu valor variado e o

comportamento estudado no caṕıtulo de resultados.

5.3.2 Random Forest

Será usado o cálculo de ganho de informação chamado entropia, o número de

variáveis levado em consideração para cada nó será o proposto como padrão pela

biblioteca, a raiz quadrada do numero total de variaveis. Serão usadas 200 diferentes

árvores. A variável de profundidade máxima de cada árvore de decisão será variada

e terá o seu comportamento estudado no caṕıtulo de resultados.

5.3.3 KNN

O método de calculo da distância entre dois pontos será a euclidiana. O número

de vizinhos a serem considerados será variado e terá o comportamento estudado no

caṕıtulo de resultados.

5.4 Métricas de avaliação

Nesta seção será discutida as formas usadas neste trabalho para a avalição dos

resultados. Os métodos utilizados podem ser observados em [7] pelo Doutor Jason

Brownlee. Para facilitar as explicações são definido os termos:

Positivo verdadeiro (Tp) : amostras em que a classificação prevista pelo modelo

é igual a classificação real. O valor pode ser calculado independentemente para cada

classe. É definido como Tpsum a soma do valor para todas as classes.

31

Falso positivo (Fp) : amostras em que a classificação foi prevista para a classe

X, porém a classificação real é alguma outra. Logo, cada classe terá o seu número

espećıfico de falsos positivos. É definido como Fpsum a soma dos valores para todas

as classes.

Falso Negativo (Fn) - São calculados para uma classe em espećıfico, onde o

seu valor é calculado como o número de amostras que são desta classe mas são

classificadas como outra classe erroneamente.

5.4.1 Acurácia

A acurácia é a divisão entre o número de amostras em que a classificação prevista

pelo modelo é equivalente a classificação real (Tp), sobre o número total de amostras

em que a previsão foi aplicada (N).

Acuracia = Tpsum/N (5.2)

5.4.2 Precisão

A precisão será calculada para cada classe como:

Precisao = Tp/(Tp + Fp) (5.3)

Logo, a mesma pode ser interpretada como a exatidão da medida, pois calcula,

entre as previsões de uma determinada classe, qual o percentual de acerto.

5.4.3 Recall

O recall é classificado para cada classe como:

Recall = Tp/(Tp + Fn) (5.4)

Assim, o Recall é a acurácia do método para uma classe espećıfica. Pois, Tp + Fn é

o numero total de incidências da classe.

32

5.5 Matriz de confusão

A matriz de confusão é a maneira visual de se observar a relação de qual é a classe

real da amostra e qual classe foi prevista pelo modelo. Logo, tendo 7 classes, a

matriz será 7x7, sendo cada elemento o número de amostras da relação de classe

real x classe prevista. Na matriz de confusão aparecem individualmente os valores

Tp, Fp e Fn.

5.6 Validação cruzada

A validação cruzada é um método utilizado para a avaliação da qualidade do modelo

preditivo proposto. Ela, entre outras formas, pode ser feita com a separação do

conjunto de dados onde existe a classificação conhecida (oferecida pelo testemunho)

em dois subconjuntos: subconjunto de treino e de teste.

Usualmente se escolhem dados de forma aleatória, sendo 0.7 do conjunto de dados

para o subconjunto de treino e 0.3 para o de teste. No entanto, neste estudo, não se

pode escolher os dados aleatoriamente, pois os dados são amostragem de fenômenos

cont́ınuos.

Este trabalho gerou uma rotina onde um poço é usado de cada vez como teste e

todos os outros como treino. Variando assim todos os poços como teste uma vez.

5.6.1 Métricas de avaliação

O presente estudo utiliza duas métricas de avaliação de acurácia do modelo. A

primeira é a média da acurácia em cada poço quando usado como teste. A segunda

é a soma do resultado das amostras individuais de cada poço quando usado como

teste. Essas medidas podem diferir, pois os poços contém um número diferente de

amostras classificadas.

A matriz de confusão será apresentada como a soma das amostras de todos os

poços quando os mesmo estavam na posição de conjunto de dados de teste.

Os valores de Recall e Precisão serão sempre avalidos da mesma forma de a

matriz de confusão. Sendo os valores de Tp, FpeFn a soma dos valores de todos os

poços quando os mesmo estão no conjuntos de dados de treino.

33

Figura 5.2: Exemplo de zonation em 2 poços.

34

Caṕıtulo 6

Resultados e discussões

6.1 Discussão dos parâmetro do caso Inicial

Para este estudo serão usados os dados iniciais, exclúıdo a curva DT dos poços

onde a mesma está presente. Os únicos pré-processamentos aplicados a este caso

foram o cálculo do log do perfil ILD e a normalização dos dados de entrada

(GR,RHOB,NPHI, ILD log). Para o cálculo da acurácia, recall e precisão foi

utilizada a rotina proposta anteriormente, onde cada poço é considerado uma vez

como dado de teste, sendo neste momento todos os demais 16 poços usados como

dado de treino dos modelos

A acurácia, recall e precisão final serão calculados considerando o total de Tp,

Fp e Fn. Quando cada poço é o conjunto de dados de teste o mesmo possui os seus

valores de Tp, Fp e Fn, então a soma destes 17 conjuntos de dados de teste é o valor

utilizado.

Para o cálculo da acurácia do conjunto de dados de Treino, além da hipótese

acima, foi também considerado o caso onde todos os 17 poços são usados para

treinar o modelo. Assim os valores de Tp, Fp e Fn serão calculados quando o modelo

for testado neste mesmo conjunto de dados.

6.1.1 SVM

Como mostrado nos caṕıtulos anteriores o parâmetro de regularização C será estu-

dado. O mesmo representa a relação de prioridade entre a maximização da margem

e a redução de falsas classificações no conjunto de dados de treino.

35

Assim, com o aumento de C o peso para a classificação errada é aumentado

em relação a maximização da margem. Tendo como resultado ao aumento de C o

aumento da acurácia do modelo no conjunto de dados de treino. Porém, isso pode

aumentar o ’overfitting’, diminuindo assim a acurácia no conjunto de dados de teste.

Observa-se através da figura 6.1 a evolução da acurácia no conjunto de dados

de treino e teste. Observa-se um aumento da acurácia no conjunto de treino mais

acentuada no inicio e depois se estabilizando. Porém, a acurácia no conjunto de

dados de teste cresce no inicio, e depois diminui com o crescimento do ’overfitting’.

Sendo assim, será escolhido C=50, mesmo sabendo que a utilização do conjunto de

dados de teste para a escolha do parâmetro, não garante a mesma acurácia mostrada

para um outro conjunto de dados.

Na figura 6.2, com a avaliação do recall, tem-se que as fácies melhores previstas

são as L2 e L7 e as fácies L4 e L6 também é prevista mesmo que com menor recall.

Figura 6.1: Variação do parâmetro C para a avalição da acurácia nos conjuntos de

teste e treino, sendo Treino a avaliação do modelo aplicando o mesmo no próprio

conjunto de dados de treino, e teste a rotina apresentada no trabalho.

6.1.2 Random Forest

O parâmetro a ser estudado será a profundidade máxima de cada árvore. Como

pode-se observar na figura 6.4, com o aumento da profundidade de cada árvore tem-

36

se o crescimento da acurácia no conjunto de dados de treino. Porém, o aumento da

profundidade também pode causar o fenômeno de ’overfitting’.

Logo, considera-se razoável para este trabalho a profundidade de 6. Como ex-

plicado para o modelo SVM, quando se usa um conjunto de teste para escolha do

parâmetro C, não pode-se garantir a mesma acurácia em algum outro conjunto de

dados.

As mesmas fácies melhores previstas com o modelo SVM (L7, L2, L4, L6)

também são melhores previstas pelo Random Forest. Contudo, com a Figura 6.5

pode-se observar que mesmo que em pequena quantidade as fácies L3 e L1 também

são previstas.

6.1.3 KNN

Para o método KNN o parâmetro a ser estudado será o número de vizinhos a ser

considerado. Como visto na figura 6.7, o aumento do número de vizinhos reduz

a acurácia no conjunto de dados de treino. A acurácia do conjunto de dados de

teste aumenta até um certo ponto. Este estudo utiliza então 80 como o número de

vizinhos a ser considerado.

Observa-se na figura 6.8, que as fácies mais previstas também são L7, L2, L4 e

L6. A mesma mostra que o aumento do número de vizinhos a se considerar reduz o

acerto de previsão para as demais fácies.

6.2 Avaliação dos resultados iniciais

Nesta seção serão estudados os resultados para os métodos SVM, Random Forest e

KNN com os parâmetros definidos anteriormente, C=50, Profundidade=6 e k=70

respectivamente.

Para este estudo será utilizado o boxplot na figura 6.10. Este boxplot representa

os valores da acurácia de cada poço quando são o conjunto de dados de teste, sendo

a linha verde a mediana dos 17 resultado de acurácia.

Observa-se então resultados similares para os 3 diferentes métodos aplicados,

tanto em acurácia como em fácies previstas na matriz de confusão, observadas nas

figuras 6.11, 6.12 e 6.13.

37

6.3 Remoção de Borda

Para este estudo também serão usados os dados iniciais, exclúıda a curva DT dos

poços onde a mesma está presente. Os únicos pré-processamentos aplicados a este

caso foram o cálculo do log do perfil ILD, a normalização dos dados de entrada

(GR,RHOB,NPHI, ILD log) e a remoção da borda.

Como observado na tabela 6.1 a acurácia é reduzida com a eliminação da borda,

logo a remoção da borda não será usada para o cálculo do caso final.

Tabela 6.1: Acurácia com a remoção de borda.

Borda Removida SVM RF KNN

0.0 metros 0.61 0.60 0.60

0.2 metros 0.59 0.60 0.59

0.4 metros 0.58 0.59 0.57

6.4 Discussão dos parâmetros caso final

Para este estudo serão usados os dados obtidos por diversos pré-

processamentos. Serão então usados o ILD após o cálculo do logaritmo,

o perfil do DT após a regressão, volume de folhelho e variável de zona

(GR,RHOB,NPHI, ILD log,DT, V SHALE, zonas), sendo todos normali-

zados. Não sendo usado neste a remoção de borda.

A acurácia, recall e precisão de teste e a acurácia de treino serão calculados da

mesma forma que para o caso Inicial.

6.4.1 SVM

Estudando a figura 6.14 pode-se escolher C=10 como o melhor valor que se enquadra

no modelo e com a figura 6.15 percebe-se que são previstas basicamente as fácies

L2, L4, L6 e L7.

38

6.4.2 Random Forest

Estudando a figura 6.17 foi escolhida a profundidade igual a 7. Com a figura 6.18

tem-se que são previstas basicamente as fácies L2, L4, L6 e L7.

6.4.3 KNN

Estudando a figura 6.20 será escolhido o número de vizinhos igual a 80. Com a

figura 6.21 tem-se que são previstas basicamente as fácies L2, L4, L6 e L7.

6.5 Avaliação dos resultados finais

Nesta seção serão estudados os resultados para os métodos SVM, Random Forest e

KNN com os parâmetros definidos anteriormente (Seções 6.4.1. a 6.4.3.).

Para este estudo será utilizado o boxplot na figura 6.23. Este boxplot representa

os valores da acurácia de cada poço quando são o conjunto de dados de teste, sendo

a linha verde a mediana dos 17 resultado de acurácia.

Observa-se então resultados similares para os 3 diferentes métodos aplicados,

tanto em acurácia como em fácies previstas na matriz de confusão.

Tem-se também com as figuras 6.14, 6.17 e 6.20 que a maior acurária no teste é

obtida com o método SVM, com C=10.0.

6.6 Comparação entre previsão final e inicial

6.6.1 SVM

O parâmetro C varia de 50 no caso inicial para 10 no caso final. Comparando as

figuras 6.11 e 6.24 tem-se um aumento nas previsões das fácies L2, L4, L6 e L7,

principalmente das fácies L4 e L6. Logo, a acurácia é aumentada em cerca de 5%

com o pré-processamento.

6.6.2 Random Forest

Observa-se a variação na profundidade máxima de 6 no caso inicial para 7 no caso

final. Comparando as figuras 6.12 e 6.25, contrariamente ao SVM, as previsões

39

corretas das fácies L4 e L6 são reduzidas. Porém, as previsões corretas das fácies L2

e L7 são acrescentadas de um bom valor.

A acurácia final é acrescida de cerca de 3%, sendo também melhorada pelo pré-

processamento.

6.6.3 KNN

O número de vizinhos escolhido continua igual, como 80, para os dois casos Com

as figuras 6.13 e 6.26. observa-se que todas as fácies previstas são melhoradas. A

acurácia final foi acrescida de cerca de 5%.

6.7 Discussão

O conjunto de dados dispońıvel possui uma grande diferença no número de amostras

por fácies. Este fato é normalmente um problema para sistemas preditivos, problema

também apresentado neste exerćıcio.

Os modelos de aprendizado de máquina em geral tendem a não prever como

sáıda as fácies menos presentes no conjunto de dados de treino.

A acurácia final subiu de um valor inicial de cerca de 60% para 65% com o

pré-processamento proposto.

40

Figura 6.2: Variação do parâmetro C para avaliação do recall do caso inicial.

Figura 6.3: Variação do parâmetro C para avaliação da precisão do caso inicial.

41

Figura 6.4: Variação do parâmetro de profundidade da árvore.

Figura 6.5: Variação do parâmetro de profundidade da árvore para avaliação do

recall do caso inicial.

42

Figura 6.6: Variação do parâmetro de profundidade da árvore para avaliação da

precisão do caso inicial.

Figura 6.7: Variação do parâmetro do número de vizinhos.

43

Figura 6.8: Variação do parâmetro do número de vizinhos para avaliação do recall

do caso inicial.

Figura 6.9: Variação do parâmetro do número de vizinhos para avaliação da precisão

do caso inicial.

44

Figura 6.10: Boxplot resultado Inicial.

Figura 6.11: matriz de confusão SVM caso inicial.

45

Figura 6.12: matriz de confusão Random Forest caso inicial.

Figura 6.13: matriz de confusão KNN caso inicial.

46

Figura 6.14: Variação do parâmetro C.

Figura 6.15: Variação do parâmetrs C para avaliação do recall do caso final.

47

Figura 6.16: Variação do parâmetro C para avaliação da precisão do caso final.

Figura 6.17: Variação do parâmetro de profundidade da árvore.

48

Figura 6.18: Variação do parâmetro de profundidade da árvore para avaliação do

recall do caso final.

Figura 6.19: Variação do parâmetro de profundidade da árvore para avaliação da

precisão do caso final.

49

Figura 6.20: Variação do parâmetro do número de vizinhos.

Figura 6.21: Variação do parâmetro do número de vizinhos para avaliação do recall

do caso final.

50

Figura 6.22: Variação do parâmetro do número de vizinhos para avaliação da pre-

cisão do caso final.

Figura 6.23: resultado Inicial SVM.

51

Figura 6.24: matriz de confusão SVM caso final.

Figura 6.25: matriz de confusão Random Forest caso final.

52

Figura 6.26: matriz de confusão KNN caso final.

53

Caṕıtulo 7

Conclusão

Este estudo teve como objetivo a aplicação dos métodos supervisionados de machine

learning em um problema t́ıpico da indústria do petróleo que é a previsão de fácies

de um testemunho e por conseguinte de um reservatório.

O problema de previsão de fácies é um grande desafio para a industria do

petróleo, pois não é inteiramente dominado pelos especialistas e caso não seja bem

estruturado em um reservatório acaba afetando a explotação do mesmo.

A dificuldade na obtenção de melhores resultados é relacionada com a baixa

qualidade dos dados, que são obtidos em condições adversas e não são diretamente

relacionados com a forma que as classes foram definidas. Outro problema é a quan-

tidade de dados dispońıveis, que pode ser ligada a diversos fatores, como :

- Grande parte dos dados existentes são guardados como confidenciais por em-

presas operadoras.

- A dif́ıcil forma de obtenção dos dados dificulta a obtenção de mais amostras.

- Diferentes geólogos em geral vão gerar diferentes classificações para as rochas.

Como resultado deste estudo não foi observada uma grande variação de perfor-

mance entre os diferentes métodos testados. Tendo obtido resultado de acurácia e

fácies previstas semelhantes.

Assim neste trabalho foram estudadas as respostas de métodos de aprendizado

de máquinas para a previsão de fácies. Considerando as limitações inerentes ao

problema (i.e. falta de homogeneidade entre os dados dos poços) o valor obtido foi

considerado satisfatório e as melhorias geradas por diferentes pré-processamentos

pode ser comprovada.

54

Referências Bibliográficas

[1] Dispońıvel em : http : //bdewilde.github.io/assets/images/20121026knn-

concept.png, Acesso em 13 setembro 2017.

[2] Dispońıvel em :http //i2.wp.com/blog.hackerearth.com/wp-

content/uploads/2017/02/kernel.png?resize = 730%2c291, Acesso

em 13 setembro 2017.

[3] Dispońıvel em : https : //dimensionless.in/wp-

content/uploads/randomforest blog files/figurehtml/voting.png,

Acesso em 13 setembro 2017.

[4] Dispońıvel em : http : //seabed.software.slb.com/welllog/webhelp/welllogging.htm,


[5] Dispońıvel em : http : //sebastianraschka.com/articles/2014aboutfeaturescaling.html,


[6] Dispońıvel em :http : //www.petrobras.com.br/pt/nossas −

atividades/tecnologia− e− inovacao/, Acesso em 13 setembro 2017.

[7] Dispońıvel em : machinelearningmastery.com/classification−accuracy−is−

not−enough−more−performance−measures−you−can−use, Acesso

em 13 setembro 2017.

[8] Dispońıvel em : www.anp.gov.br/wwwanp/?dw = 81693, Acesso em 13 setem-

bro 2017.

[9] Mauricio Araya-Polo, Taylor Dahlke, Charlie Frogner, Chiyuan Zhang, Tomaso

Poggio, and Detlef Hohl, Automated fault detection without seismic pro-

cessing, The Leading Edge (2017).

55

[10] David Arthur and Sergei Vassilvitskii, k-means++: The advantages of careful

seeding, Proceedings of the eighteenth annual ACM-SIAM symposium

on Discrete algorithms, Society for Industrial and Applied Mathematics,

2007, pp. 1027–1035.

[11] Eduardo Guimarães Barboza, Análise estratigráfica do campo de namorado (ba-

cia de campos) com base na interpretação śısmica tridimensional, (2005).

[12] Engenharia Elétrica da PUC-Rio, Samuel gustavo huamán bustamante, Ph.D.

thesis, PUC-Rio, 2012.

[13] Darwin V Ellis and Julian M Singer, Well logging for earth scientists, vol. 692,

Springer, 2007.

[14] Alexsandro G. C. et al.., Facies classification in well logs of the namorado

oilfield using support vector machine algorithm, SBGF 15 congresso in-

ternacional da sociedade brasileira de geof́ısica (2017).

[15] Jerome Friedman, Trevor Hastie, and Robert Tibshirani, The elements of sta-

tistical learning, vol. 1, Springer series in statistics New York, 2001.

[16] Talita Lammoglia, Julio Kosaka de Oliveira, and Carlos Roberto Souza Filho,

Lithofacies recognition based on fuzzy logic and neural networks: A metho-

dological comparison, Revista Brasileira de Geof́ısica 32 (2014), no. 1,

85–95.

[17] Sarika Pachange and Bela Joglekar, Random forest approach for characterizing

ensemble classifiers, International Journal of Advance Foundation and

Research in Computer (IJAFRC) Volume 1 (2014).

[18] Sebastian Raschka, Python machine learning, Packt Publishing Ltd, 2015.

[19] FS de A RIBEIRO, Aplicação de análise multivariada na predição de perfis

faltantes de poços no campo de namorado, Ph.D. thesis, Dissertação de

Mestrado em Engenharia Civil, COPPE, da Universidade Federal do Rio

de Janeiro, 2008.

56

[20] Leslie G Valiant, A theory of the learnable, Communications of the ACM 27

(1984), no. 11, 1134–1142.

[21] Ulrike Von Luxburg, A tutorial on spectral clustering, Statistics and computing

17 (2007), no. 4, 395–416.

57

Lista de FigurasLista de TabelasIntroduçãoDescrição dos dadosPerfilagemTestemunhosCampo de NamoradoPoços disponíveisClassificação dos testemunhosDescrição dos perfis trabalhados

Reorganização das Fácies

Aprendizado de máquinaDefinição e motivaçãoMétodos utilizadosSupport vector machine (SVM)Random forestK vizinhos mais próximos (KNN)

Análise dos DadosCross-plotAnálise de componentes principaisFácies vizinhasEspessura média das fáciesPresença das fácies por poço

MetodologiaPré-processamentoTransformação de ILD em logNormalizaçãoRegressão para DTVolume de folhelhoCriação de zonas

Limpeza dos dadosMétodos de aprendizado de máquina supervisionadoSVMRandom ForestKNN

Métricas de avaliaçãoAcuráciaPrecisãoRecall

Matriz de confusãoValidação cruzadaMétricas de avaliação

Resultados e discussõesDiscussão dos parâmetro do caso InicialSVMRandom ForestKNN

Avaliação dos resultados iniciaisRemoção de BordaDiscussão dos parâmetros caso finalSVMRandom ForestKNN

Avaliação dos resultados finaisComparação entre previsão final e inicialSVMRandom ForestKNN

Discussão

ConclusãoReferências Bibliográficas

previsÃo de fÁcies deposicionais usando perfis de … · 2017. 11. 27. · ser o irm~ao que todos...

Documents