previsÃo de fÁcies deposicionais usando perfis de … · 2017. 11. 27. · ser o irm~ao que todos...
TRANSCRIPT
-
PREVISÃO DE FÁCIES DEPOSICIONAIS USANDO PERFIS DE POÇO DO
CAMPO DE NAMORADO
Lucas Lima de Carvalho
Projeto de Graduação apresentado ao Curso
de Engenharia Mecânica da Escola Politécnica,
Universidade Federal do Rio de Janeiro, como
parte dos requisitos necessários à obtenção do
t́ıtulo de Engenheiro.
Orientadores: Jules Ghislain Slama
Edmilson Helton Rios
Rio de Janeiro
Setembro de 2017
-
de Carvalho, Lucas Lima
PREVISÃO DE FÁCIES DEPOSICIONAIS USANDO
PERFIS DE POÇO DO CAMPO DE NAMORADO/
Lucas Lima de Carvalho. – Rio de Janeiro: UFRJ/Escola
Politécnica, 2017.
XIV, 57 p.: il.; 29, 7cm.
Orientadores: Jules Ghislain Slama
Edmilson Helton Rios
Projeto de Graduação – UFRJ/ Escola Politécnica/
Curso de Engenharia Mecânica, 2017.
Referências Bibliográficas: p. 55 – 57.
1. Machine Learning. 2. Predição de fácies. 3.
Métodos supervisionados. I. Ghislain Slama, Jules et al..
II. Universidade Federal do Rio de Janeiro, UFRJ, Curso
de Engenharia Mecânica. III. PREVISÃO DE FÁCIES
DEPOSICIONAIS USANDO PERFIS DE POÇO DO
CAMPO DE NAMORADO.
iii
-
À minha mãe e ao meu pai pelo
dom da vida e pelo amparo ao
longo desses anos. Ao Tiago por
ser o irmão que todos desejariam
ter e à Denise pelo carinho e
apoio em todas as horas.
iv
-
Agradecimentos
Agradeço primeiramente à minha famı́lia pelo apoio e dedicação durante todos estes
anos. Agradeço também a minha namorada, Denise, pelo carinho e paciência em
todas as etapas deste processo.
Agradeço à minha equipe na Schumberger pelo conhecimento compartilhado e
toda a ajuda prestada neste trabalho. Em especial à Laura Lima, Vanessa Simões e
Nadege Bize-Forest pelo apoio e discussões durante todo meu estágio.
Ao orientador Edmilson Rios pelo auxilio e ao orientador Jules pela acolhida do
assunto e disponibilidade.
v
-
Resumo do Projeto de Graduação apresentado à Escola Politécnica/UFRJ como
parte dos requisitos necessários para a obtenção do grau de Engenheiro Mecânico
PREVISÃO DE FÁCIES DEPOSICIONAIS USANDO PERFIS DE POÇO DO
CAMPO DE NAMORADO
Lucas Lima de Carvalho
Setembro/2017
Orientadores: Jules Ghislain Slama
Edmilson Helton Rios
Programa: Engenharia Mecânica
A perfilagem geof́ısica é realizada em quase todos o poços perfurados para ex-
ploração de petróleo. Estas medidas são importantes para avaliação da formação,
integridade de poços e estudo do reservatório. A identificação precisa de fácies
geológica só é posśıvel com a descrição de testemunhos ou plugs laterais. No en-
tanto, as operações para extração das rochas são muito caras, sendo assim limitadas
a pequenos intervalos. Este trabalho estuda a possibilidade da predição de fácies
deposicionais usando dados de perfis convencionais, tais como raio gama, resistivi-
dade, densidade e neutron e técnicas de aprendizado de máquinas. Algoŕıtimos de
’Support Vector Machine’, ’Random Forest’ e k vizinhos próximos foram aplicados
a dados brutos e depois a dados pré-processados. Este estudo foi realizado em um
dos mais produtivos reservatórios na Bacia de Campos, no sudeste brasileiro.
vi
-
Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment
of the requirements for the degree of Mechanical Engineer
MACHINE LEARNING SUPERVISED METHOD APPLICATION ON THE
NAMORADO FACIES PREDICTION PROBLEM
Lucas Lima de Carvalho
September/2017
Advisors: Jules Ghislain Slama
Edmilson Helton Rios
Department: Mechanical Engineering
Geo-petrophysical well logging is performed in almost all wells drilled for
petroleum exploration. They are important for formation evaluation, well integrity,
reservoir surveillance and reserve calculations. Accurate and high resolution iden-
tification of geological facies crossed by a well is only possible with the description
of rock samples coming from drilling cuts, whole cores or lateral plugs. However,
these technics are very expensive, time consuming and limited to specific intervals.
This work describes then how to predict depositional facies using conventional wire-
line logs, such as gamma ray, resistivity, density and neutron and; data mining
techniques. Support Vector Machine, Random Forest and k-nearest neighbors al-
gorithms were applied to a raw data set and also after a preprocessing workflow.
The study is performed in one of the most productive turbidite reservoir in Campos
Basin, Southeast Brazil.
vii
-
Sumário
Lista de Figuras xi
Lista de Tabelas xiv
1 Introdução 1
2 Descrição dos dados 3
2.1 Perfilagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Testemunhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Campo de Namorado . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3.1 Poços dispońıveis . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3.2 Classificação dos testemunhos . . . . . . . . . . . . . . . . . . 6
2.3.3 Descrição dos perfis trabalhados . . . . . . . . . . . . . . . . . 6
2.4 Reorganização das Fácies . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Aprendizado de máquina 13
3.1 Definição e motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Métodos utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 Support vector machine (SVM) . . . . . . . . . . . . . . . . . 14
3.2.2 Random forest . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.3 K vizinhos mais próximos (KNN) . . . . . . . . . . . . . . . . 18
4 Análise dos Dados 19
4.1 Cross-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2 Análise de componentes principais . . . . . . . . . . . . . . . . . . . . 19
4.3 Fácies vizinhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.4 Espessura média das fácies . . . . . . . . . . . . . . . . . . . . . . . . 22
viii
-
4.5 Presença das fácies por poço . . . . . . . . . . . . . . . . . . . . . . . 23
5 Metodologia 26
5.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1.1 Transformação de ILD em log . . . . . . . . . . . . . . . . . . 26
5.1.2 Normalização . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.3 Regressão para DT . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.4 Volume de folhelho . . . . . . . . . . . . . . . . . . . . . . . . 28
5.1.5 Criação de zonas . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Limpeza dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Métodos de aprendizado de máquina supervisionado . . . . . . . . . . 30
5.3.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.3.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.4 Métricas de avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.4.1 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.4.2 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.4.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.5 Matriz de confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.6 Validação cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.6.1 Métricas de avaliação . . . . . . . . . . . . . . . . . . . . . . . 33
6 Resultados e discussões 35
6.1 Discussão dos parâmetro do caso Inicial . . . . . . . . . . . . . . . . . 35
6.1.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.1.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.1.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.2 Avaliação dos resultados iniciais . . . . . . . . . . . . . . . . . . . . . 37
6.3 Remoção de Borda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4 Discussão dos parâmetros caso final . . . . . . . . . . . . . . . . . . . 38
6.4.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
ix
-
6.5 Avaliação dos resultados finais . . . . . . . . . . . . . . . . . . . . . . 39
6.6 Comparação entre previsão final e inicial . . . . . . . . . . . . . . . . 39
6.6.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.6.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.6.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.7 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
7 Conclusão 54
Referências Bibliográficas 55
x
-
Lista de Figuras
2.1 Imagem dos dados do poço NA05 no software Techlog. . . . . . . . . 3
2.2 Perfilagem de poço (fonte: [4]). . . . . . . . . . . . . . . . . . . . . . 4
2.3 Rochas de testemunho (fonte: [6]). . . . . . . . . . . . . . . . . . . . 5
2.4 Localização campo de namorado (fonte: [8]). . . . . . . . . . . . . . . 8
2.5 produção campo de namorado (fonte: [8]). . . . . . . . . . . . . . . . 8
2.6 Imagem 7NA do programa AnaSeTe. . . . . . . . . . . . . . . . . . . 9
2.7 Numero de amostras de cada Facies original. . . . . . . . . . . . . . . 11
2.8 Numero de amostras de cada Facies após modificação. . . . . . . . . . 12
3.1 Imagem de descrição do processo SVM: a) sem e b) com penalização
(fonte: [15]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 exemplo de transformação por kernel (fonte : [2]). . . . . . . . . . . . 16
3.3 Funcionamento Random Forest: A) representa a amostragem do con-
junto de dados de treino para cada árvore e B) representa o voto de
cada árvore para a decisão final (fonte : [3]). . . . . . . . . . . . . . . 17
3.4 Exemplo de aplicação do método KNN (fonte : [1]). . . . . . . . . . . 18
4.1 cross-plot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2 pca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3 Dados observados no software Techlog para o poço NA02. . . . . . . . 25
5.1 Exemplo de regressão dos k vizinhos. . . . . . . . . . . . . . . . . . . 28
5.2 Exemplo de zonation em 2 poços. . . . . . . . . . . . . . . . . . . . . 34
xi
-
6.1 Variação do parâmetro C para a avalição da acurácia nos conjuntos de
teste e treino, sendo Treino a avaliação do modelo aplicando o mesmo
no próprio conjunto de dados de treino, e teste a rotina apresentada
no trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.2 Variação do parâmetro C para avaliação do recall do caso inicial. . . . 41
6.3 Variação do parâmetro C para avaliação da precisão do caso inicial. . 41
6.4 Variação do parâmetro de profundidade da árvore. . . . . . . . . . . . 42
6.5 Variação do parâmetro de profundidade da árvore para avaliação do
recall do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.6 Variação do parâmetro de profundidade da árvore para avaliação da
precisão do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.7 Variação do parâmetro do número de vizinhos. . . . . . . . . . . . . . 43
6.8 Variação do parâmetro do número de vizinhos para avaliação do recall
do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.9 Variação do parâmetro do número de vizinhos para avaliação da pre-
cisão do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.10 Boxplot resultado Inicial. . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.11 matriz de confusão SVM caso inicial. . . . . . . . . . . . . . . . . . . 45
6.12 matriz de confusão Random Forest caso inicial. . . . . . . . . . . . . 46
6.13 matriz de confusão KNN caso inicial. . . . . . . . . . . . . . . . . . . 46
6.14 Variação do parâmetro C. . . . . . . . . . . . . . . . . . . . . . . . . 47
6.15 Variação do parâmetrs C para avaliação do recall do caso final. . . . . 47
6.16 Variação do parâmetro C para avaliação da precisão do caso final. . . 48
6.17 Variação do parâmetro de profundidade da árvore. . . . . . . . . . . . 48
6.18 Variação do parâmetro de profundidade da árvore para avaliação do
recall do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.19 Variação do parâmetro de profundidade da árvore para avaliação da
precisão do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.20 Variação do parâmetro do número de vizinhos. . . . . . . . . . . . . . 50
6.21 Variação do parâmetro do número de vizinhos para avaliação do recall
do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
xii
-
6.22 Variação do parâmetro do número de vizinhos para avaliação da pre-
cisão do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.23 resultado Inicial SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.24 matriz de confusão SVM caso final. . . . . . . . . . . . . . . . . . . . 52
6.25 matriz de confusão Random Forest caso final. . . . . . . . . . . . . . 52
6.26 matriz de confusão KNN caso final. . . . . . . . . . . . . . . . . . . . 53
xiii
-
Lista de Tabelas
2.1 Fácies definidas no programa AnaSeTe) . . . . . . . . . . . . . . . . . 10
2.2 Fácies definidas por Barboza . . . . . . . . . . . . . . . . . . . . . . . 11
4.1 Facies depositadas consecutivamente . . . . . . . . . . . . . . . . . . 21
4.2 Espessura média das fácies . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3 Presença das amostras de fácies por poço. . . . . . . . . . . . . . . . 23
6.1 Acurácia com a remoção de borda. . . . . . . . . . . . . . . . . . . . 38
xiv
-
Caṕıtulo 1
Introdução
Esta monografia tem como objetivo a criação de um fluxo de trabalho, focado no
processamento de dados e na utilização de modelos de aprendizado de máquinas
para a predição de fácies deposicionais utilizando dados de geof́ısica de poços e
classificações baseadas no testemunho.
A predição de fácies tem como objetivo otimizar o aproveitamento da informação
presente no testemunho, pois quanto mais informação for extráıda do mesmo maior
é o conhecimento do reservatório em questão. Tem-se assim uma melhor base para
toda a operação, e um menor número de testemunhos é necessário para obtenção da
informação desejada. Reduzindo-se os custos e os riscos de exploração.
O fluxo de trabalho desenvolvido nesta monografia pode ser dividido em 3 eta-
pas. A primeira etapa consiste na análise estat́ıstica dos dados dispońıveis. Na
segunda etapa, foi realizado o pré-processamento dos dados, envolvendo limpeza,
transformação, normalização e integração dos dados. A terceira etapa consiste na
aplicação de três métodos de aprendizado de máquina (Support Vector Machine,
Random Forest, K Nearest Neighbors) para a criação de funções de previsão de
classes, utilizando os dados processados anteriormente.
Foram analisados 17 poços de petróleo verticais localizados no Campo de Namo-
rado, na Bacia de Campos. Os dados estão dispostos verticalmente com a taxa de
amostragem de 0.2m e representam variações f́ısicas da rocha e do fluido locais. Den-
tre os poços, 11 são caracterizados por cinco curvas: radioatividade natural (GR),
porosidade de neutrons (NPHI), densidade (RHOB), resistividade(ILD) e vagarosi-
dade das ondas compressionais (DT); e 6 poços caracterizados por apenas quatro
1
-
curvas (GR, NPHI, ILD e RHOB).
As classes utilizadas, denominadas “fácies”, foram sugeridas em [11], que rea-
grupa 21 fácies descritas no software interno da Petrobrás, Análise Sequencial de
Testemunhos (AnaSeTe), em 7 fácies baseadas na granulometria e textura das ro-
chas analisadas. Em [11] é sugerido que através desta classificação, seja posśıvel a
descrição do ambiente deposicional da bacia, aprimorando os modelos deposicionais
tridimensionais do campo de Namorado.
No caṕıtulo 2 os dados dispońıveis serão apresentados. Após isso, no caṕıtulo 3
será apresentada a importância do aprendizado de máquinas e a explicação teórica
dos métodos utilizados para este estudo de caso. No caṕıtulo 4 os dados dis-
pońıveis serão estudados e analisados. No caṕıtulo 5 a metodologia de aprendizado
de máquina e processamento de dados será definida e no caṕıtulo 6 os resultados
obtidos com os diversos métodos de aprendizado de máquina e processamento de
dados serão discutidos, sendo assim analisada a eficiência do fluxo de trabalho, e as
limitações da previsão de fácies.
2
-
Caṕıtulo 2
Descrição dos dados
Os dados utilizados como entrada dos modelos de predição foram obtidos através
do processo de perfilagem, já os dados de classificação, denominadas fácies, foram
obtidos por meio da descrição dos testemunhos. A maneira usual de observar os
dados é apresentada na figura 2.1, mostrando que a classificação testemunho está
presente em apenas um intervalo limitado do poço.
Figura 2.1: Imagem dos dados do poço NA05 no software Techlog.
2.1 Perfilagem
Em 5 de setembro de 1927, H. Doll e os irmãos Schlumberger fizeram uma medida
resistiva semi condutiva em um campo na região da Alsácia, o que acabou sendo
denominado como a primeira operação perfilagem [13]. Os resultados de perfilagem
posteriores foram de grande valia, se tornando assim um método essencial para o
3
-
desenvolvimento da indústria do petróleo.
A perfilagem de um poço pode ser descrita pela figura 2.2, onde uma ferramenta
percorre todo o poço realizando medidas. Estas ferramentas efetuam medidas com
diversas taxas de amostragem enquanto as ferramentas percorrem o poço. É posśıvel
ainda que seja necessário que a ferramenta esteja parada no momento da amostra-
gem.
As ferramentas utilizam diversos prinćıpios f́ısicos na aquisição dos dados, como
ressonância magnética, acústica, elétrica entre outros. Realizadas durante a per-
furação ou em uma etapa posterior, as medidas são utilizadas por especialistas de
diversas áreas de conhecimento como: geólogos, geof́ısicos e engenheiros de reser-
vatórios. Descritas em [13].
Figura 2.2: Perfilagem de poço (fonte: [4]).
4
-
2.2 Testemunhos
Durante a operação de perfuração, também existe a possibilidade de retirada de
amostras denominadas testemunhos, que podem ser vistos na figura 2.3. O processo
de obtenção desse material é geralmente de alto custo financeiro, considerando a
necessidade de uma broca especial que melhor conserve a integridade da amostra.
Estes testemunhos são usados para testes de laboratório, mas também são avaliados
por geólogos para criação de diversas classificações das rochas, denominadas fácies.
Figura 2.3: Rochas de testemunho (fonte: [6]).
2.3 Campo de Namorado
Para este estudo de caso foi escolhido o campo de Namorado, que está localizado na
bacia de Campos. Este campo é de grande importância por ser o primeiro campo
escola, do qual a ANP disponibilizou os dados para pesquisa em acadêmica.
Segundo o plano de desenvolvimento de 2016 , o campo de Namorado ocupa a
região central da Bacia de Campos conforme a figura 2.4, com uma área de 49,5
km2 e lâminas d’água de aproximadamente 120 a 270m.
Em produção desde 1979, o campo de Namorado encontra-se atualmente em
estágio final de sua produção. A figura 2.5 mostra o avanço da produção neste
periodo.
5
-
2.3.1 Poços dispońıveis
Para este estudo foram utilizados 17 poços, onde:
a) 11 poços com os perfis DT, GR, ILD, NPHI, RHOB e as seguintes deno-
minações - na01, na02, na04, na05A, na07, na11, na12, na372, rjs019, rjs042, rjs234
b) 6 poços com os perfis GR, ILD, NPHI, RHOB e com as seguintes denominações
- na22, na40D, na44, na47D, na48D, na53D
Os dados foram cedidos pela ANP, sendo os perfis em formato .las e e a descrição
dos testemunhos em formato .jpeg. A descrição dos testemunhos, em .jpeg, são de
um programa interno da Petrobras chamado AnaSeTe. Cada poço é disponibilizado
como uma imagem individual, sendo um exemplo visto na figura 2.6
2.3.2 Classificação dos testemunhos
A classificação original foi obtida conforme a figura 2.6 e relacionada com a profun-
didade exata dos perfis obtidos no formato .las. Podendo assim ser usada para os
modelos matemáticos usados neste trabalho. A classificação original é dividida em
21 fácies observadas na tabela 2.1.
Na figura 2.7 observa-se a presença das diferentes fácies no conjunto de dados
constrúıdos. Para este fim, foram contabilizadas as incidências de cada facies no
conjunto de dados amostrado com a taxa de uma a cada 0.2 metros. Este cálculo
foi feito em rotina programada em Python.
2.3.3 Descrição dos perfis trabalhados
Conforme já salientado os perfis utilizados são: RHOB, NPHI, GR, ILD, DT.
Densidade aparente da formação (RHOB), é a razão massa volume em um
determinado intervalo. Este valor é calculado a partir da densidade eletrônica
da formação, sendo obtido a partir de uma ferramenta que emite raios gama na
formação e medindo o número de colisões desses raios e os elétrons na mesma [13].
Porosidade neutron (NPHI) é a resposta das ferramentas que medem a concen-
tração de hidrogênio na formação. A ferramenta emite nêutrons na formação que
interage com os átomos de hidrogênio e perde energia. A concentração de hidrogênio
é então transformada em porosidade [13].
6
-
Raios Gama (GR), o dispositivo mede a radioatividade natural da formação
e ajuda a identificar folhelhos, que contém elementos radioativos como potássio,
urânio e tório. Ao contrário das rochas areńıticas e carbonáticas que quase não
emitem radiação [13].
Resistividade (ILD), a resistividade é medida através de uma ferramenta de
induçãomagnética. Esta medida é usada para o cálculo de diversas medidas impor-
tantes como: litologia e flúıdos presentes na formação [12].
Vagarosidade da onda compressional (DT) é obtida com a medida da veloci-
dade de propagação da onda acústica compressional pela formação. Este valor é
relacionado a litologia e a porosidade da formação [13].
2.4 Reorganização das Fácies
Ao contrário das reclassificações propostas por trabalhos anteriores de predição no
campo de Namorado, como por exemplo em [16] e [14], onde as simplificações pro-
postas foram baseadas em semelhanças petrof́ısicas, possuindo assim melhor relação
com as medidas de perfil. Este trabalho será fundamentado na classificação de
fácies proposta em [11], que reduziu as 21 fácies originais, classificadas no programa
AnaSeTe, para 7 fácies. A classificação proposta em [11] foi baseada no ambiente
deposicional, tornando-se assim, um grande desafio do ponto de vista matemático.
Pois, a classificação deposicional tem menor relação com os padrões nos dados de
perfil.
Pode-se observar esta nova classificação com as descrições utilizadas e como as
fácies foram agrupadas na tabela 2.2. A descrição teórica foi explicada extensamente
em [11].
Tem-se assim a nova distribuição de dados da imagem por fácies 2.8.
7
-
Figura 2.4: Localização campo de namorado (fonte: [8]).
Figura 2.5: produção campo de namorado (fonte: [8]).
8
-
Figura 2.6: Imagem 7NA do programa AnaSeTe.
9
-
Tabela 2.1: Fácies definidas no programa AnaSeTe)
Fácies descrição
1 interlaminado lamoso deformado ou calcarenito fino/muito fino peloidal
2 conglomerado e brechas carboniticas ou calcissiltito peloidal
3 diamictito areno lamoso
4 conglomerados residuais
5 arenito intraclastos argilosos
6 arenito grosso amalgamado
7 arenito médio laminado
8 arenito médio maciço gradado
9 arenito médio cimentado
10 arenito/folhelho interestratificados
11 arenito folhelho finamente interestratificados
12 siltito argiloso estratificado
13 interlaminado siltito argiloso e marga ou intercalações arenito/marga
14 folhelho radioativo
15 interlaminado arenoso bioturbado
16 interlaminado siltito e folhelho bioturbado ou deformado
17 marga bioturbada
18 ritmito
19 arenito glauconitico
20 folhelho com niveis de marga bioturbados
21 arenito cimentado com instraclastos, feições de escorregamento ou deformação
10
-
Figura 2.7: Numero de amostras de cada Facies original.
Tabela 2.2: Fácies definidas por Barboza
Barboza(2005) AnaSeTe
L1 - Conglomerados e Arenitos Conglomeráticos 4, 5 e 21
L2 - Arenitos Maciços e Estratificados 6, 7, 8, 9 e 19
L3 - Turbiditos de Bouma em camadas espessas 10
L4 - Turbiditos de Bouma em camadas finas 11, 12 e 15
L5 - Conglomerados Suportados pela Matriz 2 e 3
L6 - Escorregamentos 1
L7 - Lamitos 13, 14, 16, 17, 18 e 20
11
-
Figura 2.8: Numero de amostras de cada Facies após modificação.
12
-
Caṕıtulo 3
Aprendizado de máquina
3.1 Definição e motivação
Aprendizado de máquina é um tema bastante atual e que está em pleno desenvol-
vimento. Ele é definido em [20] como o fenômeno de aquisição de conhecimento na
ausência de uma programação expĺıcita.
O crescimento da quantidade de dados dispońıveis, junto com o aumento da
capacidade de processamento, principalmente com a utilização de GPUs (unidades
de processamento gráfico), gerou um terreno fértil para o aproveitamento desses
dados e tomada de decisão por computadores baseado em eventos passados. Em
muitos casos, o aprendizado de máquina já começa a rivalizar com a capacidade de
decisão humana, gerando assim grandes possibilidades para diversas indústrias.
Carros autônomos já são uma realidade; sistemas de recomendação de produ-
tos se tornaram muito eficientes; e métodos de tradução simultânea já estão dis-
pońıveis. Empresas como Microsoft, Facebook e Google vem sendo pioneiras no
desenvolvimento de novas tecnologias, porém não são, de longe, as únicas empresas
que trabalham neste sentido.
A indústria do petróleo, com empresas como Schlumberger e Halliburton, está
em busca de um melhor aproveitamento dos dados dispońıveis. Muitas pesquisas
estão sendo desenvolvidas, por exemplo em aplicações para identificação automática
de falhas em dados śısmicos [9].
13
-
3.2 Métodos utilizados
Aprendizado supervisionado e não supervisionado são as principais ferramentas para
o estudo dos perfis. Logo, está seção os descreve e enumera os métodos usados neste
trabalho.
Métodos não supervisionados são em geral métodos que buscam encontrar
padrões nos dados. Para estes métodos não são necessários dados de treino (onde
é conhecido o resultado esperado). Estes métodos são muito usados em petrof́ısica,
para encontrar clusters petrof́ısicos, localizando assim regiões com medidas seme-
lhantes. Como exemplo de métodos muito famosos e úteis pode-se citar, K-Média
[10] e Aglomeração Espectral [21].
Métodos supervisionados são aqueles que encontram uma função em dados de
treino, onde temos parâmetros de entrada e um parâmetro de sáıda esperado. Esta
função será usada para prever o dado de sáıda baseado em novos dados de entrada.
Um grande número de algoŕıtimos podem ser encontrados já desenvolvidos em
bibliotecas online. Neste trabalho será usada a biblioteca chamada scikit-learn dis-
pońıvel para Python e desenvolvida através de uma plataforma colaborativa em
formato aberto ao público. Esta biblioteca foi escolhida por possuir uma grande
quantidade de métodos implementados e uma extensa comunidade de usuários,
sendo considerada, pela mesma, como uma referência para métodos clássicos de
aprendizado de máquina.
Este estudo tem como objetivo a previsão de uma classificação especifica baseada
em dados de treino, logo para isso são usados métodos de aprendizado supervisio-
nado. Os métodos utilizados neste trabalho serão os descritos abaixo.
3.2.1 Support vector machine (SVM)
Support vector machine (SVM), em [15], pode ser considerada a teoria que estende a
separação de classes separáveis por hyperplanos, para casos onde não existem classes
separáveis. Com este método são criados limites não lineares, através da concepção
de separações lineares em espaços modificados por técnicas de kernel e penalizações
por classificações falhas.
Para a explicação simplificada será estudado o caso de um espaço de duas di-
14
-
menções (X1 e X2), logo a equação do hyperplano separador é a equação da reta:
β0+(β1∗X1)+(β2∗X2) = 0. Assim, caso β0+(β1∗X1)+(β2∗X2) > 0 o ponto(X1,
X2) estará de um lado do espaço separado e se β0 + (β1 ∗ X1) + (β2 ∗ X2) 6 0 o
ponto estará do outro lado
Assim, considerando yi = 1 para amostras da classe posicionado na região onde
β0 + (β1 ∗X1) + (β2 ∗X2) = 0 e yi = −1 para a classe posicionada na região onde
β0+(β1∗X1)+(β2∗X2) 6 0. O problema de maximação da margem(M) ,mostrado
na figura 3.1 imagem a), possui a restrição:
yi(xTi β + β0) >M, i = 1, . . . , N (3.1)
onde N é o número de amostras.
Figura 3.1: Imagem de descrição do processo SVM: a) sem e b) com penalização
(fonte: [15]).
O presente método realiza a separação de duas classes linearmente separáveis,
porém tem-se o interesse de obter um classificador que também funcione para con-
junto de dados não linearmente separáveis. Com este objetivo é adicionado o con-
ceito de variáveis de penalização sendo ξ = (ξ1, . . . , ξN). Como observado na figura
3.1 b.
Logo, a restrição gerada pela equação da reta anterior se transforma na seguinte
restrição:
yi(xTi β + β0) >M − ξi, i = 1, . . . , N (3.2)
15
-
Sendo o objetivo do novo problema a maximização da margem (M) subtráıda da
soma das variáveis de penalização: M−K∑N
i=1 ξi. Observa-se que a variável K será
o equiĺıbrio entre maximizar a margem e reduzir o número de falsas classificações
no conjunto de treino.
Para a otimização, muitas transformações são feitas, surgindo no problema de
otimização final a variável C, que tem um objetivo similar a variável K e terá o
comportamento estudado neste trabalho.
Para a criação de separadores não lineares, é inserido o conceito de kernel, que
não vai ser explicado teoricamente, pois foge ao escopo deste trabalho. Pode-se
ilustrar de uma maneira informal como um método de transformação do espaço de
estudo, onde é tentado transformar dados não separados por um hyperplano, em
dados separados por um hyperplano em uma outra dimensão. Como exemplo, a
figura 3.2, onde uma terceira dimensão é adicionada relacionando a distância ao
centro de um ćırculo. Tornando assim o conjunto de dados separável.
Figura 3.2: exemplo de transformação por kernel (fonte : [2]).
3.2.2 Random forest
Conforme em [17], o random forest é um método classificador que consiste em uma
coleção de estruturas de árvores classificadoras h(x,Θk), k = 1, ... onde Θk são in-
dependentes e identicamente vetores aleatórios distribúıdos e cada árvore é uma
unidade de voto para a classe de voto mais popular com a entrada x.
Ou seja, Random Forest é composto de um grupo de k árvores de decisão, que
funcionam como classificadores independentes, sendo assim, tem-se k resultados pre-
16
-
vistos. Para a obtenção do resultado final é escolhida a classe mais presente nos
resultado previstos como a sáıda do modelo.
Para a construção de cada árvore de decisão, realiza-se uma amostragem de
tamanho m com ou sem remoção dos dados já selecionados, sendo n o tamanho
original do conjunto de dados. Neste trabalho, será usado m=n e sem remoção dos
dados já selecionados.
Depois de separados os dados que vão ser usados em cada árvore de decisão,
para cada nó são selecionados aleatoriamente os perfis que vão estar dispońıveis
para se obter a melhor separação dos dados (maximizando o ganho de informação).
Por exemplo, tendo-se 5 perfis dispońıveis, usa-se somente 3 desses para avaliar a
melhor partição.
Pode-se também definir a profundidade máxima de cada árvore, entre outros
parâmetros que serão discutidos posteriormente.
A funcionamento da Random Forest pode ser explicado de maneira simplificada
na figura 3.3.
Figura 3.3: Funcionamento Random Forest: A) representa a amostragem do con-
junto de dados de treino para cada árvore e B) representa o voto de cada árvore
para a decisão final (fonte : [3]).
17
-
3.2.3 K vizinhos mais próximos (KNN)
Este método é considerado um método lento, pois não aprende uma função de decisão
com os dados de treino, mas guarda na memória todos os valores de treino. Este
método avalia os k-ésimos vizinhos mais próximos para cada ponto de previsão, e
então a classe mais presente nessa vizinhança é selecionada como a classe resposta
do modelo preditivo.
Por exemplo, na figura 3.4, onde x1 e x2 são as dimensões dos dados de entrada e
os pontos amarelos e roxos são os dados de treino. A amostra representada na ima-
gem como estrela 3.4, quando avaliados os 3 vizinhos mais próximos a amostra seria
classificada como classe B e quando 6 vizinhos próximos são escolhidos a amostra
seria classificada com classe A.
Figura 3.4: Exemplo de aplicação do método KNN (fonte : [1]).
18
-
Caṕıtulo 4
Análise dos Dados
Neste caṕıtulo, os dados serão estudados no formato inicial, cedido pela ANP, an-
teriormente apresentados. Como não estão dispońıveis os valores de DT para todos
os poços, a variável DT não será utilizada no estudo, incluindo tanto cross-Plot,
quanto análise dos componentes principais.
4.1 Cross-plot
A figura 4.1 é a construção de todos os cross-plots posśıveis, combinando todos os
dados de entrada (perfis) 2 a 2, sendo a classificação (fácies) as cores dos gráficos.
Observa-se também nesta figura o histograma de cada dado de entrada na diagonal.
É interessante observar que as fácies mais presentes, 2 e 7, são muito bem sepa-
radas pelo RHOB. Para a realização deste plot foi usada a biblioteca Seaborn em
Python.
4.2 Análise de componentes principais
O método dos componentes principais (PCA) é usado para redução de dimensão
em grandes conjuntos de dados. Este faz o cálculo de uma nova base para o espaço
vetorial existente atravás de transformações ortogonais.
Tendo um conjunto de dados com dimensão n e k amostras, o PCA encontra a
matriz P(n,m), onde Y=XP, sendo Y um conjunto de dados com m dimensões e k
amostras.
19
-
Esta transformação representa o máximo de variância posśıvel no primeiro com-
ponente, então o máximo posśıvel no segundo e assim sucessivamente.
Este método é muito utilizado para redução do tempo de cálculo em métodos
não supervisionados e para a visualização em 2 ou 3 dimensões de dados que estão
dispońıveis em grandes dimensões.
O método é feito em 3 passos:
a) Cálculo da matriz de covariância do dado normalizado (a normalização feita
será explicada no próximo caṕıtulo deste trabalho).
b) Cálculo dos autovalores e autovetores.
c) P = [v1 v2], sendo v1 e v2 ou autovetores correspondentes ao maiores auto-
valores.
Para este estudo serão utilizados os perfis iniciais presentes em todos os poços,
não usando assim o perfil DT. Neste caso a melhor visualização é 2 dimensões,
portanto é dessa forma que o dado será plotado, sendo a dimensão das cores a
representação de qual classe o dado faz parte.
Este conjunto de dados exprime 0.83 da variância total (valor calculado automa-
ticamente pela biblioteca scikit-learn) em duas dimensões, podendo então ser dito
que a representação em duas dimensões é uma boa representação do comportamento
dos dados. Para melhor observação foi escolhida a representação de um ponto a cada
3. Sendo os mesmos uma nova amostragem, um ponto a cada 0.6m, do conjunto de
dados original.
Para a realização de todo o cálculo acima foi usada a biblioteca Scikit-learn em
Python
Pode-se observar na figura 4.2 que não existem clusters bem definidos. Algumas
classes estão mais concentradas em algumas regiões (2, 6), mesmo que com alguns
’outliers’, e outras não muito bem definidas(1). Através da observação da figura,
fica claro que a tarefa de classificar os dados não é fácil, sendo muitas das classes
sobrepostas, o que acarretará uma acurácia limita neste exerćıcio de previsão.
20
-
4.3 Fácies vizinhas
Observa-se na figura do software Techlog 4.3 representada na coluna a esquerda
que as fácies, diferenciadas pela sua coloração, estão dispostas sequencialmente.
Havendo assim uma relação de vizinhança entre as fácies, que é a existência de um
ponto onde observa-se a transição de uma fácies para outra.
Torna-se interessante , inicialmente, o estudo de como estas fácies se sequenciam
e se existem relações preferenciais de sobreposição das fácies, buscando assim padrões
de sequências. Para este estudo foi elabora um código em Python. Este percorre
todos os dados (discretização das curvas existentes) e adiciona uma unidade ao valor
existente na coluna ’m’ e linha ’n’ de uma matriz caso a fácies m apareça após a
fácies n. Ver imagem na tabela 4.1.
Para percorrer os dados, foram considerados somente os dados dos testemunhos
(onde se tem a classificação), observando-se um por vez e percorrendo o mesmo,
do ponto mais próximo a superf́ıcie até o mais profundo. Ressalta-se que as fácies
presentes no topo do testemunho não tem um vizinho superior definido, e que as
fácies presentes na parte inferior do testemunho também não possuem um vizinho
inferior definido.
Tabela 4.1: Facies depositadas consecutivamente
Facies L1 L2 L3 L4 L5 L6 L7
L1 0 6 2 12 2 1 9
L2 9 0 4 20 9 2 25
L3 1 4 0 3 0 0 2
L4 11 16 3 0 7 0 5
L5 4 8 0 6 0 8 8
L6 0 1 0 0 7 0 4
L7 10 26 1 8 6 1 0
É importante lembrar que cada fácies é composta de diversas amostras em
sequência (com uma taxa de amostragem de 0.2m), logo o fato de existirem mais
amostras de uma fácies não quer dizer que esta fácies possui maior quantidade de
diferentes blocos. Este fato pode representar que a mesma possui blocos maiores.
21
-
Observa-se na na tabela 4.1 algumas relações de sobreposição. Como exemplo,
verifica-se que a fácies 6 possui poucos vizinhos, sendo majoritariamente vizinha a
fácies 5, mesmo a fácies 5 estando muito menos presente nos testemunhos do que as
fácies 2 e 7. Logo, seria de se esperar que a fácies 6 tivesse como vizinhos prioritários
as fácies 2 e 7.
Apesar da observação de alguns padrões de vizinhança, os mesmos não foram
considerados restritivos aos modelos de aprendizado de máquina utilizados neste
trabalho, que tratam a informação de forma pontual, não levando em conta assim
as relações de vizinhança.
4.4 Espessura média das fácies
Foi desenvolvido um código em Python com o objetivo de calcular a espessura média
com a qual as fácies se apresentam. Para isso foi calculado o número de amostras
de cada classe no conjunto de dados discretizado e este valor divido pelo número de
aparições de cada bloco de fácies.
O número de bloco de fácies foi obtido com um algoritmo que percorre todos os
dados discretizados, da parte mais próxima a superf́ıcie de cada testemunho até a
mais profunda. E cada vez que uma amostra tem como classe um valor diferente ao
da amostra anterior, essa nova classe tem uma unidade adicionada ao somatório de
aparições da mesma, a classe presente na parte superior de cada testemunho também
é contada. Os resultados estão apresentados na tabela4.2.
Tabela 4.2: Espessura média das fácies
Fácies tamanho médio (medido em número de amostras)
L1 4.0
L2 10.68
L3 7.7
L4 7.5
L5 6.9
L6 33.6
L7 15.0
22
-
4.5 Presença das fácies por poço
Apresenta-se na tabela 4.3 a quantidade de amostras, de cada fácies, presentes em
cada um dos 17 poços do campo de Namorado selecionados para o estudo. Observa-
se que a distribuição tem um grau de heterogeneidade elevado, fato que afetará a
acurácia de predição em cada poço.
Tabela 4.3: Presença das amostras de fácies por poço.
Poço L1 L2 L3 L4 L5 L6 L7 Total
na01 3 46 8 17 24 0 59 157
na02 11 64 8 28 0 0 33 144
na04 3 158 23 5 4 12 85 290
na05 0 0 0 0 10 100 63 173
na07 40 104 3 174 45 0 144 510
na11 1 67 0 12 30 275 345 730
na12 37 145 16 55 62 22 225 562
na372 19 41 0 0 15 41 0 115
rjs019 0 5 0 0 0 0 63 68
rjs042 0 112 6 8 0 0 0 126
rjs234 0 0 0 0 0 0 66 66
na22 32 54 19 83 58 0 8 254
na40 0 52 5 3 0 0 0 60
na44 9 81 5 6 0 0 2 103
na47 2 39 0 36 0 0 0 77
na48 10 51 7 8 0 0 2 78
na53 2 49 0 0 0 54 91 196
23
-
Figura 4.1: cross-plot.
Figura 4.2: pca.
24
-
Figura 4.3: Dados observados no software Techlog para o poço NA02.
25
-
Caṕıtulo 5
Metodologia
Neste caṕıtulo serão apresentados os métodos utilizados no pré-processamento dos
dados, como são escolhidos os principais parâmetros dos modelos de aprendizado de
máquinas utilizados e as métrica de avaliação usadas neste estudo.
5.1 Pré-processamento
É muito frequente na indústria não possuir todas as variáveis dados dispońıveis em
todos os poços. Como exemplo, neste estudo a variável DT não está dispońıvel em
todos os poços. Logo, fez se a regressão dessa variável para os poços onde a mesma
não está presente
Algo também frequente é o emprego de medidas diretas para o cálculo de diversos
fatores de interesse, entre esses cálculos tem-se dados de litologia, porosidade, volume
de folhelho etc. Logo, nesta seção também será calculado o volume de folhelho. Além
dos processamentos descritos, nesta seção também será definida a variável ”zona”.
5.1.1 Transformação de ILD em log
A variável ILD possui uma calda longa (poucas amostras com valores muito supe-
riores aos demais). Sendo assim, o primeiro passo do fluxo de trabalho o cálculo do
log da variável ILD.
26
-
5.1.2 Normalização
Os dados serão normalizados usando centralização e desvio padrão, então o dado
será diminúıdo da média e dividido pelo desvio padrão. Neste trabalho também é
empregada a técnica usual de excluir os 5% menores e 5%maiores valores do cálculo
da média e do desvio padrão. Este método é bem definido por Sebastian Raschka em
[18] mas também no seu site [5]. Para este calculo foi usado o método RobustScaler
da biblioteca Scikit-learn em Python.
5.1.3 Regressão para DT
Como apresentado anteriormente, os dados DT não estão dispońıveis em todos os
poços. Porém, métodos de aprendizado de máquina em geral não conseguem lidar
com a falta de algum dado de entrada. Logo, para que este problema seja resolvido,
existe a opção de não usar a variável DT, perdendo assim a informação que a mesma
aporta. Outra opção é a reconstrução do dado por métodos de regressão nos poços
onde o mesmo não está presente.
Logo, neste estudo será usado como caso base a exclusão da variável DT, e o caso
final com a reconstrução dos dados nos poços feita por métodos de regressão. Assim,
estabelecendo uma comparação de como o método de regressão proposto afetará o
resultado final da predição.
Para a escolha do método de regressão, este trabalho baseou-se na dissertação de
mestrado do aluno Frederico Ribeiro[19], onde diversos métodos foram testados. O
método K Neighbors Regressos foi escolhido como o com melhor resultado. Porém,
diferente do trabalho apresentado, este escolheu como cinco o número de vizinhos a
serem considerados, substituindo o valor de um vizinho definido no trabalho.
Para esta regressão, os poços onde se possui a medida DT serão usados como
dado de treino, considerando os perfis, RHOB, GR, NPHI como entrada e o perfil
DT como sáıda.
Após obter-se o modelo treinado, o mesmo será aplicado para a previsão de DT
nos poços onde o mesmo não está presente, sempre se baseando nos logs RHOB, ILD,
GR e NPHI como os dados de entrada. Como primeira etapa os dados de entrada do
conjunto de treino (RHOB, GR, NPHI, ILD) serão utilizados para calculo da média
e desvio padrão necessários para a normalização dos mesmos, sendo esses valores
27
-
usados para normalização dos dados de entrado do conjunto de treino e do que se
quer prever o valor esperado de DT.
Para cada dado de entrada do conjunto onde se quer obter o valor de DT, o
modelo buscará os k dados de treino mais próximos, utilizando os dados de entrada
considerando a distância euclidiana, e calculará o DT de sáıda como a média do
valor de DT dos k vizinhos mais próximos.
Para a utilização deste modelo será usada a biblioteca Scikit-learn dispońıvel
para Python, e um exemplo da aplicação deste método pode ser vista na figura 5.1
disponibilizada na mesma biblioteca.
Figura 5.1: Exemplo de regressão dos k vizinhos.
5.1.4 Volume de folhelho
Neste trabalho foram utilizados os dados de porosidade neutrão(NPHI) e densidade
aparente da formação (RHOB) para através da equação abaixo calcular o ”volume
de shale”, abreviado neste como V SHND. O cálculo desta variável foi feito com
o programa Techlog, e segundo ’chart book’ do mesmo, o volume de folhelho é
calculado como:
X0 = NPHIMA
X1 = NPHI +M1 × (RHOBMA −RHOB)
X2 = NPHISh +M1 × (RHOBMA −RHOBSh)
M1 =NPHIFL −NPHIMARHOBFL −RHOBMA
28
-
ShaleV olume =X1 −X0X2 −X0
(5.1)
Onde NPHIMA e NPHISh são as respostas padrão de porosidade neutron para
arenito e rocha de lama respectivamente. Sendo também RHOBMA e RHOBSh as
respostas de RHOB padrão para arenito e rocha de lama respectivamente.
5.1.5 Criação de zonas
A variável de formação é gerada tendo como alicerce o comportamento similar de po-
rosidade neutrão e densidade aparente de formação entre os poços. Essa correlação
foi sugerida por Faria e al. (2001) apud Barbosa[11] para todo o campo de Namo-
rado. Onde identificou-se 5 diferentes formações que sempre aparecem na mesma
sequência, podendo todas as formações estarem presentes ou não em cada poço,
tem-se como exemplo da variável gerada a figura 5.2. Pode-se observar na mesma
figura que a ultima coluna de cada poço é dividade em diferentes cores, sendo elas
transformadas em variáveis com diferentes valores para cada cor, sendo em ordem
da parte superior do poço até a inferior.
A ideia de separação em formações surge neste trabalho devido a necessidade
de adição de alguma informação de localidade no modelo preditivo. Por exemplo,
tendo duas regiões com respostas (perfis) semelhantes, uma na região mais profunda
do poço, e outra mais próxima a superf́ıcie, a informação da formação vai adicionar
uma diferença entre as mesmas. Essa nova informação possibilitará ao modelo a
comparação prioritariamente do dado que se quer prever a classe de sáıda com
dados de localidades semelhantes em outros poços.
É importante ressaltar, que a escala na qual as formações são definidas (o seu
comprimento), é muito maior do que a variação de fácies. como mostra a figura
5.2, sendo a última coluna a variável das zonas e a penúltima a variável da clas-
sificação (fácies). Assim, adição da variável de formação não foi considerada como
um problema de metodologia. Essa informação adicional sobre a formação não está
carregada do conhecimento prévio das fácies classificadas nos testemunhos.
29
-
5.2 Limpeza dos dados
Neste trabalho é proposto um método de remoção de borda. Os dados petrof́ısicos
são dados obtidos através de medidas discretas de fenômenos cont́ınuos, então sabe-
se que a transição entre duas fácies é suave. Existindo assim uma região de transição
entre duas fácies.
Deve ser levado também em consideração que os dados de perfil, em geral, são
medidos a uma grande profundidade e num ambiente hostil, logo, existe uma grande
incerteza associada aos dados obtidos. Outra fonte de incerteza está na relação de
profundidade entre as diversas medidas e a classificação dos testemunhos. Pois,
deve-se associar a profundidade exata dos dados de perfil com a classificação do
testemunho no local.
Para mitigar os problemas apresentados anteriormente, o presente trabalho
propõe a retirada, no conjunto de dados de treino, de amostras da parte superior
e inferior de cada fácies presente. Processo denominado de ”remoção de bordas”.
A quantidade de amostras retirada vai ser alvo de estudo e discussão no próximo
caṕıtulo.
A remoção de borda, como a maioria dos processos de limpeza de dados, segue
um compromisso entre a melhoria dos dados de treino e a redução do conjunto de
dados de treino. Com a remoção dos dados de borda obtém-se uma redução do
número de dados mal classificados. Porém, ocorre também a redução do conjunto
de dados de treino, tendo como resultado a perda de informação não avaliada.
É importante lembrar que esses dados só podem ser removidos dos conjuntos de
treino do modelo, a remoção de dados do conjunto de teste é considerado um erro
metodológico, pois adicionaria uma informação obtida somente com o conhecimento
da verdadeira classificação.
5.3 Métodos de aprendizado de máquina super-
visionado
Nesta seção os parâmetros de entrada dos modelos serão definidos, e explicitados
quais parâmetro serão variados e terão o comportamento estudado no caṕıtulo de
30
-
resultados.
5.3.1 SVM
Visto que não se conhece um padrão definido para o conjunto de dados foi escolhido
um kernel gaussiano, denominado em scikit-learn como ’rbf’. O coeficiente do kernel,
gamma, vai ser definido como o valor estipulado automáticamente pela biblioteca,
1/(Numerodeamostras). Não serão considerados pesos diferentes para diferentes
classes. Será usado a função de decisão de uma versus o resto.
O parâmetro C é uma constante de penalização que terá o seu valor variado e o
comportamento estudado no caṕıtulo de resultados.
5.3.2 Random Forest
Será usado o cálculo de ganho de informação chamado entropia, o número de
variáveis levado em consideração para cada nó será o proposto como padrão pela
biblioteca, a raiz quadrada do numero total de variaveis. Serão usadas 200 diferentes
árvores. A variável de profundidade máxima de cada árvore de decisão será variada
e terá o seu comportamento estudado no caṕıtulo de resultados.
5.3.3 KNN
O método de calculo da distância entre dois pontos será a euclidiana. O número
de vizinhos a serem considerados será variado e terá o comportamento estudado no
caṕıtulo de resultados.
5.4 Métricas de avaliação
Nesta seção será discutida as formas usadas neste trabalho para a avalição dos
resultados. Os métodos utilizados podem ser observados em [7] pelo Doutor Jason
Brownlee. Para facilitar as explicações são definido os termos:
Positivo verdadeiro (Tp) : amostras em que a classificação prevista pelo modelo
é igual a classificação real. O valor pode ser calculado independentemente para cada
classe. É definido como Tpsum a soma do valor para todas as classes.
31
-
Falso positivo (Fp) : amostras em que a classificação foi prevista para a classe
X, porém a classificação real é alguma outra. Logo, cada classe terá o seu número
espećıfico de falsos positivos. É definido como Fpsum a soma dos valores para todas
as classes.
Falso Negativo (Fn) - São calculados para uma classe em espećıfico, onde o
seu valor é calculado como o número de amostras que são desta classe mas são
classificadas como outra classe erroneamente.
5.4.1 Acurácia
A acurácia é a divisão entre o número de amostras em que a classificação prevista
pelo modelo é equivalente a classificação real (Tp), sobre o número total de amostras
em que a previsão foi aplicada (N).
Acuracia = Tpsum/N (5.2)
5.4.2 Precisão
A precisão será calculada para cada classe como:
Precisao = Tp/(Tp + Fp) (5.3)
Logo, a mesma pode ser interpretada como a exatidão da medida, pois calcula,
entre as previsões de uma determinada classe, qual o percentual de acerto.
5.4.3 Recall
O recall é classificado para cada classe como:
Recall = Tp/(Tp + Fn) (5.4)
Assim, o Recall é a acurácia do método para uma classe espećıfica. Pois, Tp + Fn é
o numero total de incidências da classe.
32
-
5.5 Matriz de confusão
A matriz de confusão é a maneira visual de se observar a relação de qual é a classe
real da amostra e qual classe foi prevista pelo modelo. Logo, tendo 7 classes, a
matriz será 7x7, sendo cada elemento o número de amostras da relação de classe
real x classe prevista. Na matriz de confusão aparecem individualmente os valores
Tp, Fp e Fn.
5.6 Validação cruzada
A validação cruzada é um método utilizado para a avaliação da qualidade do modelo
preditivo proposto. Ela, entre outras formas, pode ser feita com a separação do
conjunto de dados onde existe a classificação conhecida (oferecida pelo testemunho)
em dois subconjuntos: subconjunto de treino e de teste.
Usualmente se escolhem dados de forma aleatória, sendo 0.7 do conjunto de dados
para o subconjunto de treino e 0.3 para o de teste. No entanto, neste estudo, não se
pode escolher os dados aleatoriamente, pois os dados são amostragem de fenômenos
cont́ınuos.
Este trabalho gerou uma rotina onde um poço é usado de cada vez como teste e
todos os outros como treino. Variando assim todos os poços como teste uma vez.
5.6.1 Métricas de avaliação
O presente estudo utiliza duas métricas de avaliação de acurácia do modelo. A
primeira é a média da acurácia em cada poço quando usado como teste. A segunda
é a soma do resultado das amostras individuais de cada poço quando usado como
teste. Essas medidas podem diferir, pois os poços contém um número diferente de
amostras classificadas.
A matriz de confusão será apresentada como a soma das amostras de todos os
poços quando os mesmo estavam na posição de conjunto de dados de teste.
Os valores de Recall e Precisão serão sempre avalidos da mesma forma de a
matriz de confusão. Sendo os valores de Tp, FpeFn a soma dos valores de todos os
poços quando os mesmo estão no conjuntos de dados de treino.
33
-
Figura 5.2: Exemplo de zonation em 2 poços.
34
-
Caṕıtulo 6
Resultados e discussões
6.1 Discussão dos parâmetro do caso Inicial
Para este estudo serão usados os dados iniciais, exclúıdo a curva DT dos poços
onde a mesma está presente. Os únicos pré-processamentos aplicados a este caso
foram o cálculo do log do perfil ILD e a normalização dos dados de entrada
(GR,RHOB,NPHI, ILD log). Para o cálculo da acurácia, recall e precisão foi
utilizada a rotina proposta anteriormente, onde cada poço é considerado uma vez
como dado de teste, sendo neste momento todos os demais 16 poços usados como
dado de treino dos modelos
A acurácia, recall e precisão final serão calculados considerando o total de Tp,
Fp e Fn. Quando cada poço é o conjunto de dados de teste o mesmo possui os seus
valores de Tp, Fp e Fn, então a soma destes 17 conjuntos de dados de teste é o valor
utilizado.
Para o cálculo da acurácia do conjunto de dados de Treino, além da hipótese
acima, foi também considerado o caso onde todos os 17 poços são usados para
treinar o modelo. Assim os valores de Tp, Fp e Fn serão calculados quando o modelo
for testado neste mesmo conjunto de dados.
6.1.1 SVM
Como mostrado nos caṕıtulos anteriores o parâmetro de regularização C será estu-
dado. O mesmo representa a relação de prioridade entre a maximização da margem
e a redução de falsas classificações no conjunto de dados de treino.
35
-
Assim, com o aumento de C o peso para a classificação errada é aumentado
em relação a maximização da margem. Tendo como resultado ao aumento de C o
aumento da acurácia do modelo no conjunto de dados de treino. Porém, isso pode
aumentar o ’overfitting’, diminuindo assim a acurácia no conjunto de dados de teste.
Observa-se através da figura 6.1 a evolução da acurácia no conjunto de dados
de treino e teste. Observa-se um aumento da acurácia no conjunto de treino mais
acentuada no inicio e depois se estabilizando. Porém, a acurácia no conjunto de
dados de teste cresce no inicio, e depois diminui com o crescimento do ’overfitting’.
Sendo assim, será escolhido C=50, mesmo sabendo que a utilização do conjunto de
dados de teste para a escolha do parâmetro, não garante a mesma acurácia mostrada
para um outro conjunto de dados.
Na figura 6.2, com a avaliação do recall, tem-se que as fácies melhores previstas
são as L2 e L7 e as fácies L4 e L6 também é prevista mesmo que com menor recall.
Figura 6.1: Variação do parâmetro C para a avalição da acurácia nos conjuntos de
teste e treino, sendo Treino a avaliação do modelo aplicando o mesmo no próprio
conjunto de dados de treino, e teste a rotina apresentada no trabalho.
6.1.2 Random Forest
O parâmetro a ser estudado será a profundidade máxima de cada árvore. Como
pode-se observar na figura 6.4, com o aumento da profundidade de cada árvore tem-
36
-
se o crescimento da acurácia no conjunto de dados de treino. Porém, o aumento da
profundidade também pode causar o fenômeno de ’overfitting’.
Logo, considera-se razoável para este trabalho a profundidade de 6. Como ex-
plicado para o modelo SVM, quando se usa um conjunto de teste para escolha do
parâmetro C, não pode-se garantir a mesma acurácia em algum outro conjunto de
dados.
As mesmas fácies melhores previstas com o modelo SVM (L7, L2, L4, L6)
também são melhores previstas pelo Random Forest. Contudo, com a Figura 6.5
pode-se observar que mesmo que em pequena quantidade as fácies L3 e L1 também
são previstas.
6.1.3 KNN
Para o método KNN o parâmetro a ser estudado será o número de vizinhos a ser
considerado. Como visto na figura 6.7, o aumento do número de vizinhos reduz
a acurácia no conjunto de dados de treino. A acurácia do conjunto de dados de
teste aumenta até um certo ponto. Este estudo utiliza então 80 como o número de
vizinhos a ser considerado.
Observa-se na figura 6.8, que as fácies mais previstas também são L7, L2, L4 e
L6. A mesma mostra que o aumento do número de vizinhos a se considerar reduz o
acerto de previsão para as demais fácies.
6.2 Avaliação dos resultados iniciais
Nesta seção serão estudados os resultados para os métodos SVM, Random Forest e
KNN com os parâmetros definidos anteriormente, C=50, Profundidade=6 e k=70
respectivamente.
Para este estudo será utilizado o boxplot na figura 6.10. Este boxplot representa
os valores da acurácia de cada poço quando são o conjunto de dados de teste, sendo
a linha verde a mediana dos 17 resultado de acurácia.
Observa-se então resultados similares para os 3 diferentes métodos aplicados,
tanto em acurácia como em fácies previstas na matriz de confusão, observadas nas
figuras 6.11, 6.12 e 6.13.
37
-
6.3 Remoção de Borda
Para este estudo também serão usados os dados iniciais, exclúıda a curva DT dos
poços onde a mesma está presente. Os únicos pré-processamentos aplicados a este
caso foram o cálculo do log do perfil ILD, a normalização dos dados de entrada
(GR,RHOB,NPHI, ILD log) e a remoção da borda.
Como observado na tabela 6.1 a acurácia é reduzida com a eliminação da borda,
logo a remoção da borda não será usada para o cálculo do caso final.
Tabela 6.1: Acurácia com a remoção de borda.
Borda Removida SVM RF KNN
0.0 metros 0.61 0.60 0.60
0.2 metros 0.59 0.60 0.59
0.4 metros 0.58 0.59 0.57
6.4 Discussão dos parâmetros caso final
Para este estudo serão usados os dados obtidos por diversos pré-
processamentos. Serão então usados o ILD após o cálculo do logaritmo,
o perfil do DT após a regressão, volume de folhelho e variável de zona
(GR,RHOB,NPHI, ILD log,DT, V SHALE, zonas), sendo todos normali-
zados. Não sendo usado neste a remoção de borda.
A acurácia, recall e precisão de teste e a acurácia de treino serão calculados da
mesma forma que para o caso Inicial.
6.4.1 SVM
Estudando a figura 6.14 pode-se escolher C=10 como o melhor valor que se enquadra
no modelo e com a figura 6.15 percebe-se que são previstas basicamente as fácies
L2, L4, L6 e L7.
38
-
6.4.2 Random Forest
Estudando a figura 6.17 foi escolhida a profundidade igual a 7. Com a figura 6.18
tem-se que são previstas basicamente as fácies L2, L4, L6 e L7.
6.4.3 KNN
Estudando a figura 6.20 será escolhido o número de vizinhos igual a 80. Com a
figura 6.21 tem-se que são previstas basicamente as fácies L2, L4, L6 e L7.
6.5 Avaliação dos resultados finais
Nesta seção serão estudados os resultados para os métodos SVM, Random Forest e
KNN com os parâmetros definidos anteriormente (Seções 6.4.1. a 6.4.3.).
Para este estudo será utilizado o boxplot na figura 6.23. Este boxplot representa
os valores da acurácia de cada poço quando são o conjunto de dados de teste, sendo
a linha verde a mediana dos 17 resultado de acurácia.
Observa-se então resultados similares para os 3 diferentes métodos aplicados,
tanto em acurácia como em fácies previstas na matriz de confusão.
Tem-se também com as figuras 6.14, 6.17 e 6.20 que a maior acurária no teste é
obtida com o método SVM, com C=10.0.
6.6 Comparação entre previsão final e inicial
6.6.1 SVM
O parâmetro C varia de 50 no caso inicial para 10 no caso final. Comparando as
figuras 6.11 e 6.24 tem-se um aumento nas previsões das fácies L2, L4, L6 e L7,
principalmente das fácies L4 e L6. Logo, a acurácia é aumentada em cerca de 5%
com o pré-processamento.
6.6.2 Random Forest
Observa-se a variação na profundidade máxima de 6 no caso inicial para 7 no caso
final. Comparando as figuras 6.12 e 6.25, contrariamente ao SVM, as previsões
39
-
corretas das fácies L4 e L6 são reduzidas. Porém, as previsões corretas das fácies L2
e L7 são acrescentadas de um bom valor.
A acurácia final é acrescida de cerca de 3%, sendo também melhorada pelo pré-
processamento.
6.6.3 KNN
O número de vizinhos escolhido continua igual, como 80, para os dois casos Com
as figuras 6.13 e 6.26. observa-se que todas as fácies previstas são melhoradas. A
acurácia final foi acrescida de cerca de 5%.
6.7 Discussão
O conjunto de dados dispońıvel possui uma grande diferença no número de amostras
por fácies. Este fato é normalmente um problema para sistemas preditivos, problema
também apresentado neste exerćıcio.
Os modelos de aprendizado de máquina em geral tendem a não prever como
sáıda as fácies menos presentes no conjunto de dados de treino.
A acurácia final subiu de um valor inicial de cerca de 60% para 65% com o
pré-processamento proposto.
40
-
Figura 6.2: Variação do parâmetro C para avaliação do recall do caso inicial.
Figura 6.3: Variação do parâmetro C para avaliação da precisão do caso inicial.
41
-
Figura 6.4: Variação do parâmetro de profundidade da árvore.
Figura 6.5: Variação do parâmetro de profundidade da árvore para avaliação do
recall do caso inicial.
42
-
Figura 6.6: Variação do parâmetro de profundidade da árvore para avaliação da
precisão do caso inicial.
Figura 6.7: Variação do parâmetro do número de vizinhos.
43
-
Figura 6.8: Variação do parâmetro do número de vizinhos para avaliação do recall
do caso inicial.
Figura 6.9: Variação do parâmetro do número de vizinhos para avaliação da precisão
do caso inicial.
44
-
Figura 6.10: Boxplot resultado Inicial.
Figura 6.11: matriz de confusão SVM caso inicial.
45
-
Figura 6.12: matriz de confusão Random Forest caso inicial.
Figura 6.13: matriz de confusão KNN caso inicial.
46
-
Figura 6.14: Variação do parâmetro C.
Figura 6.15: Variação do parâmetrs C para avaliação do recall do caso final.
47
-
Figura 6.16: Variação do parâmetro C para avaliação da precisão do caso final.
Figura 6.17: Variação do parâmetro de profundidade da árvore.
48
-
Figura 6.18: Variação do parâmetro de profundidade da árvore para avaliação do
recall do caso final.
Figura 6.19: Variação do parâmetro de profundidade da árvore para avaliação da
precisão do caso final.
49
-
Figura 6.20: Variação do parâmetro do número de vizinhos.
Figura 6.21: Variação do parâmetro do número de vizinhos para avaliação do recall
do caso final.
50
-
Figura 6.22: Variação do parâmetro do número de vizinhos para avaliação da pre-
cisão do caso final.
Figura 6.23: resultado Inicial SVM.
51
-
Figura 6.24: matriz de confusão SVM caso final.
Figura 6.25: matriz de confusão Random Forest caso final.
52
-
Figura 6.26: matriz de confusão KNN caso final.
53
-
Caṕıtulo 7
Conclusão
Este estudo teve como objetivo a aplicação dos métodos supervisionados de machine
learning em um problema t́ıpico da indústria do petróleo que é a previsão de fácies
de um testemunho e por conseguinte de um reservatório.
O problema de previsão de fácies é um grande desafio para a industria do
petróleo, pois não é inteiramente dominado pelos especialistas e caso não seja bem
estruturado em um reservatório acaba afetando a explotação do mesmo.
A dificuldade na obtenção de melhores resultados é relacionada com a baixa
qualidade dos dados, que são obtidos em condições adversas e não são diretamente
relacionados com a forma que as classes foram definidas. Outro problema é a quan-
tidade de dados dispońıveis, que pode ser ligada a diversos fatores, como :
- Grande parte dos dados existentes são guardados como confidenciais por em-
presas operadoras.
- A dif́ıcil forma de obtenção dos dados dificulta a obtenção de mais amostras.
- Diferentes geólogos em geral vão gerar diferentes classificações para as rochas.
Como resultado deste estudo não foi observada uma grande variação de perfor-
mance entre os diferentes métodos testados. Tendo obtido resultado de acurácia e
fácies previstas semelhantes.
Assim neste trabalho foram estudadas as respostas de métodos de aprendizado
de máquinas para a previsão de fácies. Considerando as limitações inerentes ao
problema (i.e. falta de homogeneidade entre os dados dos poços) o valor obtido foi
considerado satisfatório e as melhorias geradas por diferentes pré-processamentos
pode ser comprovada.
54
-
Referências Bibliográficas
[1] Dispońıvel em : http : //bdewilde.github.io/assets/images/20121026knn-
concept.png, Acesso em 13 setembro 2017.
[2] Dispońıvel em :http //i2.wp.com/blog.hackerearth.com/wp-
content/uploads/2017/02/kernel.png?resize = 730%2c291, Acesso
em 13 setembro 2017.
[3] Dispońıvel em : https : //dimensionless.in/wp-
content/uploads/randomforest blog files/figurehtml/voting.png,
Acesso em 13 setembro 2017.
[4] Dispońıvel em : http : //seabed.software.slb.com/welllog/webhelp/welllogging.htm,
Acesso em 13 setembro 2017.
[5] Dispońıvel em : http : //sebastianraschka.com/articles/2014aboutfeaturescaling.html,
Acesso em 13 setembro 2017.
[6] Dispońıvel em :http : //www.petrobras.com.br/pt/nossas −
atividades/tecnologia− e− inovacao/, Acesso em 13 setembro 2017.
[7] Dispońıvel em : machinelearningmastery.com/classification−accuracy−is−
not−enough−more−performance−measures−you−can−use, Acesso
em 13 setembro 2017.
[8] Dispońıvel em : www.anp.gov.br/wwwanp/?dw = 81693, Acesso em 13 setem-
bro 2017.
[9] Mauricio Araya-Polo, Taylor Dahlke, Charlie Frogner, Chiyuan Zhang, Tomaso
Poggio, and Detlef Hohl, Automated fault detection without seismic pro-
cessing, The Leading Edge (2017).
55
-
[10] David Arthur and Sergei Vassilvitskii, k-means++: The advantages of careful
seeding, Proceedings of the eighteenth annual ACM-SIAM symposium
on Discrete algorithms, Society for Industrial and Applied Mathematics,
2007, pp. 1027–1035.
[11] Eduardo Guimarães Barboza, Análise estratigráfica do campo de namorado (ba-
cia de campos) com base na interpretação śısmica tridimensional, (2005).
[12] Engenharia Elétrica da PUC-Rio, Samuel gustavo huamán bustamante, Ph.D.
thesis, PUC-Rio, 2012.
[13] Darwin V Ellis and Julian M Singer, Well logging for earth scientists, vol. 692,
Springer, 2007.
[14] Alexsandro G. C. et al.., Facies classification in well logs of the namorado
oilfield using support vector machine algorithm, SBGF 15 congresso in-
ternacional da sociedade brasileira de geof́ısica (2017).
[15] Jerome Friedman, Trevor Hastie, and Robert Tibshirani, The elements of sta-
tistical learning, vol. 1, Springer series in statistics New York, 2001.
[16] Talita Lammoglia, Julio Kosaka de Oliveira, and Carlos Roberto Souza Filho,
Lithofacies recognition based on fuzzy logic and neural networks: A metho-
dological comparison, Revista Brasileira de Geof́ısica 32 (2014), no. 1,
85–95.
[17] Sarika Pachange and Bela Joglekar, Random forest approach for characterizing
ensemble classifiers, International Journal of Advance Foundation and
Research in Computer (IJAFRC) Volume 1 (2014).
[18] Sebastian Raschka, Python machine learning, Packt Publishing Ltd, 2015.
[19] FS de A RIBEIRO, Aplicação de análise multivariada na predição de perfis
faltantes de poços no campo de namorado, Ph.D. thesis, Dissertação de
Mestrado em Engenharia Civil, COPPE, da Universidade Federal do Rio
de Janeiro, 2008.
56
-
[20] Leslie G Valiant, A theory of the learnable, Communications of the ACM 27
(1984), no. 11, 1134–1142.
[21] Ulrike Von Luxburg, A tutorial on spectral clustering, Statistics and computing
17 (2007), no. 4, 395–416.
57
Lista de FigurasLista de TabelasIntroduçãoDescrição dos dadosPerfilagemTestemunhosCampo de NamoradoPoços disponíveisClassificação dos testemunhosDescrição dos perfis trabalhados
Reorganização das Fácies
Aprendizado de máquinaDefinição e motivaçãoMétodos utilizadosSupport vector machine (SVM)Random forestK vizinhos mais próximos (KNN)
Análise dos DadosCross-plotAnálise de componentes principaisFácies vizinhasEspessura média das fáciesPresença das fácies por poço
MetodologiaPré-processamentoTransformação de ILD em logNormalizaçãoRegressão para DTVolume de folhelhoCriação de zonas
Limpeza dos dadosMétodos de aprendizado de máquina supervisionadoSVMRandom ForestKNN
Métricas de avaliaçãoAcuráciaPrecisãoRecall
Matriz de confusãoValidação cruzadaMétricas de avaliação
Resultados e discussõesDiscussão dos parâmetro do caso InicialSVMRandom ForestKNN
Avaliação dos resultados iniciaisRemoção de BordaDiscussão dos parâmetros caso finalSVMRandom ForestKNN
Avaliação dos resultados finaisComparação entre previsão final e inicialSVMRandom ForestKNN
Discussão
ConclusãoReferências Bibliográficas