previsÃo de fÁcies deposicionais usando perfis de … · 2017. 11. 27. · ser o irm~ao que todos...

71
PREVIS ˜ AO DE F ´ ACIES DEPOSICIONAIS USANDO PERFIS DE POC ¸ O DO CAMPO DE NAMORADO Lucas Lima de Carvalho Projeto de Gradua¸c˜ao apresentado ao Curso de Engenharia Mecˆanica da Escola Polit´ ecnica, Universidade Federal do Rio de Janeiro, como parte dos requisitos necess´arios ` aobten¸c˜ ao do ıtulo de Engenheiro. Orientadores: Jules Ghislain Slama Edmilson Helton Rios Rio de Janeiro Setembro de 2017

Upload: others

Post on 18-Feb-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • PREVISÃO DE FÁCIES DEPOSICIONAIS USANDO PERFIS DE POÇO DO

    CAMPO DE NAMORADO

    Lucas Lima de Carvalho

    Projeto de Graduação apresentado ao Curso

    de Engenharia Mecânica da Escola Politécnica,

    Universidade Federal do Rio de Janeiro, como

    parte dos requisitos necessários à obtenção do

    t́ıtulo de Engenheiro.

    Orientadores: Jules Ghislain Slama

    Edmilson Helton Rios

    Rio de Janeiro

    Setembro de 2017

  • de Carvalho, Lucas Lima

    PREVISÃO DE FÁCIES DEPOSICIONAIS USANDO

    PERFIS DE POÇO DO CAMPO DE NAMORADO/

    Lucas Lima de Carvalho. – Rio de Janeiro: UFRJ/Escola

    Politécnica, 2017.

    XIV, 57 p.: il.; 29, 7cm.

    Orientadores: Jules Ghislain Slama

    Edmilson Helton Rios

    Projeto de Graduação – UFRJ/ Escola Politécnica/

    Curso de Engenharia Mecânica, 2017.

    Referências Bibliográficas: p. 55 – 57.

    1. Machine Learning. 2. Predição de fácies. 3.

    Métodos supervisionados. I. Ghislain Slama, Jules et al..

    II. Universidade Federal do Rio de Janeiro, UFRJ, Curso

    de Engenharia Mecânica. III. PREVISÃO DE FÁCIES

    DEPOSICIONAIS USANDO PERFIS DE POÇO DO

    CAMPO DE NAMORADO.

    iii

  • À minha mãe e ao meu pai pelo

    dom da vida e pelo amparo ao

    longo desses anos. Ao Tiago por

    ser o irmão que todos desejariam

    ter e à Denise pelo carinho e

    apoio em todas as horas.

    iv

  • Agradecimentos

    Agradeço primeiramente à minha famı́lia pelo apoio e dedicação durante todos estes

    anos. Agradeço também a minha namorada, Denise, pelo carinho e paciência em

    todas as etapas deste processo.

    Agradeço à minha equipe na Schumberger pelo conhecimento compartilhado e

    toda a ajuda prestada neste trabalho. Em especial à Laura Lima, Vanessa Simões e

    Nadege Bize-Forest pelo apoio e discussões durante todo meu estágio.

    Ao orientador Edmilson Rios pelo auxilio e ao orientador Jules pela acolhida do

    assunto e disponibilidade.

    v

  • Resumo do Projeto de Graduação apresentado à Escola Politécnica/UFRJ como

    parte dos requisitos necessários para a obtenção do grau de Engenheiro Mecânico

    PREVISÃO DE FÁCIES DEPOSICIONAIS USANDO PERFIS DE POÇO DO

    CAMPO DE NAMORADO

    Lucas Lima de Carvalho

    Setembro/2017

    Orientadores: Jules Ghislain Slama

    Edmilson Helton Rios

    Programa: Engenharia Mecânica

    A perfilagem geof́ısica é realizada em quase todos o poços perfurados para ex-

    ploração de petróleo. Estas medidas são importantes para avaliação da formação,

    integridade de poços e estudo do reservatório. A identificação precisa de fácies

    geológica só é posśıvel com a descrição de testemunhos ou plugs laterais. No en-

    tanto, as operações para extração das rochas são muito caras, sendo assim limitadas

    a pequenos intervalos. Este trabalho estuda a possibilidade da predição de fácies

    deposicionais usando dados de perfis convencionais, tais como raio gama, resistivi-

    dade, densidade e neutron e técnicas de aprendizado de máquinas. Algoŕıtimos de

    ’Support Vector Machine’, ’Random Forest’ e k vizinhos próximos foram aplicados

    a dados brutos e depois a dados pré-processados. Este estudo foi realizado em um

    dos mais produtivos reservatórios na Bacia de Campos, no sudeste brasileiro.

    vi

  • Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment

    of the requirements for the degree of Mechanical Engineer

    MACHINE LEARNING SUPERVISED METHOD APPLICATION ON THE

    NAMORADO FACIES PREDICTION PROBLEM

    Lucas Lima de Carvalho

    September/2017

    Advisors: Jules Ghislain Slama

    Edmilson Helton Rios

    Department: Mechanical Engineering

    Geo-petrophysical well logging is performed in almost all wells drilled for

    petroleum exploration. They are important for formation evaluation, well integrity,

    reservoir surveillance and reserve calculations. Accurate and high resolution iden-

    tification of geological facies crossed by a well is only possible with the description

    of rock samples coming from drilling cuts, whole cores or lateral plugs. However,

    these technics are very expensive, time consuming and limited to specific intervals.

    This work describes then how to predict depositional facies using conventional wire-

    line logs, such as gamma ray, resistivity, density and neutron and; data mining

    techniques. Support Vector Machine, Random Forest and k-nearest neighbors al-

    gorithms were applied to a raw data set and also after a preprocessing workflow.

    The study is performed in one of the most productive turbidite reservoir in Campos

    Basin, Southeast Brazil.

    vii

  • Sumário

    Lista de Figuras xi

    Lista de Tabelas xiv

    1 Introdução 1

    2 Descrição dos dados 3

    2.1 Perfilagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    2.2 Testemunhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.3 Campo de Namorado . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.3.1 Poços dispońıveis . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.3.2 Classificação dos testemunhos . . . . . . . . . . . . . . . . . . 6

    2.3.3 Descrição dos perfis trabalhados . . . . . . . . . . . . . . . . . 6

    2.4 Reorganização das Fácies . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3 Aprendizado de máquina 13

    3.1 Definição e motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    3.2 Métodos utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    3.2.1 Support vector machine (SVM) . . . . . . . . . . . . . . . . . 14

    3.2.2 Random forest . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    3.2.3 K vizinhos mais próximos (KNN) . . . . . . . . . . . . . . . . 18

    4 Análise dos Dados 19

    4.1 Cross-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    4.2 Análise de componentes principais . . . . . . . . . . . . . . . . . . . . 19

    4.3 Fácies vizinhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    4.4 Espessura média das fácies . . . . . . . . . . . . . . . . . . . . . . . . 22

    viii

  • 4.5 Presença das fácies por poço . . . . . . . . . . . . . . . . . . . . . . . 23

    5 Metodologia 26

    5.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    5.1.1 Transformação de ILD em log . . . . . . . . . . . . . . . . . . 26

    5.1.2 Normalização . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    5.1.3 Regressão para DT . . . . . . . . . . . . . . . . . . . . . . . . 27

    5.1.4 Volume de folhelho . . . . . . . . . . . . . . . . . . . . . . . . 28

    5.1.5 Criação de zonas . . . . . . . . . . . . . . . . . . . . . . . . . 29

    5.2 Limpeza dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    5.3 Métodos de aprendizado de máquina supervisionado . . . . . . . . . . 30

    5.3.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    5.3.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    5.3.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    5.4 Métricas de avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    5.4.1 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    5.4.2 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    5.4.3 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    5.5 Matriz de confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    5.6 Validação cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    5.6.1 Métricas de avaliação . . . . . . . . . . . . . . . . . . . . . . . 33

    6 Resultados e discussões 35

    6.1 Discussão dos parâmetro do caso Inicial . . . . . . . . . . . . . . . . . 35

    6.1.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    6.1.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    6.1.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    6.2 Avaliação dos resultados iniciais . . . . . . . . . . . . . . . . . . . . . 37

    6.3 Remoção de Borda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    6.4 Discussão dos parâmetros caso final . . . . . . . . . . . . . . . . . . . 38

    6.4.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    6.4.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    6.4.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    ix

  • 6.5 Avaliação dos resultados finais . . . . . . . . . . . . . . . . . . . . . . 39

    6.6 Comparação entre previsão final e inicial . . . . . . . . . . . . . . . . 39

    6.6.1 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    6.6.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    6.6.3 KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    6.7 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    7 Conclusão 54

    Referências Bibliográficas 55

    x

  • Lista de Figuras

    2.1 Imagem dos dados do poço NA05 no software Techlog. . . . . . . . . 3

    2.2 Perfilagem de poço (fonte: [4]). . . . . . . . . . . . . . . . . . . . . . 4

    2.3 Rochas de testemunho (fonte: [6]). . . . . . . . . . . . . . . . . . . . 5

    2.4 Localização campo de namorado (fonte: [8]). . . . . . . . . . . . . . . 8

    2.5 produção campo de namorado (fonte: [8]). . . . . . . . . . . . . . . . 8

    2.6 Imagem 7NA do programa AnaSeTe. . . . . . . . . . . . . . . . . . . 9

    2.7 Numero de amostras de cada Facies original. . . . . . . . . . . . . . . 11

    2.8 Numero de amostras de cada Facies após modificação. . . . . . . . . . 12

    3.1 Imagem de descrição do processo SVM: a) sem e b) com penalização

    (fonte: [15]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    3.2 exemplo de transformação por kernel (fonte : [2]). . . . . . . . . . . . 16

    3.3 Funcionamento Random Forest: A) representa a amostragem do con-

    junto de dados de treino para cada árvore e B) representa o voto de

    cada árvore para a decisão final (fonte : [3]). . . . . . . . . . . . . . . 17

    3.4 Exemplo de aplicação do método KNN (fonte : [1]). . . . . . . . . . . 18

    4.1 cross-plot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    4.2 pca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    4.3 Dados observados no software Techlog para o poço NA02. . . . . . . . 25

    5.1 Exemplo de regressão dos k vizinhos. . . . . . . . . . . . . . . . . . . 28

    5.2 Exemplo de zonation em 2 poços. . . . . . . . . . . . . . . . . . . . . 34

    xi

  • 6.1 Variação do parâmetro C para a avalição da acurácia nos conjuntos de

    teste e treino, sendo Treino a avaliação do modelo aplicando o mesmo

    no próprio conjunto de dados de treino, e teste a rotina apresentada

    no trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    6.2 Variação do parâmetro C para avaliação do recall do caso inicial. . . . 41

    6.3 Variação do parâmetro C para avaliação da precisão do caso inicial. . 41

    6.4 Variação do parâmetro de profundidade da árvore. . . . . . . . . . . . 42

    6.5 Variação do parâmetro de profundidade da árvore para avaliação do

    recall do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    6.6 Variação do parâmetro de profundidade da árvore para avaliação da

    precisão do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    6.7 Variação do parâmetro do número de vizinhos. . . . . . . . . . . . . . 43

    6.8 Variação do parâmetro do número de vizinhos para avaliação do recall

    do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    6.9 Variação do parâmetro do número de vizinhos para avaliação da pre-

    cisão do caso inicial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    6.10 Boxplot resultado Inicial. . . . . . . . . . . . . . . . . . . . . . . . . . 45

    6.11 matriz de confusão SVM caso inicial. . . . . . . . . . . . . . . . . . . 45

    6.12 matriz de confusão Random Forest caso inicial. . . . . . . . . . . . . 46

    6.13 matriz de confusão KNN caso inicial. . . . . . . . . . . . . . . . . . . 46

    6.14 Variação do parâmetro C. . . . . . . . . . . . . . . . . . . . . . . . . 47

    6.15 Variação do parâmetrs C para avaliação do recall do caso final. . . . . 47

    6.16 Variação do parâmetro C para avaliação da precisão do caso final. . . 48

    6.17 Variação do parâmetro de profundidade da árvore. . . . . . . . . . . . 48

    6.18 Variação do parâmetro de profundidade da árvore para avaliação do

    recall do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    6.19 Variação do parâmetro de profundidade da árvore para avaliação da

    precisão do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    6.20 Variação do parâmetro do número de vizinhos. . . . . . . . . . . . . . 50

    6.21 Variação do parâmetro do número de vizinhos para avaliação do recall

    do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    xii

  • 6.22 Variação do parâmetro do número de vizinhos para avaliação da pre-

    cisão do caso final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    6.23 resultado Inicial SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    6.24 matriz de confusão SVM caso final. . . . . . . . . . . . . . . . . . . . 52

    6.25 matriz de confusão Random Forest caso final. . . . . . . . . . . . . . 52

    6.26 matriz de confusão KNN caso final. . . . . . . . . . . . . . . . . . . . 53

    xiii

  • Lista de Tabelas

    2.1 Fácies definidas no programa AnaSeTe) . . . . . . . . . . . . . . . . . 10

    2.2 Fácies definidas por Barboza . . . . . . . . . . . . . . . . . . . . . . . 11

    4.1 Facies depositadas consecutivamente . . . . . . . . . . . . . . . . . . 21

    4.2 Espessura média das fácies . . . . . . . . . . . . . . . . . . . . . . . . 22

    4.3 Presença das amostras de fácies por poço. . . . . . . . . . . . . . . . 23

    6.1 Acurácia com a remoção de borda. . . . . . . . . . . . . . . . . . . . 38

    xiv

  • Caṕıtulo 1

    Introdução

    Esta monografia tem como objetivo a criação de um fluxo de trabalho, focado no

    processamento de dados e na utilização de modelos de aprendizado de máquinas

    para a predição de fácies deposicionais utilizando dados de geof́ısica de poços e

    classificações baseadas no testemunho.

    A predição de fácies tem como objetivo otimizar o aproveitamento da informação

    presente no testemunho, pois quanto mais informação for extráıda do mesmo maior

    é o conhecimento do reservatório em questão. Tem-se assim uma melhor base para

    toda a operação, e um menor número de testemunhos é necessário para obtenção da

    informação desejada. Reduzindo-se os custos e os riscos de exploração.

    O fluxo de trabalho desenvolvido nesta monografia pode ser dividido em 3 eta-

    pas. A primeira etapa consiste na análise estat́ıstica dos dados dispońıveis. Na

    segunda etapa, foi realizado o pré-processamento dos dados, envolvendo limpeza,

    transformação, normalização e integração dos dados. A terceira etapa consiste na

    aplicação de três métodos de aprendizado de máquina (Support Vector Machine,

    Random Forest, K Nearest Neighbors) para a criação de funções de previsão de

    classes, utilizando os dados processados anteriormente.

    Foram analisados 17 poços de petróleo verticais localizados no Campo de Namo-

    rado, na Bacia de Campos. Os dados estão dispostos verticalmente com a taxa de

    amostragem de 0.2m e representam variações f́ısicas da rocha e do fluido locais. Den-

    tre os poços, 11 são caracterizados por cinco curvas: radioatividade natural (GR),

    porosidade de neutrons (NPHI), densidade (RHOB), resistividade(ILD) e vagarosi-

    dade das ondas compressionais (DT); e 6 poços caracterizados por apenas quatro

    1

  • curvas (GR, NPHI, ILD e RHOB).

    As classes utilizadas, denominadas “fácies”, foram sugeridas em [11], que rea-

    grupa 21 fácies descritas no software interno da Petrobrás, Análise Sequencial de

    Testemunhos (AnaSeTe), em 7 fácies baseadas na granulometria e textura das ro-

    chas analisadas. Em [11] é sugerido que através desta classificação, seja posśıvel a

    descrição do ambiente deposicional da bacia, aprimorando os modelos deposicionais

    tridimensionais do campo de Namorado.

    No caṕıtulo 2 os dados dispońıveis serão apresentados. Após isso, no caṕıtulo 3

    será apresentada a importância do aprendizado de máquinas e a explicação teórica

    dos métodos utilizados para este estudo de caso. No caṕıtulo 4 os dados dis-

    pońıveis serão estudados e analisados. No caṕıtulo 5 a metodologia de aprendizado

    de máquina e processamento de dados será definida e no caṕıtulo 6 os resultados

    obtidos com os diversos métodos de aprendizado de máquina e processamento de

    dados serão discutidos, sendo assim analisada a eficiência do fluxo de trabalho, e as

    limitações da previsão de fácies.

    2

  • Caṕıtulo 2

    Descrição dos dados

    Os dados utilizados como entrada dos modelos de predição foram obtidos através

    do processo de perfilagem, já os dados de classificação, denominadas fácies, foram

    obtidos por meio da descrição dos testemunhos. A maneira usual de observar os

    dados é apresentada na figura 2.1, mostrando que a classificação testemunho está

    presente em apenas um intervalo limitado do poço.

    Figura 2.1: Imagem dos dados do poço NA05 no software Techlog.

    2.1 Perfilagem

    Em 5 de setembro de 1927, H. Doll e os irmãos Schlumberger fizeram uma medida

    resistiva semi condutiva em um campo na região da Alsácia, o que acabou sendo

    denominado como a primeira operação perfilagem [13]. Os resultados de perfilagem

    posteriores foram de grande valia, se tornando assim um método essencial para o

    3

  • desenvolvimento da indústria do petróleo.

    A perfilagem de um poço pode ser descrita pela figura 2.2, onde uma ferramenta

    percorre todo o poço realizando medidas. Estas ferramentas efetuam medidas com

    diversas taxas de amostragem enquanto as ferramentas percorrem o poço. É posśıvel

    ainda que seja necessário que a ferramenta esteja parada no momento da amostra-

    gem.

    As ferramentas utilizam diversos prinćıpios f́ısicos na aquisição dos dados, como

    ressonância magnética, acústica, elétrica entre outros. Realizadas durante a per-

    furação ou em uma etapa posterior, as medidas são utilizadas por especialistas de

    diversas áreas de conhecimento como: geólogos, geof́ısicos e engenheiros de reser-

    vatórios. Descritas em [13].

    Figura 2.2: Perfilagem de poço (fonte: [4]).

    4

  • 2.2 Testemunhos

    Durante a operação de perfuração, também existe a possibilidade de retirada de

    amostras denominadas testemunhos, que podem ser vistos na figura 2.3. O processo

    de obtenção desse material é geralmente de alto custo financeiro, considerando a

    necessidade de uma broca especial que melhor conserve a integridade da amostra.

    Estes testemunhos são usados para testes de laboratório, mas também são avaliados

    por geólogos para criação de diversas classificações das rochas, denominadas fácies.

    Figura 2.3: Rochas de testemunho (fonte: [6]).

    2.3 Campo de Namorado

    Para este estudo de caso foi escolhido o campo de Namorado, que está localizado na

    bacia de Campos. Este campo é de grande importância por ser o primeiro campo

    escola, do qual a ANP disponibilizou os dados para pesquisa em acadêmica.

    Segundo o plano de desenvolvimento de 2016 , o campo de Namorado ocupa a

    região central da Bacia de Campos conforme a figura 2.4, com uma área de 49,5

    km2 e lâminas d’água de aproximadamente 120 a 270m.

    Em produção desde 1979, o campo de Namorado encontra-se atualmente em

    estágio final de sua produção. A figura 2.5 mostra o avanço da produção neste

    periodo.

    5

  • 2.3.1 Poços dispońıveis

    Para este estudo foram utilizados 17 poços, onde:

    a) 11 poços com os perfis DT, GR, ILD, NPHI, RHOB e as seguintes deno-

    minações - na01, na02, na04, na05A, na07, na11, na12, na372, rjs019, rjs042, rjs234

    b) 6 poços com os perfis GR, ILD, NPHI, RHOB e com as seguintes denominações

    - na22, na40D, na44, na47D, na48D, na53D

    Os dados foram cedidos pela ANP, sendo os perfis em formato .las e e a descrição

    dos testemunhos em formato .jpeg. A descrição dos testemunhos, em .jpeg, são de

    um programa interno da Petrobras chamado AnaSeTe. Cada poço é disponibilizado

    como uma imagem individual, sendo um exemplo visto na figura 2.6

    2.3.2 Classificação dos testemunhos

    A classificação original foi obtida conforme a figura 2.6 e relacionada com a profun-

    didade exata dos perfis obtidos no formato .las. Podendo assim ser usada para os

    modelos matemáticos usados neste trabalho. A classificação original é dividida em

    21 fácies observadas na tabela 2.1.

    Na figura 2.7 observa-se a presença das diferentes fácies no conjunto de dados

    constrúıdos. Para este fim, foram contabilizadas as incidências de cada facies no

    conjunto de dados amostrado com a taxa de uma a cada 0.2 metros. Este cálculo

    foi feito em rotina programada em Python.

    2.3.3 Descrição dos perfis trabalhados

    Conforme já salientado os perfis utilizados são: RHOB, NPHI, GR, ILD, DT.

    Densidade aparente da formação (RHOB), é a razão massa volume em um

    determinado intervalo. Este valor é calculado a partir da densidade eletrônica

    da formação, sendo obtido a partir de uma ferramenta que emite raios gama na

    formação e medindo o número de colisões desses raios e os elétrons na mesma [13].

    Porosidade neutron (NPHI) é a resposta das ferramentas que medem a concen-

    tração de hidrogênio na formação. A ferramenta emite nêutrons na formação que

    interage com os átomos de hidrogênio e perde energia. A concentração de hidrogênio

    é então transformada em porosidade [13].

    6

  • Raios Gama (GR), o dispositivo mede a radioatividade natural da formação

    e ajuda a identificar folhelhos, que contém elementos radioativos como potássio,

    urânio e tório. Ao contrário das rochas areńıticas e carbonáticas que quase não

    emitem radiação [13].

    Resistividade (ILD), a resistividade é medida através de uma ferramenta de

    induçãomagnética. Esta medida é usada para o cálculo de diversas medidas impor-

    tantes como: litologia e flúıdos presentes na formação [12].

    Vagarosidade da onda compressional (DT) é obtida com a medida da veloci-

    dade de propagação da onda acústica compressional pela formação. Este valor é

    relacionado a litologia e a porosidade da formação [13].

    2.4 Reorganização das Fácies

    Ao contrário das reclassificações propostas por trabalhos anteriores de predição no

    campo de Namorado, como por exemplo em [16] e [14], onde as simplificações pro-

    postas foram baseadas em semelhanças petrof́ısicas, possuindo assim melhor relação

    com as medidas de perfil. Este trabalho será fundamentado na classificação de

    fácies proposta em [11], que reduziu as 21 fácies originais, classificadas no programa

    AnaSeTe, para 7 fácies. A classificação proposta em [11] foi baseada no ambiente

    deposicional, tornando-se assim, um grande desafio do ponto de vista matemático.

    Pois, a classificação deposicional tem menor relação com os padrões nos dados de

    perfil.

    Pode-se observar esta nova classificação com as descrições utilizadas e como as

    fácies foram agrupadas na tabela 2.2. A descrição teórica foi explicada extensamente

    em [11].

    Tem-se assim a nova distribuição de dados da imagem por fácies 2.8.

    7

  • Figura 2.4: Localização campo de namorado (fonte: [8]).

    Figura 2.5: produção campo de namorado (fonte: [8]).

    8

  • Figura 2.6: Imagem 7NA do programa AnaSeTe.

    9

  • Tabela 2.1: Fácies definidas no programa AnaSeTe)

    Fácies descrição

    1 interlaminado lamoso deformado ou calcarenito fino/muito fino peloidal

    2 conglomerado e brechas carboniticas ou calcissiltito peloidal

    3 diamictito areno lamoso

    4 conglomerados residuais

    5 arenito intraclastos argilosos

    6 arenito grosso amalgamado

    7 arenito médio laminado

    8 arenito médio maciço gradado

    9 arenito médio cimentado

    10 arenito/folhelho interestratificados

    11 arenito folhelho finamente interestratificados

    12 siltito argiloso estratificado

    13 interlaminado siltito argiloso e marga ou intercalações arenito/marga

    14 folhelho radioativo

    15 interlaminado arenoso bioturbado

    16 interlaminado siltito e folhelho bioturbado ou deformado

    17 marga bioturbada

    18 ritmito

    19 arenito glauconitico

    20 folhelho com niveis de marga bioturbados

    21 arenito cimentado com instraclastos, feições de escorregamento ou deformação

    10

  • Figura 2.7: Numero de amostras de cada Facies original.

    Tabela 2.2: Fácies definidas por Barboza

    Barboza(2005) AnaSeTe

    L1 - Conglomerados e Arenitos Conglomeráticos 4, 5 e 21

    L2 - Arenitos Maciços e Estratificados 6, 7, 8, 9 e 19

    L3 - Turbiditos de Bouma em camadas espessas 10

    L4 - Turbiditos de Bouma em camadas finas 11, 12 e 15

    L5 - Conglomerados Suportados pela Matriz 2 e 3

    L6 - Escorregamentos 1

    L7 - Lamitos 13, 14, 16, 17, 18 e 20

    11

  • Figura 2.8: Numero de amostras de cada Facies após modificação.

    12

  • Caṕıtulo 3

    Aprendizado de máquina

    3.1 Definição e motivação

    Aprendizado de máquina é um tema bastante atual e que está em pleno desenvol-

    vimento. Ele é definido em [20] como o fenômeno de aquisição de conhecimento na

    ausência de uma programação expĺıcita.

    O crescimento da quantidade de dados dispońıveis, junto com o aumento da

    capacidade de processamento, principalmente com a utilização de GPUs (unidades

    de processamento gráfico), gerou um terreno fértil para o aproveitamento desses

    dados e tomada de decisão por computadores baseado em eventos passados. Em

    muitos casos, o aprendizado de máquina já começa a rivalizar com a capacidade de

    decisão humana, gerando assim grandes possibilidades para diversas indústrias.

    Carros autônomos já são uma realidade; sistemas de recomendação de produ-

    tos se tornaram muito eficientes; e métodos de tradução simultânea já estão dis-

    pońıveis. Empresas como Microsoft, Facebook e Google vem sendo pioneiras no

    desenvolvimento de novas tecnologias, porém não são, de longe, as únicas empresas

    que trabalham neste sentido.

    A indústria do petróleo, com empresas como Schlumberger e Halliburton, está

    em busca de um melhor aproveitamento dos dados dispońıveis. Muitas pesquisas

    estão sendo desenvolvidas, por exemplo em aplicações para identificação automática

    de falhas em dados śısmicos [9].

    13

  • 3.2 Métodos utilizados

    Aprendizado supervisionado e não supervisionado são as principais ferramentas para

    o estudo dos perfis. Logo, está seção os descreve e enumera os métodos usados neste

    trabalho.

    Métodos não supervisionados são em geral métodos que buscam encontrar

    padrões nos dados. Para estes métodos não são necessários dados de treino (onde

    é conhecido o resultado esperado). Estes métodos são muito usados em petrof́ısica,

    para encontrar clusters petrof́ısicos, localizando assim regiões com medidas seme-

    lhantes. Como exemplo de métodos muito famosos e úteis pode-se citar, K-Média

    [10] e Aglomeração Espectral [21].

    Métodos supervisionados são aqueles que encontram uma função em dados de

    treino, onde temos parâmetros de entrada e um parâmetro de sáıda esperado. Esta

    função será usada para prever o dado de sáıda baseado em novos dados de entrada.

    Um grande número de algoŕıtimos podem ser encontrados já desenvolvidos em

    bibliotecas online. Neste trabalho será usada a biblioteca chamada scikit-learn dis-

    pońıvel para Python e desenvolvida através de uma plataforma colaborativa em

    formato aberto ao público. Esta biblioteca foi escolhida por possuir uma grande

    quantidade de métodos implementados e uma extensa comunidade de usuários,

    sendo considerada, pela mesma, como uma referência para métodos clássicos de

    aprendizado de máquina.

    Este estudo tem como objetivo a previsão de uma classificação especifica baseada

    em dados de treino, logo para isso são usados métodos de aprendizado supervisio-

    nado. Os métodos utilizados neste trabalho serão os descritos abaixo.

    3.2.1 Support vector machine (SVM)

    Support vector machine (SVM), em [15], pode ser considerada a teoria que estende a

    separação de classes separáveis por hyperplanos, para casos onde não existem classes

    separáveis. Com este método são criados limites não lineares, através da concepção

    de separações lineares em espaços modificados por técnicas de kernel e penalizações

    por classificações falhas.

    Para a explicação simplificada será estudado o caso de um espaço de duas di-

    14

  • menções (X1 e X2), logo a equação do hyperplano separador é a equação da reta:

    β0+(β1∗X1)+(β2∗X2) = 0. Assim, caso β0+(β1∗X1)+(β2∗X2) > 0 o ponto(X1,

    X2) estará de um lado do espaço separado e se β0 + (β1 ∗ X1) + (β2 ∗ X2) 6 0 o

    ponto estará do outro lado

    Assim, considerando yi = 1 para amostras da classe posicionado na região onde

    β0 + (β1 ∗X1) + (β2 ∗X2) = 0 e yi = −1 para a classe posicionada na região onde

    β0+(β1∗X1)+(β2∗X2) 6 0. O problema de maximação da margem(M) ,mostrado

    na figura 3.1 imagem a), possui a restrição:

    yi(xTi β + β0) >M, i = 1, . . . , N (3.1)

    onde N é o número de amostras.

    Figura 3.1: Imagem de descrição do processo SVM: a) sem e b) com penalização

    (fonte: [15]).

    O presente método realiza a separação de duas classes linearmente separáveis,

    porém tem-se o interesse de obter um classificador que também funcione para con-

    junto de dados não linearmente separáveis. Com este objetivo é adicionado o con-

    ceito de variáveis de penalização sendo ξ = (ξ1, . . . , ξN). Como observado na figura

    3.1 b.

    Logo, a restrição gerada pela equação da reta anterior se transforma na seguinte

    restrição:

    yi(xTi β + β0) >M − ξi, i = 1, . . . , N (3.2)

    15

  • Sendo o objetivo do novo problema a maximização da margem (M) subtráıda da

    soma das variáveis de penalização: M−K∑N

    i=1 ξi. Observa-se que a variável K será

    o equiĺıbrio entre maximizar a margem e reduzir o número de falsas classificações

    no conjunto de treino.

    Para a otimização, muitas transformações são feitas, surgindo no problema de

    otimização final a variável C, que tem um objetivo similar a variável K e terá o

    comportamento estudado neste trabalho.

    Para a criação de separadores não lineares, é inserido o conceito de kernel, que

    não vai ser explicado teoricamente, pois foge ao escopo deste trabalho. Pode-se

    ilustrar de uma maneira informal como um método de transformação do espaço de

    estudo, onde é tentado transformar dados não separados por um hyperplano, em

    dados separados por um hyperplano em uma outra dimensão. Como exemplo, a

    figura 3.2, onde uma terceira dimensão é adicionada relacionando a distância ao

    centro de um ćırculo. Tornando assim o conjunto de dados separável.

    Figura 3.2: exemplo de transformação por kernel (fonte : [2]).

    3.2.2 Random forest

    Conforme em [17], o random forest é um método classificador que consiste em uma

    coleção de estruturas de árvores classificadoras h(x,Θk), k = 1, ... onde Θk são in-

    dependentes e identicamente vetores aleatórios distribúıdos e cada árvore é uma

    unidade de voto para a classe de voto mais popular com a entrada x.

    Ou seja, Random Forest é composto de um grupo de k árvores de decisão, que

    funcionam como classificadores independentes, sendo assim, tem-se k resultados pre-

    16

  • vistos. Para a obtenção do resultado final é escolhida a classe mais presente nos

    resultado previstos como a sáıda do modelo.

    Para a construção de cada árvore de decisão, realiza-se uma amostragem de

    tamanho m com ou sem remoção dos dados já selecionados, sendo n o tamanho

    original do conjunto de dados. Neste trabalho, será usado m=n e sem remoção dos

    dados já selecionados.

    Depois de separados os dados que vão ser usados em cada árvore de decisão,

    para cada nó são selecionados aleatoriamente os perfis que vão estar dispońıveis

    para se obter a melhor separação dos dados (maximizando o ganho de informação).

    Por exemplo, tendo-se 5 perfis dispońıveis, usa-se somente 3 desses para avaliar a

    melhor partição.

    Pode-se também definir a profundidade máxima de cada árvore, entre outros

    parâmetros que serão discutidos posteriormente.

    A funcionamento da Random Forest pode ser explicado de maneira simplificada

    na figura 3.3.

    Figura 3.3: Funcionamento Random Forest: A) representa a amostragem do con-

    junto de dados de treino para cada árvore e B) representa o voto de cada árvore

    para a decisão final (fonte : [3]).

    17

  • 3.2.3 K vizinhos mais próximos (KNN)

    Este método é considerado um método lento, pois não aprende uma função de decisão

    com os dados de treino, mas guarda na memória todos os valores de treino. Este

    método avalia os k-ésimos vizinhos mais próximos para cada ponto de previsão, e

    então a classe mais presente nessa vizinhança é selecionada como a classe resposta

    do modelo preditivo.

    Por exemplo, na figura 3.4, onde x1 e x2 são as dimensões dos dados de entrada e

    os pontos amarelos e roxos são os dados de treino. A amostra representada na ima-

    gem como estrela 3.4, quando avaliados os 3 vizinhos mais próximos a amostra seria

    classificada como classe B e quando 6 vizinhos próximos são escolhidos a amostra

    seria classificada com classe A.

    Figura 3.4: Exemplo de aplicação do método KNN (fonte : [1]).

    18

  • Caṕıtulo 4

    Análise dos Dados

    Neste caṕıtulo, os dados serão estudados no formato inicial, cedido pela ANP, an-

    teriormente apresentados. Como não estão dispońıveis os valores de DT para todos

    os poços, a variável DT não será utilizada no estudo, incluindo tanto cross-Plot,

    quanto análise dos componentes principais.

    4.1 Cross-plot

    A figura 4.1 é a construção de todos os cross-plots posśıveis, combinando todos os

    dados de entrada (perfis) 2 a 2, sendo a classificação (fácies) as cores dos gráficos.

    Observa-se também nesta figura o histograma de cada dado de entrada na diagonal.

    É interessante observar que as fácies mais presentes, 2 e 7, são muito bem sepa-

    radas pelo RHOB. Para a realização deste plot foi usada a biblioteca Seaborn em

    Python.

    4.2 Análise de componentes principais

    O método dos componentes principais (PCA) é usado para redução de dimensão

    em grandes conjuntos de dados. Este faz o cálculo de uma nova base para o espaço

    vetorial existente atravás de transformações ortogonais.

    Tendo um conjunto de dados com dimensão n e k amostras, o PCA encontra a

    matriz P(n,m), onde Y=XP, sendo Y um conjunto de dados com m dimensões e k

    amostras.

    19

  • Esta transformação representa o máximo de variância posśıvel no primeiro com-

    ponente, então o máximo posśıvel no segundo e assim sucessivamente.

    Este método é muito utilizado para redução do tempo de cálculo em métodos

    não supervisionados e para a visualização em 2 ou 3 dimensões de dados que estão

    dispońıveis em grandes dimensões.

    O método é feito em 3 passos:

    a) Cálculo da matriz de covariância do dado normalizado (a normalização feita

    será explicada no próximo caṕıtulo deste trabalho).

    b) Cálculo dos autovalores e autovetores.

    c) P = [v1 v2], sendo v1 e v2 ou autovetores correspondentes ao maiores auto-

    valores.

    Para este estudo serão utilizados os perfis iniciais presentes em todos os poços,

    não usando assim o perfil DT. Neste caso a melhor visualização é 2 dimensões,

    portanto é dessa forma que o dado será plotado, sendo a dimensão das cores a

    representação de qual classe o dado faz parte.

    Este conjunto de dados exprime 0.83 da variância total (valor calculado automa-

    ticamente pela biblioteca scikit-learn) em duas dimensões, podendo então ser dito

    que a representação em duas dimensões é uma boa representação do comportamento

    dos dados. Para melhor observação foi escolhida a representação de um ponto a cada

    3. Sendo os mesmos uma nova amostragem, um ponto a cada 0.6m, do conjunto de

    dados original.

    Para a realização de todo o cálculo acima foi usada a biblioteca Scikit-learn em

    Python

    Pode-se observar na figura 4.2 que não existem clusters bem definidos. Algumas

    classes estão mais concentradas em algumas regiões (2, 6), mesmo que com alguns

    ’outliers’, e outras não muito bem definidas(1). Através da observação da figura,

    fica claro que a tarefa de classificar os dados não é fácil, sendo muitas das classes

    sobrepostas, o que acarretará uma acurácia limita neste exerćıcio de previsão.

    20

  • 4.3 Fácies vizinhas

    Observa-se na figura do software Techlog 4.3 representada na coluna a esquerda

    que as fácies, diferenciadas pela sua coloração, estão dispostas sequencialmente.

    Havendo assim uma relação de vizinhança entre as fácies, que é a existência de um

    ponto onde observa-se a transição de uma fácies para outra.

    Torna-se interessante , inicialmente, o estudo de como estas fácies se sequenciam

    e se existem relações preferenciais de sobreposição das fácies, buscando assim padrões

    de sequências. Para este estudo foi elabora um código em Python. Este percorre

    todos os dados (discretização das curvas existentes) e adiciona uma unidade ao valor

    existente na coluna ’m’ e linha ’n’ de uma matriz caso a fácies m apareça após a

    fácies n. Ver imagem na tabela 4.1.

    Para percorrer os dados, foram considerados somente os dados dos testemunhos

    (onde se tem a classificação), observando-se um por vez e percorrendo o mesmo,

    do ponto mais próximo a superf́ıcie até o mais profundo. Ressalta-se que as fácies

    presentes no topo do testemunho não tem um vizinho superior definido, e que as

    fácies presentes na parte inferior do testemunho também não possuem um vizinho

    inferior definido.

    Tabela 4.1: Facies depositadas consecutivamente

    Facies L1 L2 L3 L4 L5 L6 L7

    L1 0 6 2 12 2 1 9

    L2 9 0 4 20 9 2 25

    L3 1 4 0 3 0 0 2

    L4 11 16 3 0 7 0 5

    L5 4 8 0 6 0 8 8

    L6 0 1 0 0 7 0 4

    L7 10 26 1 8 6 1 0

    É importante lembrar que cada fácies é composta de diversas amostras em

    sequência (com uma taxa de amostragem de 0.2m), logo o fato de existirem mais

    amostras de uma fácies não quer dizer que esta fácies possui maior quantidade de

    diferentes blocos. Este fato pode representar que a mesma possui blocos maiores.

    21

  • Observa-se na na tabela 4.1 algumas relações de sobreposição. Como exemplo,

    verifica-se que a fácies 6 possui poucos vizinhos, sendo majoritariamente vizinha a

    fácies 5, mesmo a fácies 5 estando muito menos presente nos testemunhos do que as

    fácies 2 e 7. Logo, seria de se esperar que a fácies 6 tivesse como vizinhos prioritários

    as fácies 2 e 7.

    Apesar da observação de alguns padrões de vizinhança, os mesmos não foram

    considerados restritivos aos modelos de aprendizado de máquina utilizados neste

    trabalho, que tratam a informação de forma pontual, não levando em conta assim

    as relações de vizinhança.

    4.4 Espessura média das fácies

    Foi desenvolvido um código em Python com o objetivo de calcular a espessura média

    com a qual as fácies se apresentam. Para isso foi calculado o número de amostras

    de cada classe no conjunto de dados discretizado e este valor divido pelo número de

    aparições de cada bloco de fácies.

    O número de bloco de fácies foi obtido com um algoritmo que percorre todos os

    dados discretizados, da parte mais próxima a superf́ıcie de cada testemunho até a

    mais profunda. E cada vez que uma amostra tem como classe um valor diferente ao

    da amostra anterior, essa nova classe tem uma unidade adicionada ao somatório de

    aparições da mesma, a classe presente na parte superior de cada testemunho também

    é contada. Os resultados estão apresentados na tabela4.2.

    Tabela 4.2: Espessura média das fácies

    Fácies tamanho médio (medido em número de amostras)

    L1 4.0

    L2 10.68

    L3 7.7

    L4 7.5

    L5 6.9

    L6 33.6

    L7 15.0

    22

  • 4.5 Presença das fácies por poço

    Apresenta-se na tabela 4.3 a quantidade de amostras, de cada fácies, presentes em

    cada um dos 17 poços do campo de Namorado selecionados para o estudo. Observa-

    se que a distribuição tem um grau de heterogeneidade elevado, fato que afetará a

    acurácia de predição em cada poço.

    Tabela 4.3: Presença das amostras de fácies por poço.

    Poço L1 L2 L3 L4 L5 L6 L7 Total

    na01 3 46 8 17 24 0 59 157

    na02 11 64 8 28 0 0 33 144

    na04 3 158 23 5 4 12 85 290

    na05 0 0 0 0 10 100 63 173

    na07 40 104 3 174 45 0 144 510

    na11 1 67 0 12 30 275 345 730

    na12 37 145 16 55 62 22 225 562

    na372 19 41 0 0 15 41 0 115

    rjs019 0 5 0 0 0 0 63 68

    rjs042 0 112 6 8 0 0 0 126

    rjs234 0 0 0 0 0 0 66 66

    na22 32 54 19 83 58 0 8 254

    na40 0 52 5 3 0 0 0 60

    na44 9 81 5 6 0 0 2 103

    na47 2 39 0 36 0 0 0 77

    na48 10 51 7 8 0 0 2 78

    na53 2 49 0 0 0 54 91 196

    23

  • Figura 4.1: cross-plot.

    Figura 4.2: pca.

    24

  • Figura 4.3: Dados observados no software Techlog para o poço NA02.

    25

  • Caṕıtulo 5

    Metodologia

    Neste caṕıtulo serão apresentados os métodos utilizados no pré-processamento dos

    dados, como são escolhidos os principais parâmetros dos modelos de aprendizado de

    máquinas utilizados e as métrica de avaliação usadas neste estudo.

    5.1 Pré-processamento

    É muito frequente na indústria não possuir todas as variáveis dados dispońıveis em

    todos os poços. Como exemplo, neste estudo a variável DT não está dispońıvel em

    todos os poços. Logo, fez se a regressão dessa variável para os poços onde a mesma

    não está presente

    Algo também frequente é o emprego de medidas diretas para o cálculo de diversos

    fatores de interesse, entre esses cálculos tem-se dados de litologia, porosidade, volume

    de folhelho etc. Logo, nesta seção também será calculado o volume de folhelho. Além

    dos processamentos descritos, nesta seção também será definida a variável ”zona”.

    5.1.1 Transformação de ILD em log

    A variável ILD possui uma calda longa (poucas amostras com valores muito supe-

    riores aos demais). Sendo assim, o primeiro passo do fluxo de trabalho o cálculo do

    log da variável ILD.

    26

  • 5.1.2 Normalização

    Os dados serão normalizados usando centralização e desvio padrão, então o dado

    será diminúıdo da média e dividido pelo desvio padrão. Neste trabalho também é

    empregada a técnica usual de excluir os 5% menores e 5%maiores valores do cálculo

    da média e do desvio padrão. Este método é bem definido por Sebastian Raschka em

    [18] mas também no seu site [5]. Para este calculo foi usado o método RobustScaler

    da biblioteca Scikit-learn em Python.

    5.1.3 Regressão para DT

    Como apresentado anteriormente, os dados DT não estão dispońıveis em todos os

    poços. Porém, métodos de aprendizado de máquina em geral não conseguem lidar

    com a falta de algum dado de entrada. Logo, para que este problema seja resolvido,

    existe a opção de não usar a variável DT, perdendo assim a informação que a mesma

    aporta. Outra opção é a reconstrução do dado por métodos de regressão nos poços

    onde o mesmo não está presente.

    Logo, neste estudo será usado como caso base a exclusão da variável DT, e o caso

    final com a reconstrução dos dados nos poços feita por métodos de regressão. Assim,

    estabelecendo uma comparação de como o método de regressão proposto afetará o

    resultado final da predição.

    Para a escolha do método de regressão, este trabalho baseou-se na dissertação de

    mestrado do aluno Frederico Ribeiro[19], onde diversos métodos foram testados. O

    método K Neighbors Regressos foi escolhido como o com melhor resultado. Porém,

    diferente do trabalho apresentado, este escolheu como cinco o número de vizinhos a

    serem considerados, substituindo o valor de um vizinho definido no trabalho.

    Para esta regressão, os poços onde se possui a medida DT serão usados como

    dado de treino, considerando os perfis, RHOB, GR, NPHI como entrada e o perfil

    DT como sáıda.

    Após obter-se o modelo treinado, o mesmo será aplicado para a previsão de DT

    nos poços onde o mesmo não está presente, sempre se baseando nos logs RHOB, ILD,

    GR e NPHI como os dados de entrada. Como primeira etapa os dados de entrada do

    conjunto de treino (RHOB, GR, NPHI, ILD) serão utilizados para calculo da média

    e desvio padrão necessários para a normalização dos mesmos, sendo esses valores

    27

  • usados para normalização dos dados de entrado do conjunto de treino e do que se

    quer prever o valor esperado de DT.

    Para cada dado de entrada do conjunto onde se quer obter o valor de DT, o

    modelo buscará os k dados de treino mais próximos, utilizando os dados de entrada

    considerando a distância euclidiana, e calculará o DT de sáıda como a média do

    valor de DT dos k vizinhos mais próximos.

    Para a utilização deste modelo será usada a biblioteca Scikit-learn dispońıvel

    para Python, e um exemplo da aplicação deste método pode ser vista na figura 5.1

    disponibilizada na mesma biblioteca.

    Figura 5.1: Exemplo de regressão dos k vizinhos.

    5.1.4 Volume de folhelho

    Neste trabalho foram utilizados os dados de porosidade neutrão(NPHI) e densidade

    aparente da formação (RHOB) para através da equação abaixo calcular o ”volume

    de shale”, abreviado neste como V SHND. O cálculo desta variável foi feito com

    o programa Techlog, e segundo ’chart book’ do mesmo, o volume de folhelho é

    calculado como:

    X0 = NPHIMA

    X1 = NPHI +M1 × (RHOBMA −RHOB)

    X2 = NPHISh +M1 × (RHOBMA −RHOBSh)

    M1 =NPHIFL −NPHIMARHOBFL −RHOBMA

    28

  • ShaleV olume =X1 −X0X2 −X0

    (5.1)

    Onde NPHIMA e NPHISh são as respostas padrão de porosidade neutron para

    arenito e rocha de lama respectivamente. Sendo também RHOBMA e RHOBSh as

    respostas de RHOB padrão para arenito e rocha de lama respectivamente.

    5.1.5 Criação de zonas

    A variável de formação é gerada tendo como alicerce o comportamento similar de po-

    rosidade neutrão e densidade aparente de formação entre os poços. Essa correlação

    foi sugerida por Faria e al. (2001) apud Barbosa[11] para todo o campo de Namo-

    rado. Onde identificou-se 5 diferentes formações que sempre aparecem na mesma

    sequência, podendo todas as formações estarem presentes ou não em cada poço,

    tem-se como exemplo da variável gerada a figura 5.2. Pode-se observar na mesma

    figura que a ultima coluna de cada poço é dividade em diferentes cores, sendo elas

    transformadas em variáveis com diferentes valores para cada cor, sendo em ordem

    da parte superior do poço até a inferior.

    A ideia de separação em formações surge neste trabalho devido a necessidade

    de adição de alguma informação de localidade no modelo preditivo. Por exemplo,

    tendo duas regiões com respostas (perfis) semelhantes, uma na região mais profunda

    do poço, e outra mais próxima a superf́ıcie, a informação da formação vai adicionar

    uma diferença entre as mesmas. Essa nova informação possibilitará ao modelo a

    comparação prioritariamente do dado que se quer prever a classe de sáıda com

    dados de localidades semelhantes em outros poços.

    É importante ressaltar, que a escala na qual as formações são definidas (o seu

    comprimento), é muito maior do que a variação de fácies. como mostra a figura

    5.2, sendo a última coluna a variável das zonas e a penúltima a variável da clas-

    sificação (fácies). Assim, adição da variável de formação não foi considerada como

    um problema de metodologia. Essa informação adicional sobre a formação não está

    carregada do conhecimento prévio das fácies classificadas nos testemunhos.

    29

  • 5.2 Limpeza dos dados

    Neste trabalho é proposto um método de remoção de borda. Os dados petrof́ısicos

    são dados obtidos através de medidas discretas de fenômenos cont́ınuos, então sabe-

    se que a transição entre duas fácies é suave. Existindo assim uma região de transição

    entre duas fácies.

    Deve ser levado também em consideração que os dados de perfil, em geral, são

    medidos a uma grande profundidade e num ambiente hostil, logo, existe uma grande

    incerteza associada aos dados obtidos. Outra fonte de incerteza está na relação de

    profundidade entre as diversas medidas e a classificação dos testemunhos. Pois,

    deve-se associar a profundidade exata dos dados de perfil com a classificação do

    testemunho no local.

    Para mitigar os problemas apresentados anteriormente, o presente trabalho

    propõe a retirada, no conjunto de dados de treino, de amostras da parte superior

    e inferior de cada fácies presente. Processo denominado de ”remoção de bordas”.

    A quantidade de amostras retirada vai ser alvo de estudo e discussão no próximo

    caṕıtulo.

    A remoção de borda, como a maioria dos processos de limpeza de dados, segue

    um compromisso entre a melhoria dos dados de treino e a redução do conjunto de

    dados de treino. Com a remoção dos dados de borda obtém-se uma redução do

    número de dados mal classificados. Porém, ocorre também a redução do conjunto

    de dados de treino, tendo como resultado a perda de informação não avaliada.

    É importante lembrar que esses dados só podem ser removidos dos conjuntos de

    treino do modelo, a remoção de dados do conjunto de teste é considerado um erro

    metodológico, pois adicionaria uma informação obtida somente com o conhecimento

    da verdadeira classificação.

    5.3 Métodos de aprendizado de máquina super-

    visionado

    Nesta seção os parâmetros de entrada dos modelos serão definidos, e explicitados

    quais parâmetro serão variados e terão o comportamento estudado no caṕıtulo de

    30

  • resultados.

    5.3.1 SVM

    Visto que não se conhece um padrão definido para o conjunto de dados foi escolhido

    um kernel gaussiano, denominado em scikit-learn como ’rbf’. O coeficiente do kernel,

    gamma, vai ser definido como o valor estipulado automáticamente pela biblioteca,

    1/(Numerodeamostras). Não serão considerados pesos diferentes para diferentes

    classes. Será usado a função de decisão de uma versus o resto.

    O parâmetro C é uma constante de penalização que terá o seu valor variado e o

    comportamento estudado no caṕıtulo de resultados.

    5.3.2 Random Forest

    Será usado o cálculo de ganho de informação chamado entropia, o número de

    variáveis levado em consideração para cada nó será o proposto como padrão pela

    biblioteca, a raiz quadrada do numero total de variaveis. Serão usadas 200 diferentes

    árvores. A variável de profundidade máxima de cada árvore de decisão será variada

    e terá o seu comportamento estudado no caṕıtulo de resultados.

    5.3.3 KNN

    O método de calculo da distância entre dois pontos será a euclidiana. O número

    de vizinhos a serem considerados será variado e terá o comportamento estudado no

    caṕıtulo de resultados.

    5.4 Métricas de avaliação

    Nesta seção será discutida as formas usadas neste trabalho para a avalição dos

    resultados. Os métodos utilizados podem ser observados em [7] pelo Doutor Jason

    Brownlee. Para facilitar as explicações são definido os termos:

    Positivo verdadeiro (Tp) : amostras em que a classificação prevista pelo modelo

    é igual a classificação real. O valor pode ser calculado independentemente para cada

    classe. É definido como Tpsum a soma do valor para todas as classes.

    31

  • Falso positivo (Fp) : amostras em que a classificação foi prevista para a classe

    X, porém a classificação real é alguma outra. Logo, cada classe terá o seu número

    espećıfico de falsos positivos. É definido como Fpsum a soma dos valores para todas

    as classes.

    Falso Negativo (Fn) - São calculados para uma classe em espećıfico, onde o

    seu valor é calculado como o número de amostras que são desta classe mas são

    classificadas como outra classe erroneamente.

    5.4.1 Acurácia

    A acurácia é a divisão entre o número de amostras em que a classificação prevista

    pelo modelo é equivalente a classificação real (Tp), sobre o número total de amostras

    em que a previsão foi aplicada (N).

    Acuracia = Tpsum/N (5.2)

    5.4.2 Precisão

    A precisão será calculada para cada classe como:

    Precisao = Tp/(Tp + Fp) (5.3)

    Logo, a mesma pode ser interpretada como a exatidão da medida, pois calcula,

    entre as previsões de uma determinada classe, qual o percentual de acerto.

    5.4.3 Recall

    O recall é classificado para cada classe como:

    Recall = Tp/(Tp + Fn) (5.4)

    Assim, o Recall é a acurácia do método para uma classe espećıfica. Pois, Tp + Fn é

    o numero total de incidências da classe.

    32

  • 5.5 Matriz de confusão

    A matriz de confusão é a maneira visual de se observar a relação de qual é a classe

    real da amostra e qual classe foi prevista pelo modelo. Logo, tendo 7 classes, a

    matriz será 7x7, sendo cada elemento o número de amostras da relação de classe

    real x classe prevista. Na matriz de confusão aparecem individualmente os valores

    Tp, Fp e Fn.

    5.6 Validação cruzada

    A validação cruzada é um método utilizado para a avaliação da qualidade do modelo

    preditivo proposto. Ela, entre outras formas, pode ser feita com a separação do

    conjunto de dados onde existe a classificação conhecida (oferecida pelo testemunho)

    em dois subconjuntos: subconjunto de treino e de teste.

    Usualmente se escolhem dados de forma aleatória, sendo 0.7 do conjunto de dados

    para o subconjunto de treino e 0.3 para o de teste. No entanto, neste estudo, não se

    pode escolher os dados aleatoriamente, pois os dados são amostragem de fenômenos

    cont́ınuos.

    Este trabalho gerou uma rotina onde um poço é usado de cada vez como teste e

    todos os outros como treino. Variando assim todos os poços como teste uma vez.

    5.6.1 Métricas de avaliação

    O presente estudo utiliza duas métricas de avaliação de acurácia do modelo. A

    primeira é a média da acurácia em cada poço quando usado como teste. A segunda

    é a soma do resultado das amostras individuais de cada poço quando usado como

    teste. Essas medidas podem diferir, pois os poços contém um número diferente de

    amostras classificadas.

    A matriz de confusão será apresentada como a soma das amostras de todos os

    poços quando os mesmo estavam na posição de conjunto de dados de teste.

    Os valores de Recall e Precisão serão sempre avalidos da mesma forma de a

    matriz de confusão. Sendo os valores de Tp, FpeFn a soma dos valores de todos os

    poços quando os mesmo estão no conjuntos de dados de treino.

    33

  • Figura 5.2: Exemplo de zonation em 2 poços.

    34

  • Caṕıtulo 6

    Resultados e discussões

    6.1 Discussão dos parâmetro do caso Inicial

    Para este estudo serão usados os dados iniciais, exclúıdo a curva DT dos poços

    onde a mesma está presente. Os únicos pré-processamentos aplicados a este caso

    foram o cálculo do log do perfil ILD e a normalização dos dados de entrada

    (GR,RHOB,NPHI, ILD log). Para o cálculo da acurácia, recall e precisão foi

    utilizada a rotina proposta anteriormente, onde cada poço é considerado uma vez

    como dado de teste, sendo neste momento todos os demais 16 poços usados como

    dado de treino dos modelos

    A acurácia, recall e precisão final serão calculados considerando o total de Tp,

    Fp e Fn. Quando cada poço é o conjunto de dados de teste o mesmo possui os seus

    valores de Tp, Fp e Fn, então a soma destes 17 conjuntos de dados de teste é o valor

    utilizado.

    Para o cálculo da acurácia do conjunto de dados de Treino, além da hipótese

    acima, foi também considerado o caso onde todos os 17 poços são usados para

    treinar o modelo. Assim os valores de Tp, Fp e Fn serão calculados quando o modelo

    for testado neste mesmo conjunto de dados.

    6.1.1 SVM

    Como mostrado nos caṕıtulos anteriores o parâmetro de regularização C será estu-

    dado. O mesmo representa a relação de prioridade entre a maximização da margem

    e a redução de falsas classificações no conjunto de dados de treino.

    35

  • Assim, com o aumento de C o peso para a classificação errada é aumentado

    em relação a maximização da margem. Tendo como resultado ao aumento de C o

    aumento da acurácia do modelo no conjunto de dados de treino. Porém, isso pode

    aumentar o ’overfitting’, diminuindo assim a acurácia no conjunto de dados de teste.

    Observa-se através da figura 6.1 a evolução da acurácia no conjunto de dados

    de treino e teste. Observa-se um aumento da acurácia no conjunto de treino mais

    acentuada no inicio e depois se estabilizando. Porém, a acurácia no conjunto de

    dados de teste cresce no inicio, e depois diminui com o crescimento do ’overfitting’.

    Sendo assim, será escolhido C=50, mesmo sabendo que a utilização do conjunto de

    dados de teste para a escolha do parâmetro, não garante a mesma acurácia mostrada

    para um outro conjunto de dados.

    Na figura 6.2, com a avaliação do recall, tem-se que as fácies melhores previstas

    são as L2 e L7 e as fácies L4 e L6 também é prevista mesmo que com menor recall.

    Figura 6.1: Variação do parâmetro C para a avalição da acurácia nos conjuntos de

    teste e treino, sendo Treino a avaliação do modelo aplicando o mesmo no próprio

    conjunto de dados de treino, e teste a rotina apresentada no trabalho.

    6.1.2 Random Forest

    O parâmetro a ser estudado será a profundidade máxima de cada árvore. Como

    pode-se observar na figura 6.4, com o aumento da profundidade de cada árvore tem-

    36

  • se o crescimento da acurácia no conjunto de dados de treino. Porém, o aumento da

    profundidade também pode causar o fenômeno de ’overfitting’.

    Logo, considera-se razoável para este trabalho a profundidade de 6. Como ex-

    plicado para o modelo SVM, quando se usa um conjunto de teste para escolha do

    parâmetro C, não pode-se garantir a mesma acurácia em algum outro conjunto de

    dados.

    As mesmas fácies melhores previstas com o modelo SVM (L7, L2, L4, L6)

    também são melhores previstas pelo Random Forest. Contudo, com a Figura 6.5

    pode-se observar que mesmo que em pequena quantidade as fácies L3 e L1 também

    são previstas.

    6.1.3 KNN

    Para o método KNN o parâmetro a ser estudado será o número de vizinhos a ser

    considerado. Como visto na figura 6.7, o aumento do número de vizinhos reduz

    a acurácia no conjunto de dados de treino. A acurácia do conjunto de dados de

    teste aumenta até um certo ponto. Este estudo utiliza então 80 como o número de

    vizinhos a ser considerado.

    Observa-se na figura 6.8, que as fácies mais previstas também são L7, L2, L4 e

    L6. A mesma mostra que o aumento do número de vizinhos a se considerar reduz o

    acerto de previsão para as demais fácies.

    6.2 Avaliação dos resultados iniciais

    Nesta seção serão estudados os resultados para os métodos SVM, Random Forest e

    KNN com os parâmetros definidos anteriormente, C=50, Profundidade=6 e k=70

    respectivamente.

    Para este estudo será utilizado o boxplot na figura 6.10. Este boxplot representa

    os valores da acurácia de cada poço quando são o conjunto de dados de teste, sendo

    a linha verde a mediana dos 17 resultado de acurácia.

    Observa-se então resultados similares para os 3 diferentes métodos aplicados,

    tanto em acurácia como em fácies previstas na matriz de confusão, observadas nas

    figuras 6.11, 6.12 e 6.13.

    37

  • 6.3 Remoção de Borda

    Para este estudo também serão usados os dados iniciais, exclúıda a curva DT dos

    poços onde a mesma está presente. Os únicos pré-processamentos aplicados a este

    caso foram o cálculo do log do perfil ILD, a normalização dos dados de entrada

    (GR,RHOB,NPHI, ILD log) e a remoção da borda.

    Como observado na tabela 6.1 a acurácia é reduzida com a eliminação da borda,

    logo a remoção da borda não será usada para o cálculo do caso final.

    Tabela 6.1: Acurácia com a remoção de borda.

    Borda Removida SVM RF KNN

    0.0 metros 0.61 0.60 0.60

    0.2 metros 0.59 0.60 0.59

    0.4 metros 0.58 0.59 0.57

    6.4 Discussão dos parâmetros caso final

    Para este estudo serão usados os dados obtidos por diversos pré-

    processamentos. Serão então usados o ILD após o cálculo do logaritmo,

    o perfil do DT após a regressão, volume de folhelho e variável de zona

    (GR,RHOB,NPHI, ILD log,DT, V SHALE, zonas), sendo todos normali-

    zados. Não sendo usado neste a remoção de borda.

    A acurácia, recall e precisão de teste e a acurácia de treino serão calculados da

    mesma forma que para o caso Inicial.

    6.4.1 SVM

    Estudando a figura 6.14 pode-se escolher C=10 como o melhor valor que se enquadra

    no modelo e com a figura 6.15 percebe-se que são previstas basicamente as fácies

    L2, L4, L6 e L7.

    38

  • 6.4.2 Random Forest

    Estudando a figura 6.17 foi escolhida a profundidade igual a 7. Com a figura 6.18

    tem-se que são previstas basicamente as fácies L2, L4, L6 e L7.

    6.4.3 KNN

    Estudando a figura 6.20 será escolhido o número de vizinhos igual a 80. Com a

    figura 6.21 tem-se que são previstas basicamente as fácies L2, L4, L6 e L7.

    6.5 Avaliação dos resultados finais

    Nesta seção serão estudados os resultados para os métodos SVM, Random Forest e

    KNN com os parâmetros definidos anteriormente (Seções 6.4.1. a 6.4.3.).

    Para este estudo será utilizado o boxplot na figura 6.23. Este boxplot representa

    os valores da acurácia de cada poço quando são o conjunto de dados de teste, sendo

    a linha verde a mediana dos 17 resultado de acurácia.

    Observa-se então resultados similares para os 3 diferentes métodos aplicados,

    tanto em acurácia como em fácies previstas na matriz de confusão.

    Tem-se também com as figuras 6.14, 6.17 e 6.20 que a maior acurária no teste é

    obtida com o método SVM, com C=10.0.

    6.6 Comparação entre previsão final e inicial

    6.6.1 SVM

    O parâmetro C varia de 50 no caso inicial para 10 no caso final. Comparando as

    figuras 6.11 e 6.24 tem-se um aumento nas previsões das fácies L2, L4, L6 e L7,

    principalmente das fácies L4 e L6. Logo, a acurácia é aumentada em cerca de 5%

    com o pré-processamento.

    6.6.2 Random Forest

    Observa-se a variação na profundidade máxima de 6 no caso inicial para 7 no caso

    final. Comparando as figuras 6.12 e 6.25, contrariamente ao SVM, as previsões

    39

  • corretas das fácies L4 e L6 são reduzidas. Porém, as previsões corretas das fácies L2

    e L7 são acrescentadas de um bom valor.

    A acurácia final é acrescida de cerca de 3%, sendo também melhorada pelo pré-

    processamento.

    6.6.3 KNN

    O número de vizinhos escolhido continua igual, como 80, para os dois casos Com

    as figuras 6.13 e 6.26. observa-se que todas as fácies previstas são melhoradas. A

    acurácia final foi acrescida de cerca de 5%.

    6.7 Discussão

    O conjunto de dados dispońıvel possui uma grande diferença no número de amostras

    por fácies. Este fato é normalmente um problema para sistemas preditivos, problema

    também apresentado neste exerćıcio.

    Os modelos de aprendizado de máquina em geral tendem a não prever como

    sáıda as fácies menos presentes no conjunto de dados de treino.

    A acurácia final subiu de um valor inicial de cerca de 60% para 65% com o

    pré-processamento proposto.

    40

  • Figura 6.2: Variação do parâmetro C para avaliação do recall do caso inicial.

    Figura 6.3: Variação do parâmetro C para avaliação da precisão do caso inicial.

    41

  • Figura 6.4: Variação do parâmetro de profundidade da árvore.

    Figura 6.5: Variação do parâmetro de profundidade da árvore para avaliação do

    recall do caso inicial.

    42

  • Figura 6.6: Variação do parâmetro de profundidade da árvore para avaliação da

    precisão do caso inicial.

    Figura 6.7: Variação do parâmetro do número de vizinhos.

    43

  • Figura 6.8: Variação do parâmetro do número de vizinhos para avaliação do recall

    do caso inicial.

    Figura 6.9: Variação do parâmetro do número de vizinhos para avaliação da precisão

    do caso inicial.

    44

  • Figura 6.10: Boxplot resultado Inicial.

    Figura 6.11: matriz de confusão SVM caso inicial.

    45

  • Figura 6.12: matriz de confusão Random Forest caso inicial.

    Figura 6.13: matriz de confusão KNN caso inicial.

    46

  • Figura 6.14: Variação do parâmetro C.

    Figura 6.15: Variação do parâmetrs C para avaliação do recall do caso final.

    47

  • Figura 6.16: Variação do parâmetro C para avaliação da precisão do caso final.

    Figura 6.17: Variação do parâmetro de profundidade da árvore.

    48

  • Figura 6.18: Variação do parâmetro de profundidade da árvore para avaliação do

    recall do caso final.

    Figura 6.19: Variação do parâmetro de profundidade da árvore para avaliação da

    precisão do caso final.

    49

  • Figura 6.20: Variação do parâmetro do número de vizinhos.

    Figura 6.21: Variação do parâmetro do número de vizinhos para avaliação do recall

    do caso final.

    50

  • Figura 6.22: Variação do parâmetro do número de vizinhos para avaliação da pre-

    cisão do caso final.

    Figura 6.23: resultado Inicial SVM.

    51

  • Figura 6.24: matriz de confusão SVM caso final.

    Figura 6.25: matriz de confusão Random Forest caso final.

    52

  • Figura 6.26: matriz de confusão KNN caso final.

    53

  • Caṕıtulo 7

    Conclusão

    Este estudo teve como objetivo a aplicação dos métodos supervisionados de machine

    learning em um problema t́ıpico da indústria do petróleo que é a previsão de fácies

    de um testemunho e por conseguinte de um reservatório.

    O problema de previsão de fácies é um grande desafio para a industria do

    petróleo, pois não é inteiramente dominado pelos especialistas e caso não seja bem

    estruturado em um reservatório acaba afetando a explotação do mesmo.

    A dificuldade na obtenção de melhores resultados é relacionada com a baixa

    qualidade dos dados, que são obtidos em condições adversas e não são diretamente

    relacionados com a forma que as classes foram definidas. Outro problema é a quan-

    tidade de dados dispońıveis, que pode ser ligada a diversos fatores, como :

    - Grande parte dos dados existentes são guardados como confidenciais por em-

    presas operadoras.

    - A dif́ıcil forma de obtenção dos dados dificulta a obtenção de mais amostras.

    - Diferentes geólogos em geral vão gerar diferentes classificações para as rochas.

    Como resultado deste estudo não foi observada uma grande variação de perfor-

    mance entre os diferentes métodos testados. Tendo obtido resultado de acurácia e

    fácies previstas semelhantes.

    Assim neste trabalho foram estudadas as respostas de métodos de aprendizado

    de máquinas para a previsão de fácies. Considerando as limitações inerentes ao

    problema (i.e. falta de homogeneidade entre os dados dos poços) o valor obtido foi

    considerado satisfatório e as melhorias geradas por diferentes pré-processamentos

    pode ser comprovada.

    54

  • Referências Bibliográficas

    [1] Dispońıvel em : http : //bdewilde.github.io/assets/images/20121026knn-

    concept.png, Acesso em 13 setembro 2017.

    [2] Dispońıvel em :http //i2.wp.com/blog.hackerearth.com/wp-

    content/uploads/2017/02/kernel.png?resize = 730%2c291, Acesso

    em 13 setembro 2017.

    [3] Dispońıvel em : https : //dimensionless.in/wp-

    content/uploads/randomforest blog files/figurehtml/voting.png,

    Acesso em 13 setembro 2017.

    [4] Dispońıvel em : http : //seabed.software.slb.com/welllog/webhelp/welllogging.htm,

    Acesso em 13 setembro 2017.

    [5] Dispońıvel em : http : //sebastianraschka.com/articles/2014aboutfeaturescaling.html,

    Acesso em 13 setembro 2017.

    [6] Dispońıvel em :http : //www.petrobras.com.br/pt/nossas −

    atividades/tecnologia− e− inovacao/, Acesso em 13 setembro 2017.

    [7] Dispońıvel em : machinelearningmastery.com/classification−accuracy−is−

    not−enough−more−performance−measures−you−can−use, Acesso

    em 13 setembro 2017.

    [8] Dispońıvel em : www.anp.gov.br/wwwanp/?dw = 81693, Acesso em 13 setem-

    bro 2017.

    [9] Mauricio Araya-Polo, Taylor Dahlke, Charlie Frogner, Chiyuan Zhang, Tomaso

    Poggio, and Detlef Hohl, Automated fault detection without seismic pro-

    cessing, The Leading Edge (2017).

    55

  • [10] David Arthur and Sergei Vassilvitskii, k-means++: The advantages of careful

    seeding, Proceedings of the eighteenth annual ACM-SIAM symposium

    on Discrete algorithms, Society for Industrial and Applied Mathematics,

    2007, pp. 1027–1035.

    [11] Eduardo Guimarães Barboza, Análise estratigráfica do campo de namorado (ba-

    cia de campos) com base na interpretação śısmica tridimensional, (2005).

    [12] Engenharia Elétrica da PUC-Rio, Samuel gustavo huamán bustamante, Ph.D.

    thesis, PUC-Rio, 2012.

    [13] Darwin V Ellis and Julian M Singer, Well logging for earth scientists, vol. 692,

    Springer, 2007.

    [14] Alexsandro G. C. et al.., Facies classification in well logs of the namorado

    oilfield using support vector machine algorithm, SBGF 15 congresso in-

    ternacional da sociedade brasileira de geof́ısica (2017).

    [15] Jerome Friedman, Trevor Hastie, and Robert Tibshirani, The elements of sta-

    tistical learning, vol. 1, Springer series in statistics New York, 2001.

    [16] Talita Lammoglia, Julio Kosaka de Oliveira, and Carlos Roberto Souza Filho,

    Lithofacies recognition based on fuzzy logic and neural networks: A metho-

    dological comparison, Revista Brasileira de Geof́ısica 32 (2014), no. 1,

    85–95.

    [17] Sarika Pachange and Bela Joglekar, Random forest approach for characterizing

    ensemble classifiers, International Journal of Advance Foundation and

    Research in Computer (IJAFRC) Volume 1 (2014).

    [18] Sebastian Raschka, Python machine learning, Packt Publishing Ltd, 2015.

    [19] FS de A RIBEIRO, Aplicação de análise multivariada na predição de perfis

    faltantes de poços no campo de namorado, Ph.D. thesis, Dissertação de

    Mestrado em Engenharia Civil, COPPE, da Universidade Federal do Rio

    de Janeiro, 2008.

    56

  • [20] Leslie G Valiant, A theory of the learnable, Communications of the ACM 27

    (1984), no. 11, 1134–1142.

    [21] Ulrike Von Luxburg, A tutorial on spectral clustering, Statistics and computing

    17 (2007), no. 4, 395–416.

    57

    Lista de FigurasLista de TabelasIntroduçãoDescrição dos dadosPerfilagemTestemunhosCampo de NamoradoPoços disponíveisClassificação dos testemunhosDescrição dos perfis trabalhados

    Reorganização das Fácies

    Aprendizado de máquinaDefinição e motivaçãoMétodos utilizadosSupport vector machine (SVM)Random forestK vizinhos mais próximos (KNN)

    Análise dos DadosCross-plotAnálise de componentes principaisFácies vizinhasEspessura média das fáciesPresença das fácies por poço

    MetodologiaPré-processamentoTransformação de ILD em logNormalizaçãoRegressão para DTVolume de folhelhoCriação de zonas

    Limpeza dos dadosMétodos de aprendizado de máquina supervisionadoSVMRandom ForestKNN

    Métricas de avaliaçãoAcuráciaPrecisãoRecall

    Matriz de confusãoValidação cruzadaMétricas de avaliação

    Resultados e discussõesDiscussão dos parâmetro do caso InicialSVMRandom ForestKNN

    Avaliação dos resultados iniciaisRemoção de BordaDiscussão dos parâmetros caso finalSVMRandom ForestKNN

    Avaliação dos resultados finaisComparação entre previsão final e inicialSVMRandom ForestKNN

    Discussão

    ConclusãoReferências Bibliográficas