Download - UM ESTUDO COMPARATIVO DE TÉCNICAS DE MACHINE LEARNING …monografias.poli.ufrj.br › monografias › monopoli10029817.pdf · A classificação de fácies é o processo de determinar

UM ESTUDO COMPARATIVO DE TÉCNICAS DE MACHINE

LEARNING NA CLASSIFICAÇÃO DE FÁCIES: APLICAÇÕES

NOS CAMPOS DE HUGOTON E PANOMA E CAMPO DE

NAMORADO

Luiz Gustavo Vicente Hayum

Projeto de Graduação apresentado ao

Curso de Engenharia de Petróleo da

Escola Politécnica, Universidade Federal

do Rio de Janeiro, como parte dos

requisitos necessários à obtenção do título

de Engenheiro.

Orientador: Paulo Camargo Silva

Rio de Janeiro

Agosto 2019

i

Vicente Hayum, Luiz Gustavo

Um estudo comparativo de técnicas de Machine

Learning na classificação de fácies: aplicações nos campos

de Hugoton e Panoma e campo de Namorado / Luiz Gustavo

Vicente Hayum. – Rio de Janeiro: UFRJ/ Escola Politécnica,

2019.

VII, 99 p.: il.; 29,7 cm.


Projeto de Graduação – UFRJ/ Escola Politécnica/

Curso de Engenharia de Petróleo, 2019.

Referências Bibliográficas: p. 95-99.

1. Aprendizagem de máquina. 2. Classificação de

fácies. 3. Perfilagem de poços. I. Camargo Silva, Paulo. II.

Universidade Federal do Rio de Janeiro, Escola Politécnica,

Curso de Engenharia de Petróleo. III. Um estudo comparativo

de técnicas de Machine Learning na classificação de fácies:

aplicações nos campos de Hugoton e Panoma e campo de

Namorado.

ii

AGRADECIMENTOS

Agradeço a minha mãe e amiga, Amanda, por todo o apoio e carinho em todas as fases

da minha vida. Por sempre incentivar que trabalhe pelos meus sonhos, e por ser meu

grande exemplo de honestidade, trabalho duro e gentileza.

Agradeço a meu padrinho e amigo, Joaquim, a primeira pessoa a me mostrar o real

valor da educação e o poder de transformação que ela pode trazer à vida das pessoas.

Agradeço a meu orientador, Paulo Camargo, pela paciência e apoio nesses últimos

meses de trabalho. Por saber respeitar minhas limitações e ao mesmo tempo extrair de

mim o melhor resultado possível.

Sou muito grato pela formação acadêmica de grande qualidade recebida aqui na UFRJ.

Certamente, foram anos de grandes experiências e aprendizados profissionais e

pessoais. Levo com carinho muito boas lembranças e amigos feitos aqui.

iii

Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como parte

dos requisitos necessários para a obtenção do grau de Engenheiro de Petróleo.

UM ESTUDO COMPARATIVO DE TÉCNICAS DE MACHINE LEARNING NA

CLASSIFICAÇÃO DE FÁCIES: APLICAÇÕES NOS CAMPOS DE HUGOTON E

PANOMA E CAMPO DE NAMORADO


Agosto/2019


Curso: Engenharia de Petróleo

A Aprendizagem de Máquina é uma disciplina de crescente relevância na indústria de

óleo e gás devido à necessidade de automatizar a análise de grandes volumes de

dados. Isso é particularmente verdade para a classificação de fácies a partir da

correlação de dados de perfis de poços e análise de testemunhos. Esse estudo realiza

de forma automática uma aplicação comparativa de 22 técnicas de Aprendizagem de

Máquina para classificação de fácies ao conjunto de dados dos campos Hugoton e

Panoma e do campo de Namorado. Em determinados testes realizados, foram obtidas

acurácias excelentes quando comparadas a outros trabalhos de nível nacional e

internacional. É realizada uma comparação com estudos anteriores. É apresentada uma

revisão detalhada dos perfis de poços e técnicas de Aprendizagem de Máquinas

utilizados, e uma descrição dos dados disponíveis para os campos estudados. Essa

descrição inclui diagramas de correlação cruzada e matrizes de covariância entre os

preditores. Os resultados são apresentados através de métricas de acurácia e matrizes

de confusão juntamente com uma discussão sobre as particularidades das duas massas

de dados e os efeitos dessas particularidades sobre os resultados obtidos.

Palavras-chave: Aprendizagem de máquina, classificação de fácies, perfilagem de

poços

iv

Abstract of Undergraduate Project presented to Escola Politécnica/UFRJ as a partial

fulfillment of the requirements for earning the degree of Petroleum Engineer.

BENCHMARK OF MACHINE LEARNING TECHNIQUES FOR FACIES

CLASSIFICATION: APPLICATION TO THE HUGOTON AND PANOMA FIELDS AND

THE NAMORADO FIELD


August/2019

Advisor: Paulo Camargo Silva

Course: Petroleum Engineering

Machine Learning is a field of study of increasing importance in the petroleum industry

due to the need to automate the analysis of large data sets. This is particularly true in

facies classification based on the correlation of well logs and core analysis. This study

automatically deploys an application to compare the performance of 22 Machine

Learning techniques for facies classification using data sets for the Hugoton and Panoma

fields and the Namorado field. In specific tests, high accuracy rates have been obtained

when compared to other work of national and international relevance. A comparison to

previous work is made. A detailed review of the well logs and Machine Learning

techniques applied in this work is provided, as well as a description of the available data

for the studied fields. The data set description includes cross-plots and covariance

matrices for the predictors. The results are presented through the Accuracy metric and

confusion matrices together with a discussion about the peculiarities of the two data sets

and their effect on the achieved results.

Keywords: Machine learning, facies classification, well logging

v

Sumário

1 Introdução .............................................................................................................. 1

1.1 Descrição do problema ................................................................................... 3

1.2 Motivação ........................................................................................................ 4

1.3 Objetivos ......................................................................................................... 5

2 Conceitos fundamentais ......................................................................................... 6

2.1 Perfilagem de poços........................................................................................ 6

2.1.1 Raios gama .............................................................................................. 6

2.1.2 Resistividade ............................................................................................ 7

2.1.3 Sônico ...................................................................................................... 8

2.1.4 Nêutron .................................................................................................... 8

2.1.5 Densidade ................................................................................................ 9

2.1.6 Porosidade densidade-nêutron ................................................................ 9

2.1.7 Efeito fotoelétrico ................................................................................... 10

2.2 Análise de testemunhos ................................................................................ 11

2.3 Aprendizagem de Máquina ........................................................................... 12

2.3.1 Técnicas de Aprendizagem de Máquina supervisionadas ...................... 16

2.3.2 Underfitting e Overfitting......................................................................... 17

2.3.3 Métodos de validação ............................................................................ 18

vi

2.3.4 Avaliação de qualidade .......................................................................... 19

2.3.5 Técnicas de Aprendizagem de Máquina ................................................ 21

3 Revisão bibliográfica ............................................................................................ 33

4 Descrição dos dados ............................................................................................ 37

4.1 Campos de Hugoton e Panoma .................................................................... 37

4.2 Campo de Namorado .................................................................................... 45

5 Metodologia da pesquisa...................................................................................... 52

5.1 Testes realizados .......................................................................................... 55

5.2 Validação dos testes realizados .................................................................... 56

6 Resultados obtidos ............................................................................................... 58

7 Análise de resultados ........................................................................................... 67

7.1 Matrizes de confusão .................................................................................... 67

7.1.1 Experimento 1 – Campos de Hugoton e Panoma .................................. 68

7.1.2 Experimento 2 – Campo de Namorado .................................................. 72

7.2 Comparação entre as técnicas e testes ........................................................ 76

7.2.1 Comparação do desempenho das técnicas de Aprendizagem de Máquina

76

7.2.2 Desequilíbrio no número de observações para cada fácies ................... 81

7.2.3 Utilização dos dados de profundidade ................................................... 82

7.2.4 Exclusão das profundidades e preditores com dados faltantes .............. 85

vii

7.3 Comparação com estudos anteriores ............................................................ 86

8 Sugestões para trabalhos futuros ......................................................................... 92

9 Conclusões .......................................................................................................... 94

10 Bibliografia ........................................................................................................... 95

1

1 Introdução

O presente trabalho mostra os resultados das pesquisas realizadas relativas à aplicação

de diferentes técnicas de Aprendizagem de Máquina – tais como: Árvores de Decisão,

Support Vector Machine, Métodos Ensemble e outros – na classificação de fácies.

Foram realizados dois experimentos importantes de classificação de fácies nos poços

dos campos:

Hugoton e Panoma – localizados em terra no Meio Oeste dos Estados Unidos;

Namorado – localizado na costa do Estado do Rio de Janeiro no Brasil.

O primeiro experimento – relativo aos campos de Hugoton e Panoma – foi realizado em

virtude de importantes estudos internacionais abordando o tema da aplicação de

Aprendizagem de Máquina na classificação de fácies, que utilizaram o conjunto de

dados dos poços destes campos. Tendo sido usado em análises comparativas

internacionais (benchmarking study). Os dados para os campos de Hugoton e Panoma

foram inicialmente disponibilizados pela University of Kansas.

O segundo experimento – relativo ao campo de Namorado – foi realizado em virtude do

conjunto de dados dos poços deste campo estar envolvido em diversos estudos

brasileiros relacionados à classificação de fácies aplicando diferentes técnicas. O

campo de Namorado é um campo escola, e teve seus dados disponibilizados pela

Agência Nacional do Petróleo, Gás Natural e Biocombustíveis (ANP) para estudos

acadêmicos.

Usando os dados dos poços dos campos mencionados acima, os dois experimentos

foram realizados. Estes experimentos consistiram na aplicação das técnicas de

Aprendizagem de Máquina na classificação de fácies dos poços destes campos. Para

2

verificar a eficiência das técnicas foram feitos diversos testes em cada experimento.

Sendo que os mesmos testes foram realizados nos dois experimentos.

Este trabalho está dividido da seguinte forma:

Capítulo 1 – É feita uma introdução do estudo que foi desenvolvido, uma

descrição detalhada do problema, a motivação e os objetivos;

Capítulo 2 – São apresentados os conceitos fundamentais abordados no

estudo. Estes conceitos incluem perfis de poços, análise de testemunhos e

descrição das técnicas de Aprendizagem de Máquina que foram aplicados;

Capítulo 3 – É mostrada uma revisão bibliográfica da utilização da

Aprendizagem de Máquina na indústria do petróleo e em especial na

classificação de fácies;

Capítulo 4 – São apresentados os campos estudados, com uma descrição dos

respectivos conjuntos de dados dos poços;

Capítulo 5 – É apresentada a metodologia usada nos dois experimentos

realizados, assim como uma descrição dos testes implementados dentro de cada

experimento;

Capitulo 6 – São apresentados os resultados obtidos nos dois experimentos

realizados;

Capítulo 7 – É apresentada uma discussão dos resultados obtidos. Também é

apresentada uma comparação dos resultados com estudos anteriores;

Capítulo 8 – São feitas as considerações finais acerca dos experimentos

realizados;

3

Capítulo 9 – São apresentas as principais conclusões obtidas a partir do estudo

realizado.

1.1 Descrição do problema

A classificação de fácies é o processo de determinar a litologia das rochas usando

medidas diretas e indiretas tais como análise de testemunhos e perfis de poços. Essa

classificação em poços de petróleo é de extrema importância já que o conhecimento da

litologia influi na estimativa de outros parâmetros do reservatório. Por exemplo,

permeabilidade e saturação de fluidos apresentarão uma grande variação para uma

mesma porosidade mas litologias distintas [1].

A melhor fonte de informação para a litologia é a análise de amostras de testemunhos

[1], porém o alto custo limita a realização das operações de testemunhagem a uma

pequena parcela dos poços perfurados. A solução é extrapolar as informações obtidas

em poços testemunhados para outros poços sem testemunhos. Uma forma de fazer isso

é através da correlação usando perfilagem de poços.

A análise petrofísica a partir dos perfis de poços pode ser feita poço a poço para

caracterizar as rochas. Alternativamente, a análise poço a poço pode ser realizada para

um pequeno número de poços e extrapolada para um conjunto maior. Para isso, devem

ser determinados intervalos de valores medidos em cada perfil de poço que

caracterizem cada fácies. A classificação de fácies para um número maior de poços

pode então ser realizada pela comparação desses intervalos de valores com as

propriedades de rocha medidas para esses poços. Eliminando a necessidade de realizar

a análise petrofísica para cada um dos poços. Ambos processos são lentos e não

práticos quando se pretende analisar um número grande de poços.

Para enfrentar esse problema, nos anos 80, diversas técnicas de análise estatística

multivariada foram desenvolvidas para acelerar e automatizar o processo de

4

classificação de fácies usando a correlação entre testemunhos e perfis de poços. Entre

essas técnicas podemos destacar: Análise de Componentes Principais, Análise de

Aglomerados (Cluster Analysis), Análise Discriminante e outras. Além disso, técnicas

não paramétricas de classificação ganharam força desde os anos 90. Alguns exemplos

são Redes Neurais, lógica nebulosa (fuzzy) e K-vizinho mais próximo. O último sendo

um dos objetos de estudo desse trabalho.

Com a popularização dos conceitos de Big Data e aumento da capacidade

computacional, houve uma renovação no interesse pela Aprendizagem de Máquina em

diversas áreas, incluindo a geofísica [2].

1.2 Motivação

A motivação inicial desta monografia foi o trabalho desenvolvido por Brendon Hall,

apresentado em HALL [3]. Brendon procurou uma solução para o problema de

classificação de fácies de perfis de poços dos campos de Hugoton e Panoma

localizados nos Estados Unidos. Ele obteve uma acurácia de 43% ao aplicar uma

Supported Vector Machine (SVM) ao conjunto de dados contra um resultado de 16% ao

realizar um experimento aleatório simples para classificar as fácies. Mesmo assim, o

resultado foi considerado baixo. A partir daí, ele propôs um concurso internacional

aberto a cientistas, estudantes e curiosos de todo o mundo para trabalhar com os

mesmos dados a fim de conhecer as técnicas mais eficazes para obter maior acurácia.

Os resultados do concurso foram apresentados em HALL e HALL [4].

Após quatro meses de concurso, 40 equipes submeteram cerca de 300 soluções para

o problema. As técnicas utilizadas variaram desde Árvores de Decisão até Redes

Neurais. As cinco soluções com melhor resultado utilizaram as Gradient Boosted Trees,

um Método Ensemble. Os quais serão descritos posteriormente. A equipe vencedora

5

obteve uma acurácia de 64%. Houve então uma motivação para trabalhar sobre esta

base de dados a fim de ver as dificuldades de se obter índices ainda melhores.

Por outro lado, o campo de Namorado é um campo escola para o qual um grande

volume de dados está disponível ao público para a realização de estudos. Com isso,

diversos autores já exploraram o uso de técnicas de Aprendizagem de Máquina para

classificação de fácies neste campo, mas sempre limitados a aplicação de poucas

técnicas. Esse trabalho mostra a aplicação de uma grande variedade de técnicas e

observa a eficácia de cada uma delas na realização de previsões de fácies.

1.3 Objetivos

O objetivo principal da pesquisa foi comparar o desempenho de diferentes técnicas de

Aprendizagem de Máquina aplicadas em problemas complexos. De maneira que

técnicas avançadas de Aprendizagem de Máquina foram aplicadas no problema de

classificação de fácies de poços em dois experimentos específicos. O primeiro

experimento utilizou dados dos campos de Hugoton e Panoma, e o segundo utilizou

dados do campo de Namorado. Nos últimos anos, estes dois conjuntos de dados têm

sido usados em estudos comparativos, de nível nacional e internacional, para verificar

o desempenho de técnicas de Aprendizagem de Máquina na classificação de fácies

usando a correlação entre dados de testemunho e de perfis de poços.

Outro objetivo foi verificar a relevância da pesquisa desenvolvida. Para isso, os

resultados obtidos neste trabalho foram comparados com os resultados obtidos em

pesquisas realizadas anteriormente.

Vários testes foram realizados para atingir estes objetivos, seguindo diferentes

premissas para determinar quais procedimentos específicos determinavam o melhor

desempenho de cada técnica.

6

2 Conceitos fundamentais

Este capítulo apresenta os conceitos mais importantes que foram utilizados nas

pesquisas desenvolvidas. De maneira que são introduzidos os perfis de poço que

compõem a base de dados dos dois experimentos realizados, a análise dos

testemunhos, as técnicas de Aprendizagem de Máquina que foram aplicadas, métodos

de validação e avaliação da qualidade. Todas as técnicas de Aprendizagem de Máquina

que foram implementadas na monografia têm seus aspectos teóricos introduzidos neste

capítulo.

2.1 Perfilagem de poços

Operações convencionais de perfilagem de poços consistem na descida de uma sonda

dentro do poço através de um sistema de cabos, polias e guincho. A sonda contém

sensores capazes de medir resistividade, densidade, radioatividade natural e induzida,

conteúdo de hidrogênio e módulo elástico das rochas[5]. Essas medidas são realizadas

de forma contínua e associadas à profundidade, que também é medida. Os dados são

transmitidos à superfície através dos cabos e são em seguida gravados. A interpretação

posterior desses dados permite deduzir indiretamente propriedades do reservatório

como porosidade, saturação de fluidos e litologia. A seguir são apresentados alguns

tipos de perfis de poços.

2.1.1 Raios gama

Essa ferramenta realiza a medição da emissão natural de raios gama da formação.

Emissões que são geradas pelo decaimento natural de elementos radioativos do grupo

Urânio, Tório e Potássio para isótopos estáveis. O decaimento gera partículas alfa e

beta (com carga) que são rapidamente absorvidos por outros átomos mas também raios

gama. Raios gama são ondas eletromagnéticas que penetram mais facilmente os

7

sólidos, incluindo revestimentos, quando comparado a outras partículas. Essa facilidade

de penetrar sólidos possibilita que esse perfil seja corrido a poço aberto ou revestido.

O perfil de raios gama é utilizado principalmente para identificar formações argilosas

(folhelhos). Após identificadas, essas formações podem ser eliminadas dos passos

posteriores da análise do poço, já que geralmente não são de interesse comercial.

Através da correlação com outros perfis, o perfil de raios gama também pode ser

utilizado para análise da litologia, mineralogia e porosidade.

2.1.2 Resistividade

A resistividade é uma medida da resistência à condução de correntes elétricas da rocha

que elimina o fator forma. Medida em Ω x m2/m, ou abreviado para Ω x m, é interpretado

como a voltagem necessária para que 1 Ampere passe por um cubo com 1 metro de

aresta.

Ferramentas de indução consistem em uma bobina energizada por corrente alternada

que gera um campo magnético alternado. O oscilador é mantido a frequência e corrente

de módulo constante, gerando um campo magnético de intensidade constante. Esse

campo magnético induz uma diferença de potencial na rocha, que dependendo de sua

resistividade, irá gerar uma corrente alternada secundária de maior ou menor

intensidade na própria rocha. Uma segunda bobina, por sua vez, detecta a diferença de

potencial induzida pelo campo magnético gerado pela corrente secundária presente na

rocha. A intensidade dessa corrente é proporcional a condutividade da rocha. A

diferença de potencial induzida na segunda bobina é medida e os resultados gravados.

O perfil resistividade é utilizado para determinar a saturação da água de formação e

diferenciar zonas contendo água e zonas contendo hidrocarbonetos.

8

2.1.3 Sônico

O perfil sônico é baseado na refração de ondas elásticas pela formação. Transdutores

convertem energia elétrica em mecânica emitindo um pulso acústico que se propaga

pela lama e penetra a formação. Parte dessa energia é então refletida de volta a outros

transdutores que a convertem novamente, agora em um sinal elétrico. O tempo de

propagação desse pulso é então medido e pode ser relacionado a diversas propriedades

mecânicas da rocha, assim como porosidade, litologia e identificação de zonas

sobrepressurizadas.

2.1.4 Nêutron

A ferramenta emite nêutrons de alta energia. Por ser uma partícula eletricamente neutra

e de pequena massa, os nêutrons penetram facilmente a matéria. Isso inclui

revestimento e rochas. Os nêutrons emitidos têm sua energia reduzida ao se chocar

com outras partículas ou emitem raios gama de captura quando absorvidos por outros

átomos. Um sensor mede o retorno de nêutrons de menor energia e raios gama de

captura.

Entre os elementos mais presentes no ambiente de poço, o Hidrogênio apresenta a

maior capacidade de desacelerar nêutrons. Dessa forma, o perfil nêutron realiza uma

medida indireta da porosidade. Na realidade, a ferramenta mede o índice de Hidrogênio

da formação. Para zonas saturadas por água e de litologia conhecida, a ferramenta

medirá a porosidade. Em outras situações, o operador da ferramenta escolherá uma

calibração que assume a matriz da rocha sendo predominantemente arenito ou

carbonato.

9

2.1.5 Densidade

A densidade aparente da formação guarda uma relação direta com a porosidade, e a

estimativa desta propriedade é o principal objetivo ao correr o perfil densidade. Este

perfil também pode ser utilizado como indicador da litologia e dos fluidos contidos na

formação.

A fonte emite raios gama continuamente. Os raios gama terão sua energia mais

reduzida por formações densas. Assim, uma contagem alta de raios gama nos

detectores indicará uma formação de baixa densidade.

A ferramenta do perfil densidade faz a leitura da densidade aparente da rocha. A

porosidade para o perfil densidade pode ser calculada a partir da equação 2.1. Para o

cálculo é necessário que seja conhecida a litologia da rocha e saturação de fluidos, com

isso valores tabelados para a densidade da matriz da rocha (ρma) e densidade do fluido

(ρf) podem ser utilizados. A ferramenta é calibrada para que que a densidade aparente

(ρa) medida pela rocha seja igual a densidade real dos grãos (ρb) em carbonatos com

poros preenchidos por água limpa [5].

𝜙𝐷 = 𝜌𝑚𝑎 − 𝜌𝑏

𝜌𝑚𝑎 − 𝜌𝑓 (Eq. 2.1)

2.1.6 Porosidade densidade-nêutron

A combinação dos perfis de densidade e de nêutron fornece uma boa fonte de dados

de porosidade, especialmente em formações de litologia complexa. Melhores

estimativas de porosidade são possíveis com esta combinação do que usando qualquer

ferramenta ou o perfil sônico separadamente, porque inferências sobre litologia e

conteúdo de fluido podem ser feitas. Também pode determinar a litologia e detectar

zonas de gás.

10

Para litologia desconhecida, o mais comum é que as leituras dos perfis densidade e

nêutron sejam ajustadas para carbonatos. Com isso, a porosidade média calculada a

partir das porosidades para o perfil nêutron e perfil densidade (PHIND) será uma ótima

aproximação da porosidade verdadeira. Caso, a matriz seja predominantemente

carbonato, a porosidade a partir do perfil nêutron (ϕN) e a partir do perfil densidade (ϕD)

terão a mesma leitura. Caso a matriz seja predominantemente arenito, ϕD terá um valor

alto e ϕN terá um valor baixo, com a média ainda sendo verdadeira [5]. PHIND pode ser

calculado pela equação 2.2.

𝑃𝐻𝐼𝑁𝐷 =

𝜙𝑁 − 𝜙𝐷

2 (Eq. 2.2)

Conforme mencionado acima, a diferença entre as porosidades a partir do perfil nêutron

e perfil densidade (DeltaPHI) pode ser utilizada como um indicador de litologia.

2.1.7 Efeito fotoelétrico

De forma similar ao perfil de densidade, o perfil de efeito fotoelétrico é baseado na

medida da capacidade da formação de atenuar raios gama emitidos pela ferramenta de

perfilagem. A atenuação de raios gama ocorre majoritariamente a partir de dois

fenômenos – efeito Compton e absorção fotoelétrica. Para raios gama de baixa energia,

a atenuação é dominada pela absorção fotoelétrica e essa é a principal diferença entre

o perfil de efeito fotoelétrico e densidade. Para o perfil efeito fotoelétrico, fontes de raio

gama de baixa energia são utilizadas [6].

O perfil de efeito fotoelétrico mede o fator de absorção fotoelétrica (Pe). Essa

propriedade varia em função do número atômico (Z) dos elementos presentes na

formação. Elementos mais pesados, de maior número atômico, apresentam Pe mais alto.

Como os fluidos presentes na formação apresentam números atômicos muito baixos,

Pe é uma medida mais representativa das propriedades da matriz da rocha.

11

Por isso, as medidas desse perfil de poço podem ser utilizadas para determinar a

litologia e mineralogia da rocha. Arenitos apresentam valores baixos de Pe, enquanto

dolomitas e carbonatos apresentam valores mais altos. Argilas e outros minerais

pesados, como os ferrosos, também apresentam altos valores de Pe [7].

2.2 Análise de testemunhos

A testemunhagem tem como objetivo trazer a superfície uma amostra de rocha com

suas características petrofísicas e de distribuição dos fluidos preservadas para análise

em laboratório. Como a própria operação de obtenção dos testemunhos altera essas

propriedades, técnicas de restauração das mesmas são utilizadas para tentar reproduzir

as condições de reservatório.

A testemunhagem convencional se diferencia de uma operação de perfuração apenas

pelo tipo de broca utilizada. O centro da broca de testemunhagem é oco. A broca é

acoplada a um barril de testemunhagem, equipamento capaz de estocar a amostra de

rocha, permitindo que a mesma seja elevada a superfície e recuperada. O poço é

perfurado com broca e coluna de perfuração convencionais até atingir a profundidade

de interesse, já que a perfuração com equipamento de testemunhagem é mais lenta e

limitada ao tamanho do barril de testemunhagem. A profundidade de início da operação

de testemunhagem pode ser definida através de poços análogos, quando há uma

mudança brusca na taxa de penetração da broca – indicando mudança de litologia – ou

um aumento na quantidade de gás extraída da lama de perfuração em superfície. Outra

alternativa é a inclusão de perfis de resistividade em ferramentas de LWD (Logging

While Drilling – perfilagem durante a perfuração).

Ao atingir a profundidade de interesse, a coluna de perfuração é recuperada e a broca

e BHA (Bottom-Hole Assembly – extremidade inferior da coluna de perfuração) são

substituídas. Quando o barril de testemunho é preenchido, a coluna é novamente

12

puxada para a superfície e o testemunho recuperado. O testemunho é então

condicionado, estocado em um tubo metálico e selado em ambas as extremidades e

enviado para laboratório. Em substituição ao tubo metálico podem ser usados

revestimento em epóxi ou acrílico, ou tubos termocontráteis.

Testemunhos obtidos dessa forma medem em torno de 30 pés com diâmetro de 1,75 a

5,25 polegadas. O testemunho pode ser separado em amostras medindo até 10

polegadas para análise. Porém, o mais comum é a extração de plugues com 1 a 1,5

polegadas de diâmetro e 1 a 3 polegadas de comprimento.

Essas amostras de rocha são utilizadas para o estudo da sequência deposicional,

calibração de perfis de poço, medição direta da porosidade, permeabilidade, saturação

de fluidos e densidade de grãos.

2.3 Aprendizagem de Máquina

A Inteligência Artificial é um campo de pesquisa que procura fazer com que os

computadores convencionais passem a desenvolver tarefas que só os seres humanos

são capazes de realizar, tais como: prova de teoremas, visão artificial, solução de

problemas complexos, reconhecimento de voz e outros. A Aprendizagem de Máquina é

considerada um ramo da Inteligência Artificial. A Aprendizagem de Máquina ensina os

computadores a aprender com a experiência. Técnicas de Aprendizagem de Máquina

usam métodos computacionais para “aprender” informações diretamente dos dados. As

técnicas melhoram de forma adaptativa seu desempenho à medida que o número de

amostras disponíveis para aprendizagem aumenta.

A Aprendizagem de Máquina utiliza dois tipos de técnicas:

Aprendizagem supervisionada, que treina um modelo baseado em dados de

entrada e saída conhecidos para que possa prever saídas futuras e;

13

Aprendizagem não supervisionada, que encontra padrões ocultos ou estruturas

intrínsecas nos dados de entrada.

A Aprendizagem de Máquina supervisionada visa a construção de um modelo hábil para

fazer previsões baseadas em evidências na presença de incerteza. Uma técnica de

aprendizagem supervisionada usa um conjunto conhecido de dados de entrada e

respostas conhecidas para os dados (saída) e treina um modelo para gerar previsões

razoáveis para a resposta a novos dados. A aprendizagem supervisionada usa técnicas

de classificação e regressão para desenvolver modelos preditivos.

Técnicas de classificação predizem respostas categóricas. Modelos de

classificação classificam os dados de entrada em classes. Aplicações típicas

incluem classificação de imagens de satélites, reconhecimento de padrões de

fala, classificação de fácies e outros.

Técnicas de regressão predizem respostas contínuas. Por exemplo, mudanças

na temperatura, flutuações na demanda de energia e movimento de ações na

bolsa. Aplicações típicas incluem previsão de carga de eletricidade e negociação

algorítmica.

O aprendizado não supervisionado encontra padrões ocultos ou estruturas intrínsecas

nos dados. Ele é usado para extrair inferências de conjuntos de dados que consistem

em dados de entrada sem respostas marcadas. Clustering é a técnica de aprendizado

não supervisionada mais comum. Ele é usado para análise exploratória de dados para

encontrar padrões ocultos ou agrupamentos em dados. Aplicações para Clustering

incluem análise de sequência genética, pesquisa de mercado e reconhecimento de

objetos.

14

A Figura 2.1 traz um resumo sobre os três grandes grupos de técnicas de Aprendizagem

de Máquina Supervisionada e Não Supervisionada.

Figura 2.1 - Principais categorias de técnicas de Aprendizagem de Máquina.

15

Diferentes técnicas têm sido usadas na Aprendizagem de Máquina. A Figura 2.2 mostra

algumas destas técnicas.

Este trabalho trata principalmente de Aprendizagem de Máquina Supervisionada. De

maneira que a seguir as técnicas usadas neste trabalho relativas a este tipo de

Aprendizagem de Máquinas são descritas.

Figura 2.2 - Exemplos de técnicas de Aprendizagem Supervisionada e Não Supervisionado.

16

2.3.1 Técnicas de Aprendizagem de Máquina supervisionadas

As técnicas de Aprendizagem de Máquina supervisionadas, em oposição aos não

supervisionados, trabalham com um conjunto de dados de entrada e respostas

conhecidas. Essas técnicas podem ainda lidar com dois tipos de problemas:

classificação e regressão. No primeiro tipo, as respostas são um conjunto conhecido de

valores discretos. Em problemas de regressão as respostas são medidas contínuas.

Para problemas de classificação supervisionada o conjunto de dados de entrada

também são chamados preditores, características ou atributos e as respostas são

chamadas classes ou rótulos.

A classificação ocorre em dois passos: treinamento e previsão, ver Figura 2.3. No

primeiro passo, o modelo é treinado para identificar padrões de dados de entrada que

produzem a mesma resposta e a qualidade do treinamento pode ser medida

comparando as classes reais contra as previstas pelo modelo. Essa comparação é feita

através de uma função do erro. O modelo de treinamento é aquele que minimiza essa

função [8]. No segundo passo, o modelo treinado pode ser aplicado a novos dados, em

que as classes não são conhecidas, para obter previsões [9].

17

Um dos objetivos principais do processo de classificação é obter um classificador capaz

de capturar o melhor possível a relação entre os dados de entrada e as respostas, para

que possa ser muito preciso na etapa de previsão.

2.3.2 Underfitting e Overfitting

Para realização de boas previsões, é necessário evitar duas das maiores razões para o

baixo desempenho de técnicas de Aprendizagem de Máquina – underfitting e overfitting

[8].

O problema de underfitting é o mais facilmente identificável. As métricas de qualidade

de ajuste do modelo, tais como a acurácia, serão baixas. Isso ocorre quando um

conjunto de dados é relativamente pequeno para caracterizar uma relação complexa

entre os dados de entrada e saída. Esse problema também ocorre quando técnicas

Figura 2.3 - Passos de treinamento e previsão comuns às técnicas de Aprendizagem de Máquina Supervisionadas. Adaptado de: Statistics and

Machine Learning Toolbox™ User’s Guide [9]

18

muito simples, como as que assumem relações lineares entre os dados, são usados

para lidar com relações complexas.

O problema oposto é o overfitting. O modelo treinado se torna tão flexível e detalhado

que acomoda ruídos e pontos de dado que não se ajustam a tendência. Essas técnicas

não são capazes de generalizar o problema estudado e quando aplicados a um novo

conjunto de dados apresentarão taxas de erro mais altas durante a previsão com dados

novos que as registradas durante o treinamento [8].

2.3.3 Métodos de validação

Como forma de evitar esses problemas é necessário utilizar um método de validação.

Nos softwares modernos existem três opções disponíveis: não utilizar validação,

validação cruzada e holdout. A validação cruzada particiona os dados em K

subconjuntos de dados, sendo o número K escolhido pelo usuário. O modelo é então

treinado em (K – 1) subconjuntos e testado no subconjunto sobressalente. Os

subconjuntos são permutados K vezes de forma que cada subconjunto seja utilizado

uma vez para o teste cego do modelo. O modelo é otimizado para reduzir o erro médio

das K permutações. Esse método de validação é recomendado para conjuntos de dados

pequenos, já que requer diversas rodadas e ajustes [9], porém apresenta grande

capacidade de prever como o modelo treinado se comportará para um teste cego em

um novo conjunto de dados.

Para conjuntos de dados maiores, o método holdout é recomendado. Uma parcela dos

dados é separada para treinamento e outra para teste. O modelo é treinado na primeira

parcela e tem seu desempenho medido através da segunda [9].

19

2.3.4 Avaliação de qualidade

O conhecimento de alguns conceitos é importante para a avaliação da qualidade da

classificação dos modelos treinados. Esses conceitos, resumidos na Tabela 2.1, são

aplicados a previsão feita para cada observação e sua classe real:

Verdadeiro positivo: para uma dada classe i, esse é o número de previsões em

que a classe prevista coincide com a classe real.

Verdadeiro negativo: para uma dada classe i, esse é o número de previsões

em que a classe real é diferente de i e o modelo treinado corretamente atribuiu

uma classe prevista diferente de i.

Falso positivo: para uma dada classe real i, esse é o número de vezes em que

a uma observação com classe real diferente de i foi atribuída erroneamente a

classe prevista i.

Falso negativo: para uma dada classe real i, esse é o número de vezes em que

a uma observação uma classe prevista diferente de i foi erroneamente

atribuída.

Tabela 2.1 – Classificação dos quatro tipos de erros ou acertos de um modelo preditivo

Classe real

I Outras

Cla

sse

pre

vis

ta

I Verdadeiro positivo Falso positivo

Outras Falso negativo Verdadeiro negativo

20

A avaliação da qualidade da classificação dos modelos treinados pode ser feita por

algumas métricas diferentes:

Acurácia (accuracy): acurácia é a medida mais simples da qualidade de ajuste,

sendo definida como o número de previsões corretas sobre o número total de

observações. Quando uma das classes reais tem um número de observações

muito maior do que as demais classes, a acurácia pode ser enganosa. Em um

caso extremo em que todas as observações tenham como classe prevista a

classe real majoritária, o modelo ainda terá uma acurácia grande mesmo não

sendo capaz de generalizar o problema.

𝑎𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 + 𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠

𝑛º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 (Eq. 2.3)

Precisão (precision): a precisão considera uma análise classe a classe. Para

cada classe, a precisão será o número de vezes que uma determinada classe

foi prevista corretamente sobre o número de vezes que essa mesma classe foi

prevista, independente de correta ou incorretamente.

𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠

𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 + 𝑛º 𝑓𝑎𝑙𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (Eq. 2.4)

Revocação (recall): a revocação também considera uma análise classe a classe.

Para cada classe, a revocação será o número de vezes que uma determinada

classe foi prevista corretamente sobre o número de observações dessa classe

no conjunto de dados, quando considerada a classe real.

𝑟𝑒𝑣𝑜𝑐𝑎çã𝑜 = 𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠

𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 + 𝑛º 𝑓𝑎𝑙𝑠𝑜𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠 (Eq. 2.5)

21

F1-score: o F1-score é uma combinação da precisão e revocação, sendo

calculado pela média harmônica das duas medidas [10].

𝐹1 − 𝑠𝑐𝑜𝑟𝑒 = 2 ×𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 × 𝑟𝑒𝑣𝑜𝑐𝑎çã𝑜

𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 + 𝑟𝑒𝑣𝑜𝑐𝑎çã𝑜 (Eq. 2.6)

2.3.5 Técnicas de Aprendizagem de Máquina

2.3.5.1 Árvores de Decisão

Árvores de Decisão é uma técnica robusta de Aprendizagem de Máquina para aproximar

funções alvo discretas, sendo capaz de lidar com dados contendo ruído e

inconsistências [11], como conjunto de dados incompletos para uma variável de entrada.

O modelo treinado é representado por uma árvore de decisão ou por conjuntos de

comandos se-então (if-then).

Em sua representação gráfica, a árvore será formada por um conjunto de nós. Cada nó

representa uma decisão sobre um preditor, ou um teste, e produz uma ramificação das

observações contidas no nó original em dois grupos. Esse novo nó pode sofrer uma

nova ramificação ou ser considerado uma resposta. O primeiro nó é chamado raiz e os

últimos, que contém uma resposta, de folhas. No exemplo da Figura 2.4, os preditores

são x3 e x4, as classes são setosa, versicolor e virginica. Caso uma observação do

conjunto de dados testado obedeça a sequência de regras desde a raiz até uma folha,

essa observação receberá a classe dessa folha.

22

Durante o treinamento, um critério de parada determina a profundidade das Árvores de

Decisão. A profundidade é caracterizada por um maior número de folhas, nós e

ramificações, e consequentemente um menor número de observações nas folhas.

O critério de parada padrão para o Classification Learner é o número de ramificações.

Árvore Fina (Fine): 100 ramificações;

Árvore Média (Medium): 20 ramificações;

Árvore Grossa (Coarse): 4 ramificações.

Como alternativa, pode ser determinado um número mínimo de observações em cada

nó. Quando esse número mínimo é atingido, esse nó não sofre mais ramificações e se

Figura 2.4 – Representação gráfica da ramificação de uma Árvore de Decisão com nós e folhas para o conjunto de dados das Flores Iris. Adaptado de:

Statistics and Machine Learning Toolbox™ User’s Guide [9]

23

torna uma folha. Um nó puro, contendo observações de apenas uma classe, também

serve como critério de parada.

A escolha de qual preditor e qual regra de decisão (comando se-então) utilizar em cada

nó é determinado de forma a minimizar uma função erro. Essa função erro é a impureza

de Gini. A impureza de Gini é caracterizada pelo produto da probabilidade de que um

elemento aleatoriamente sorteado em um dado nó pertença a uma classe alvo i pela

probabilidade de que esse elemento pertença a qualquer outra classe diferente de i. A

impureza de Gini é igual a zero quando todos os elementos em um nó pertencem à

classe alvo. A técnica é considerada gulosa, ou seja, ela analisa todas as alternativas

para um determinado nó e escolhe a solução local ótima com a esperança de que

escolher ótimos locais para todos os nós leve a solução global ótima [12].

2.3.5.2 Análise Discriminante

A Análise Discriminante assume que cada classe apresenta os preditores baseados em

uma distribuição multivariada Normal (também chamada Gaussiana). Durante o

treinamento, o classificador estima os dois principais parâmetros para esse tipo de

distribuição – o vetor de médias e a matriz de covariância [9]. Cada elemento no vetor

de médias é o valor médio ou esperado para um preditor, assumindo sua distribuição

Normal. O vetor de médias é subtraído de cada observação antes do cálculo da matriz

de covariância.

A matriz de covariância mede o nível de correlação dos diversos preditores, analisando-

os em pares. Por exemplo, se o aumento no valor de uma variável x1 é acompanhado

pelo aumento no valor de uma variável x2 – o mesmo sendo verdade para uma redução

no valor de ambos – o par x1, x2 apresentará um valor de covariância positivo. Quando

o aumento ou redução no valor de x1 é acompanhado pelo movimento oposto no valor

de x2, a covariância será negativa. Quando as variáveis são normalizadas, o módulo da

24

covariância indicará quão forte é a correlação. Nesse caso, os valores na matriz de

covariância serão conhecidos como coeficientes de correlação ou coeficientes de

correlação de Pearson [13].

Duas opções de Análise Discriminante estão disponíveis no aplicativo Classification

Learner: linear e quadrática.

Análise Discriminante Linear, o classificador calcula uma única matriz de

covariância para toda a massa de dados.

Análise Discriminante Quadrática, o classificador calcula uma matriz de

covariância para cada classe. Para ambos os métodos, um vetor de médias é

calculado para cada classe [9].

Com os parâmetros da distribuição ajustados o classificador setoriza por classes o

espaço contendo as observações de forma a minimizar o erro de classificação. O

espaço é dividido por linhas (linear), elipses, parábolas ou hipérboles (quadrática). O

erro de classificação é contabilizado levando em conta dois parâmetros: a probabilidade

a posteriori e o custo. A probabilidade a posteriori é a probabilidade condicional de que

uma observação seja classificada como determinada classe, levando em consideração

as distribuições normais calculadas anteriormente para cada classe. No limite, quando

se utiliza o conhecimento a priori das classes reais, a função custo assumirá o valor zero

quando a classe prevista e real forem iguais, e o valor de 1 se forem diferentes. Para

otimização do modelo, o custo também será estimado baseado nas probabilidades a

posteriori.

2.3.5.3 Supported Vector Machine (SVM)

A técnica SVM foi desenvolvida na década de 90 e é extremamente popular desde

então. A popularidade é devida ao bom desempenho com mínima necessidade de

25

ajustar seus parâmetros [14]. A técnica SVM pode ser utilizada para problemas de

classificação e regressão.

Para problemas de classificação, o SVM cria um espaço N-dimensional em que N é o

número de preditores presentes na massa de dados. Em seguida, o SVM utiliza

hiperplanos para separar os pontos de dados em classes.

O critério para posicionar os hiperplanos é conhecido como margem. A margem é

definida como a distância perpendicular entre os hiperplanos e os pontos mais próximos

a eles. Esses pontos mais próximos aos hiperplanos são conhecidos como vetores de

suporte ou support vectors [8, 14]. O objetivo do SVM é maximizar o tamanho das

margens, e por isso também é conhecido como Classificador de Margem Máxima ou

Maximum Margin Classifier. A Figura 2.5 traz um exemplo simples com duas classes

separáveis por um hiperplano, com sua margem e vetores de suporte.

Figura 2.5 - Representação gráfica do hiperplano separador e margem para um problema linear com

duas classes

26

Na prática, dificilmente todos os pontos de uma determinada classe poderão ser

separados por um hiperplano. Por esse motivo, o modelo precisa ser flexível o suficiente

para permitir que alguns pontos desrespeitem a margem estabelecida. Para isso, um

fator de ajuste C é colocado como parte dele. Valores altos de C permitem que mais

pontos de dados desrespeitem os limites estabelecidos pelos hiperplanos e margens,

desde que o modelo treinado continue capaz de generalizar o problema [8].

SVMs usam uma função Kernel para analisar a similaridade entre dois pontos de dados

calculando o produto interno entre eles. Para prever a classe de um ponto de dado não

utilizado para treinamento, a função Kernel calcula o produto interno entre esse ponto

de dado e os vetores de suporte [8].

Para problemas não lineares, em que um hiperplano não é capaz de determinar a

fronteira entre as classes, uma função Kernel mais complexa pode ser introduzida. Essa

função Kernel transforma o espaço N-dimensional original em um espaço de mais alta

dimensão em que os dados de entrada sejam mais facilmente separáveis [15]. Esse

novo espaço de alta dimensão é chamado de espaço de características e é resultado

de combinações linearmente separáveis dos pontos no espaço N-dimensional.

No Classification Learner, quatro funções Kernel estão disponíveis:

Linear (d = 1)

Quadrática (d = 2)

Cúbica (d = 3)

Gaussiana (ou RBF, Radial-Basis Function)

A função RBF ainda tem três opções:

Fine,

27

Medium e

Coarse.

Elas se diferenciam pelo parâmetro Kernel Scale. O Classification Learner divide todos

os elementos na matriz de preditores pelo Kernel Scale antes de computar a matriz de

produtos internos no espaço de dimensão mais alta criado pela função Kernel [9]. As

funções Kernel utilizadas foram apresentadas na Tabela 2.2.

Tabela 2.2 – Funções Kernel utilizadas. Adaptado de LORENA et al. [15]

Tipo de Kernel Função K (xi, xj) Parâmetros

Polinomial (δ (xi • xj) + C) d δ, C e d

Gaussiana exp(-σ xi – xj2) σ

2.3.5.4 K-vizinho mais próximo (KNN)

A técnica KNN difere das demais técnicas não-paramétricas por fazer previsões

utilizando todo o conjunto de dados de treinamento, não um modelo. Para problemas de

classificação, ele buscará os K pontos vizinhos mais próximos, ou mais semelhantes,

ao ponto do conjunto de dados que precisa ser classificado. A classe que aparece com

maior frequência entre os K vizinhos, como em uma contagem de votos, será atribuída

ao ponto de dado sem classificação prévia.

28

Por funcionar dessa forma, a técnica pode se tornar lenta para analisar conjuntos de

dados muito grandes [16]. Por outro lado, sua simplicidade e facilidade de interpretação

dos resultados torna a técnica um benchmark para os resultados obtidos por outras

técnicas mais sofisticadas [9]. A Figura 3.7 apresenta uma visualização de como a

classe para um ponto não classificado poderia ser decidida considerando os oito

vizinhos mais próximos.

A similaridade entre dois pontos é medida pela distância entre esses dois pontos no

espaço N-dimensional, sendo N o número de preditores. Um dos parâmetros a ser

escolhido para essa técnica é a forma de medir a distância entre pontos. As opções

disponíveis no Classification Learner são:

Figura 2.6 - Visualização de como a classe para um ponto não classificado poderia ser decidida

considerando os oito vizinhos mais próximos utilizando o conjunto de dados das Flores de Iris.

Adaptado de: Statistics and Machine Learning Toolbox™ User’s Guide [9]

29

Distância Euclidiana (A, B)

𝑑𝑖𝑠𝑡𝑒(𝐴, 𝐵) = √∑(𝐴𝑖 − 𝐵𝑖)2 (Eq. 2.7)

Distância por cosseno (A, B)

𝑑𝑖𝑠𝑡𝑐 (𝐴, 𝐵) =

𝐴 •

‖𝐴‖ × ‖‖ =

∑ 𝐴𝑖 × 𝐵𝑖

√∑ 𝐴𝑖2 × √∑ 𝐵𝑖

2

(Eq. 2.8)

Distância Minkowski cúbica (A, B)

𝑑𝑖𝑠𝑡𝑚𝑐 (𝐴, 𝐵) = √∑|𝐴𝑖 − 𝐵𝑖|3

3 (Eq. 2.9)

Sendo A e B duas observações dentro do conjunto de dados, ou seja, dois vetores

compostos pelo conjunto de preditores para duas profundidades distintas. E Ai e Bi

componentes dos vetores A e B.

A distância Euclidiana é utilizada para as técnicas Fine, Medium e Coarse que se

diferenciam pelo número de K vizinhos mais próximos utilizados – 1, 10 e 100. Outras

opções disponíveis são o Cosine e o Cubic, os quais utilizam os 10 vizinhos mais

próximos com as distâncias por cosseno e Minkowski cúbica, respectivamente. Há

ainda a técnica Weighted que utiliza a distância Euclidiana, porém atribuindo pesos a

cada uma das observações. O peso é calculado pelo inverso do quadrado da distância

entre os pontos.

Com o aumento no número de preditores, e em consequência o aumento da dimensão

do espaço característico, a técnica pode consumir muitos recursos computacionais e a

noção de distância entre os pontos se torna menos intuitiva para interpretação [16].

30

2.3.5.5 Métodos Ensemble

Métodos Ensemble são compostos pela combinação das decisões feitas por múltiplos

classificadores simples individualmente. Esses classificadores simples são chamados

classificadores base ou weak learners. O modelo resultante da combinação dos diversos

classificadores base apresentará um maior índice de acerto em suas previsões que cada

um dos classificadores base individualmente.

Essas técnicas são compostas por três elementos principais: o classificador base, uma

função de perda (ou erro de classificação) e um elemento aditivo que atribua os devidos

pesos a cada weak learner de forma a minimizar a função de perda. A minimização é

um processo iterativo em que o erro é reduzido pouco a pouco em diversos passos, o

quão rápido isso acontece é determinado pelo parâmetro de taxa de aprendizagem ou

learning rate [8].

As técnicas Ensemble diferem entre si pela escolha das técnicas utilizadas como

classificadores base e pelo método utilizado para combinar o resultado obtido por cada

classificador base individualmente. Cinco técnicas Ensemble estão disponíveis no

Classification Learner para problemas de classificação multi-classe.

A técnica Bagged Trees é caracterizada pelo método que utiliza para criar amostras do

conjunto de dados e treinar o modelo de Aprendizagem de Máquina, o método é

conhecido como Bootstrap Aggregation ou Bagging. O Bootstrap é um método

estatístico robusto para caracterizar um conjunto de dados a partir de amostras. Um

número grande de amostras aleatórias – e com reposição – são retiradas do conjunto

de dados, e a propriedade para o conjunto completo de dados é estimado a partir da

média dos valores calculados para cada uma das amostras. Essa propriedade estimada

através das amostras pode ser uma medida estatística como a média ou desvio padrão.

31

O mesmo procedimento pode ser aplicado para reduzir a variância de técnicas de

Aprendizagem de Máquina como as Árvores de Decisão. Árvores de Decisão

apresentam uma variância muito grande em suas previsões – árvores treinadas em duas

amostras distintas de um mesmo conjunto de dados provavelmente produzirão

predições diferentes. Ao produzir um número grande de amostras e utilizar a classe

prevista com maior frequência para um ponto de dado, a variância é eliminada. Quando

o método Bootstrap é aplicado com essa finalidade, ele é chamado de Bootstrap

Aggregation ou Bagging.

Cada classificador base é uma árvore de decisão profunda, com poucas observações

em cada folha e sem critérios de parada para ramificação em novos nós. Mais

especificamente, a técnica disponível no Matlab utiliza Random Forests. Random

Forests é uma versão melhorada do Bagged Trees. No Bagged Trees, a técnica tem

todos os preditores disponíveis no momento de criar a ramificação de um nó e pode

escolher a melhor opção. No Random Forests, a técnica é forçada a escolher em um

conjunto limitado e aleatório de preditores. Por padrão, o número de preditores

escolhidos aleatoriamente por ramificação é igual a raiz quadrada do número total de

preditores. Isso evita que os classificadores base sejam criados com estruturas

semelhantes e com alto índice de correlação nos resultados [17].

Outra técnica disponível no Classification Learner é o Boosted Trees. As Boosted Trees

para problemas multi-classe utilizam um método conhecido como AdaboostM2.

Diferente das Bagged Trees, as Boosted Trees utilizam Árvores de Decisão

extremamente rasas, em geral com apenas uma ramificação. Os classificadores base

são treinados sequencialmente, de forma que um novo classificador base tenta corrigir

os erros cometidos pelo classificador base que o precedeu. Novos classificadores base

são adicionados até que pare de haver melhora na qualidade da predição ou um número

definido de classificadores base sejam adicionados. O peso de cada classificador base

nos votos é definido pelo desempenho individual do mesmo na previsão [18].

32

O Classification Learner também disponibiliza a técnica RUSBoost. Essa técnica é um

caso especial de Boosted Trees para conjuntos de dados em que uma ou mais classes

tem um número de observações muito menores que as demais classes. A técnica

RUSBoost realiza para cada classificador base uma amostragem aleatória em que N

observações de cada classe são escolhidas, sendo N o número de observações

disponíveis para a classe com o menor número de observações no conjunto de dados.

Com exceção desse ajuste, a técnica RUSBoost opera da mesma forma que a técnica

Boosted Trees [9].

Ainda está disponível a técnica Subspace. Essa técnica criará classificadores base

utilizando um número restrito de preditores. Dentre o número total de preditores

disponíveis, a técnica escolherá aleatoriamente sem reposição um número definido de

preditores para compor o classificador base. Essa operação é repetida até que um

número pré-definido de classificadores base sejam criados. Os classificadores base

poderão utilizar Análise Discriminante ou KNN [9].

33

3 Revisão bibliográfica

Uma busca rápida no mais importante repositório de artigos científicos da indústria de

petróleo – OnePetro – foi capaz de demonstrar o potencial da aplicação da

Aprendizagem de Máquina nas mais diversas áreas de conhecimento da Engenharia de

Petróleo. Ao digitar o termo, mais de 1.100 trabalhos foram publicados nos últimos 3

anos. A Figura 3.1 mostra a tendência de crescimento do número total de artigos de

Aprendizagem de Máquina e Inteligência Artificial desde os anos 1960. Deve ser notado

que o número de pesquisas em Aprendizagem de Máquina já está superando o número

de pesquisas em Inteligência Artificial. Entretanto, diversos autores ressaltam que

apesar de amplamente aceita e utilizada em outras indústrias, em óleo e gás a

Aprendizagem de Máquina ainda não é explorada no seu potencial máximo [19, 20].

Na indústria de petróleo e gás, diversas aplicações de Aprendizagem de Máquinas são

propostas nas mais diferentes áreas, tais como: interpretação de dados sísmicos na

fase de exploração [21], otimização da perfuração de poços durante o desenvolvimento

de campos [19], até a fase de produção com a previsão da vida útil de bombas

centrífugas submersas [22], e análise de risco de falha de equipamentos submarinos a

partir de dados de inspeção [23]. Como discutiremos a seguir, diversos autores também

tratam da aplicação da Aprendizagem de Máquina para classificação de fácies

geológicas.

34

A Análise Petrofísica Orientada por Dados – Petrophysical Data Driven Analysis (PDDA)

– aparece como uma subdisciplina de crescente importância e com vantagens sobre

métodos convencionais demonstradas na literatura [24]. O PDDA usa técnicas de

Aprendizagem de Máquina em aplicações importantes, tais como: automatização do

controle de qualidade dos dados brutos de perfis de poços, identificando zonas em que

houve arrombamento ou fechamento do poço, efeitos de invasão da formação por

filtrado de lama, correção de profundidade para um grande número de poços, e outras.

Além destas, aplicações na correlação rocha-perfil de múltiplos poços para classificação

de fácies e predição de parâmetros de reservatório como permeabilidade e saturação

de fluidos [24].

Com relação a exploração simultânea de múltiplas técnicas de Aprendizagem de

Máquina para classificação de fácies, SHASHANK e MAHAPATRA [8] propuseram um

fluxo de trabalho para testar e comparar múltiplas técnicas, e combiná-las em um único

Figura 3.1 - Número de publicações sobre Inteligência Artificial e Aprendizagem de Máquina no repositório de artigos científicos OnePetro. Adaptado de: XU et

al. [24]

35

Método Ensemble (em conjunto). Os autores utilizaram Árvores de Decisão, Support

Vector Machines (SVM) e Gradient Boosting como classificadores base, ajustando

parâmetros para que cada um dos três classificadores possa gerar um modelo capaz

de prever as fácies com a maior acurácia possível. Em seguida, os três classificadores

base são ordenados de forma que aqueles que preveem as classificações de fácies com

maior acurácia recebem um maior peso. Esses pesos funcionam como votos, e a

classificação de fácies para uma determinada profundidade com o maior número de

votos entre os três classificadores base é a escolhida. A combinação dos três

classificadores, no contexto de métodos Ensemble chamados de weak learners, produz

um classificador melhor que os três originais individualmente. Dados dos campos de

Hugoton e Panoma foram utilizados na análise [8].

Utilizando o mesmo conjunto de dados para os campos de Hugoton e Panoma, HALL

[3] aplicou uma Support Vector Machine Gaussiana (Gaussian SVM) obtendo uma

acurácia próxima a 43%. Não satisfeito com o resultado, propôs um concurso

internacional que recebeu cerca de 300 soluções para o problema de classificação de

fácies utilizando Aprendizagem de Máquina para essa massa de dados. Os resultados

foram apresentados em HALL e HALL [4] com considerável redução do erro de previsão.

Um dos melhores resultados do concurso foi obtido por BESTAGINI e LIPARI et al. [2]

através do Método Ensemble conhecido como Gradient Boosted Trees.

BIZE-FOREST et al. [25] explorou uma combinação de Aprendizagem de Máquina Não

Supervisionada e Supervisionada para melhorar a capacidade preditiva em carbonatos

do pré-sal. O uso de Aprendizagem de Máquina para classificação de fácies nos

carbonatos do pré-sal se mostrou particularmente desafiador. No estudo, inicialmente

não foi possível obter acurácias maiores que 40%. A dificuldade se deve a

heterogeneidade dos carbonatos e efeitos diagenéticos que transformam o carbonato

originalmente depositado em um tipo de rocha reservatório (Reservoir Rock Type) com

propriedades petrofísicas distintas da fácies deposicional original. Com os avanços

36

realizados durante o estudo, foram alcançadas acurácias de 68% e 55% em dois

experimentos distintos. Em ambos os experimentos, diversas técnicas supervisionadas

de agrupamento (clustering) foram aplicadas para determinar quais delas melhor se

ajustavam aos dados e quais eram os perfis de poços com maior influência sobre a

classificação de fácies. Em um segundo momento, a técnica com melhor desempenho

foi aplicada de maneira não supervisionada utilizando como dados de entrada apenas

os perfis de poços selecionados como mais relevantes no passo anterior.

ZIMMERMANN [26] aplicou a Aprendizagem de Máquina em outro problema comum

na correlação rocha-perfil, corrigir a associação dos dados de profundidade dos perfis e

dos testemunhos. As medidas de profundidade do testemunho são obtidas durante a

perfuração, pelo método do sondador – em que é conhecido o número de tubos de

perfuração e seus comprimentos – enquanto as medidas de profundidade para os perfis

de poço são obtidas durante a perfilagem pelo comprimento de cabo utilizado. Assim,

um mesmo ponto dentro do poço pode apresentar medidas de profundidade distintas.

Essa diferença pode ser da ordem de dezenas de metros [27]. Dados do perfil de raios

gama obtidos durante a perfuração são comparados a medidas de raios gama feitas em

laboratório no testemunho – coregamma. A solução convencional depende de

manualmente ou com auxílio de computador, determinar pontos em que os sinais dos

dois testes coincidem e trasladar, comprimir ou esticar os perfis para que esses pontos

coincidam. ZIMMERMAN [26] utilizou uma técnica de Redes Neurais treinado em dados

rotulados manualmente, com alguma flexibilidade para lidar com o erro humano durante

a classificação manual, e alcançou resultados satisfatórios.

37

4 Descrição dos dados

Nesse capítulo será apresentado um resumo sobre os campos estudados nesse

trabalho. Esse resumo contêm a localização desses campos, um breve histórico das

atividades de exploração e produção, e informações geológicas sobre os reservatórios

estudados.

Além disso, serão apresentados os dados disponíveis para o treinamento das técnicas

de Aprendizagem de Máquina. Os perfis de poços e classificação de fácies serão

apresentados e discutidos. Os dados serão brevemente analisados através de

histogramas, diagramas de correlação cruzadas, estimativas de densidade kernel e

matrizes de covariância.

4.1 Campos de Hugoton e Panoma

Os campos de Hugoton e Panoma estão localizados no sudoeste do estado norte-

americano do Kansas e noroeste do estado de Oklahoma, em terra, conforme o mapa

na Figura 4.1. A descoberta de Hugoton ocorreu em 1928 e o desenvolvimento do

campo ocorreu a partir de 1948. Já a descoberta de Panoma ocorreu em 1958 e o

desenvolvimento do campo ocorreu a partir de 1970. Os campos produzem

predominantemente gás e atingiram seu pico de produção nos anos 70, produzindo

volumes próximos a 50 milhões de metros cúbicos de gás por dia. O volume de gás

recuperado nesses campos é próximo de 1 trilhão de metros cúbicos através de mais

de 12 mil poços [1].

38

Os reservatórios datam do período Permiano, sendo o reservatório de Panoma mais

profundo e pertencente ao grupo Council Grove, enquanto o reservatório de Hugoton

mais raso pertence ao grupo Chase. O reservatório é formado pela alternância de finas

camadas de siltitos e carbonatos depositados em 13 ciclos de deposição marinhos e

não-marinhos ao longo de aproximadamente 170 metros (550 pés) [28].

Para os campos de Hugoton e Panoma, foram disponibilizados dados para 12 poços. O

conjunto de dados é composto por nome dos poços, dados de profundidade, sete

variáveis – incluindo três medidas de perfis de poços, duas métricas calculadas com

base em perfis de poços e duas classificações manuais – e uma classificação de fácies

litológicas.

Raios gama – Gamma ray (GR)

Resistividade – Resistivity (ILDlog10)

Efeito fotoelétrico – Photoelectric effect (PE)

Figura 4.1 - Mapa para os campos de Hugoton e Panoma

39

Diferença das porosidades calculadas a partir dos perfis densidade e nêutron –

Neutron-density porosity difference (DeltaPHI)

Porosidade média calculada a partir dos perfis densidade e nêutron – Average

neutron-density porosity (PHIND)

Classificação binária de ambiente deposicional baseado em conhecimento da

posição de topo de formações e membros que marcam a alternância entre

ambiente marinho e não-marinho (NM-M)

Posição relativa à última alternância entre ambiente deposicional marinho e não-

marinho (RelPos)

As medidas foram realizadas em intervalos de profundidade de meio pé. O conjunto de

dados foi disponibilizado para 4979 profundidades. Porém, em 917 desses intervalos os

dados para o perfil efeito fotoelétrico não estão disponíveis. Dois dos 12 poços não têm

nenhuma medida do perfil efeito fotoelétrico disponível.

A partir da análise dos testemunhos, as 4979 observações foram classificadas em nove

fácies, conforme descrição da Tabela 4.1. Essa classificação também faz parte do

conjunto de dados. As fácies foram construídas observando principalmente o ambiente

de deposição – marinho ou não-marinho – e pelo tipo de rocha – siliciclástica ou

carbonática. Para as rochas siliciclásticas, foram ainda atribuídas a classificação de Folk

para o tamanho de grão dos sedimentos que as compõem, e para as rochas

carbonáticas, foram atribuídas as classificações de textura de Dunham [1].

40

Tabela 4.1 - Descrição das fácies dos campos de Hugoton e Panoma

Fácies Descrição

1 Arenito não-marinho

2 Siltito grosso não-marinho

3 Siltito fino não-marinho

4 Siltito e folhelho marinho

5 Lamito

6 Wackestone

7 Dolomita

8 Packstone-Grainstone

9 Bafflestone

A partir das nove fácies e as observações dos sete preditores para as 4979 observações

disponíveis, foi elaborado um diagrama de correlações cruzadas exibido na Figura 4.2.

O diagrama apresenta visualmente a correlação dois a dois dos diversos preditores e

como as fácies influenciam essa correlação. Para problemas facilmente separáveis,

seria possível visualmente perceber os intervalos de valores para cada par de preditores

que delimitam uma fácies. Podemos observar que apesar de haver algumas tendências,

as fácies não são facilmente separáveis para os dados dos campos de Hugoton e

Panoma.

41

Fig

ura

4.2

– D

iag

ram

a d

e c

orr

ela

çõ

es c

ruzad

as p

ara

os s

ete

pre

dit

ore

s u

tili

za

do

s n

o e

stu

do

para

os

ca

mp

os d

e

Hu

go

ton

e P

an

om

a a

gru

pad

os p

or

fác

ies

42

Como podemos ver em mais detalhes na Figura 4.3, a distribuição do número de

observações por fácies é bastante assimétrica. As fácies 7 e 9, principalmente, possuem

um pequeno número de observações dentro do conjunto de dados. Isso pode dificultar

a qualidade de previsão dessas fácies para algumas técnicas.

Em seguida, a distribuição de cada preditor individualmente e para cada fácies foi

analisada. Os resultados estão apresentados na figura 4.4. Para fazer essa análise, foi

escolhida a estimativa de densidade kernel – uma representação contínua da função

densidade de probabilidade de cada preditor individualmente, e uma alternativa à

representação de uma distribuição discreta através de um histograma. A distribuição

kernel é uma curva de densidade da probabilidade não-paramétrica que se adapta à

forma dos dados ao invés de pedir pela definição de uma forma paramétrica – normal,

lognormal ou outra – como informação a priori [8]. Novamente é possível identificar os

valores de cada preditor no qual cada fácies apresenta maior frequência de

observações, porém fica claro que o problema não é facilmente separável.

Figura 4.3 - Número de observações por fácies para os campos de Hugoton e Panoma

0

200

400

600

800

1000

1200

1 2 3 4 5 6 7 8 9

Nú

mer

o d

e o

bse

rvaç

ões

Fácies

43

Para analisar a independência entre os sete preditores disponíveis, foi utilizada uma

matriz de covariância contendo os coeficientes de correlação de Pearson para cada par

de preditores. A matriz de covariância e os coeficientes de correlação de Pearson foram

Figura 4.4 - Distribuição Kernel para os cinco perfis de poços disponíveis para os campos de Hugoton e Panoma

Fácies:

44

descritos em maiores detalhes no capítulo 2.3.5.2 e estão representados na Figura 4.5

para os dados do campo de Hugoton e Panoma através de um mapa de calor. As cores

mais claras – laranja claro, amarelo e branca – representam uma correlação positiva,

sendo a cor branca a correlação mais forte. As cores mais escuras – laranja escuro,

vermelho, marrom e preto – representam uma correlação negativa, sendo a cor preta a

correlação mais forte.

Os pares com alto índice de correlação indicam que existe informação redundante, e

deve ser analisada a possibilidade de eliminar um dos dois preditores de forma a reduzir

a dimensão do espaço característico, reduzindo o tempo de classificação [8].

Os três pares de preditores que apresentaram maior nível de correlação foram o

indicador de ambiente deposicional marinho ou não-marinho (NM-M) com o perfil efeito

fotoelétrico (PE) – correlação positiva –, a porosidade média a partir dos perfis

densidade e nêutron (PHIND) com o perfil efeito fotoelétrico (PE) e a PHIND com o perfil

resistividade (ILDlog10) – correlação negativa.

Figura 4.5 - Matriz de covariância e coeficientes de correlação de Pearson para os perfis de poços disponíveis para os campos de Hugoton e Panoma.

45

4.2 Campo de Namorado

O campo de Namorado está localizado a cerca de 80 km da costa do Rio de Janeiro, na

porção central da Bacia de Campos, conforme apresentado na Figura 4.6. A área se

encontra em lâmina d’água que varia entre 120 e 270 metros. O campo foi a segunda

descoberta comercial realizada pela Petrobras na Bacia de Campos em 1975. O campo

de Namorado produziu o primeiro óleo em 1979 atingindo seu pico de produção em

1986 com taxas diárias de produção acima de 60 mil barris de óleo. O campo produz

predominantemente óleo médio com 28°API e viscosidade próxima a 1cP. Até

Dezembro de 2015, o campo já havia recuperado 417 milhões de barris de óleo tendo

sido perfurados um total de 65 poços no campo – incluindo produtores, injetores e

exploratórios.

Figura 4.6 – Mapa para o campo de Namorado

46

O principal reservatório do campo de Namorado é o Arenito Namorado, de idade

Albiano-Cenomaniana. O reservatório é constituído por depósitos turbidíticos, mais

especificamente arenitos arcoseanos que apresentam espessura média de 60 metros,

variando entre 5 e 130 metros, e boas características permo-porosas – com porosidade

média de 26% e permeabilidade média de 400 mD. Os arenitos encontram-se

depositados no topo do Grupo Macaé, sendo parte da Formação Outeiro. A tectônica e

a halocinese, resultado da instabilidade de evaporitos e formação de diápiros de sal,

foram responsáveis pela abertura de falhas que permitiram a acomodação desses

corpos de areia. Esses processos também contribuíram para o processo de migração e

formação de trapas para o óleo.

Para o campo de Namorado, foram disponibilizados dados para 13 poços. O conjunto

de dados é composto por nome dos poços, dados de profundidade, medidas de cinco

perfis de poços e uma classificação de fácies deposicionais.

Sônico (DT)

Raios gama (GR)

Resistividade (ILDlog10)

Porosidade calculada a partir do perfil nêutron (NPHI)

Densidade (RHOB)

As medidas foram realizadas em intervalos de profundidade de 20 centímetros. O

conjunto de dados foi disponibilizado para 3274 profundidades. Porém, em 759 desses

intervalos os dados para o perfil sônico não estão disponíveis. Seis dos 13 poços não

tem nenhuma medida do perfil sônico disponível.

A partir da análise de testemunhos, as 3274 observações foram classificadas em sete

fácies, como descrito na Tabela 4.2. Essa classificação foi proposta por BARBOSA [29],

e é uma combinação da classificação original proposta por Zarpelon (1997) apud

BARBOSA [29] que continha 21 fácies. A correlação rocha-perfil a partir da classificação

47

anterior não se mostrava prática já que muitas vezes suas espessuras estavam abaixo

da resolução dos perfis elétricos. Por isso, as fácies foram reagrupadas em apenas sete

[29]. A classificação de fácies foi construída observando principalmente textura e

granulometria das rochas [30].

Tabela 4.2 - Descrição das fácies do campo de Namorado

Fácies Descrição

1 Conglomerados e arenitos conglomeráticos

2 Arenitos maciços e estratificados

3 Turbiditos de Bouma em camadas espessas

4 Turbiditos de Bouma em camadas finas

5 Conglomerados suportados pela matriz

6 Escorregamentos

7 Lamitos

Assim como no capítulo anterior, foi elaborado um diagrama de correlações cruzadas

utilizando as observações disponíveis para os cinco preditores e 3274 observações. O

diagrama está apresentado na Figura 4.7. Através do diagrama, podemos observar que

as fácies não são facilmente separáveis para os dados do campo de Namorado.

48

Fig

ura

4.7

- D

iag

ram

a d

e c

orr

ela

çõ

es c

ruzad

as p

ara

os c

inco

pre

dit

ore

s u

tiliza

do

s n

o e

stu

do

para

o c

am

po

de

Nam

ora

do

ag

rup

ad

os p

or

fácie

s

49

O histrograma apresentado na Figura 4.8 mostra como a distribuição de dados é

assimétrica. As fácies 1, 3 e 5, principalmente, possuem um número de observações

pequeno dentro do conjunto de dados. Algumas técnicas podem apresentar um

desempenho pior na previsão dessas fácies.

A estimativa de densidade kernel, apresentada na Figura 4.9, foi utilizada para analisar

a distribuição de cada preditor e para cada fácies individualmente. Assim como para os

dados dos campos de Hugoton e Panoma, para o campo de Namorado é possível notar

que cada fácies tem maior probabilidade de assumir determinados valores de preditores,

com picos bem definidos na curva da função densidade de probabilidade de cada

preditor. Ainda assim, não é possível separar facilmente as fácies.

0

200

400

600

800

1000

1200

1 2 3 4 5 6 7

Nú

mer

o d

e o

bse

rvaç

ões

Fácies

Figura 4.8 - Número de observações por fácies para o campo de Namorado

50

A matriz de covariância para os dados do campo de Namorado está apresentada na

Figura 4.10. Cinco pares de preditores apresentam um alto índice de correlação. Os

pares perfil raios gama (GR) com perfil sônico (DT), perfil porosidade nêutron (NPHI)

Figura 4.9 - Distribuição Kernel para os cinco perfis de poços disponíveis para o campo de Namorado.

Fácies:

51

com perfil sônico (DT) e perfil porosidade nêutron (NPHI) com perfil raios gama (GR)

apresentam correlação positiva. Os pares perfil densidade (RHOB) com perfil sônico

(DT) e perfil densidade (RHOB) com perfil porosidade nêutron (NPHI) apresentam

correlação negativa.

A alta correlação entre os preditores pode permitir que alguns dos preditores sejam

removidos, reduzindo a dimensão do espaço característico e por consequência o tempo

de classificação.

Figura 4.10 - Matriz de covariância e coeficientes de correlação de Pearson para os perfis de poços disponíveis para o campo de

Namorado

52

5 Metodologia da pesquisa

Esta seção apresenta uma descrição da metodologia usada na monografia que consiste

na aplicação das técnicas de Aprendizagem de Máquina na classificação de fácies nos

poços dos campos Hugoton e Panoma (experimento 1) e Namorado (experimento 2).

São introduzidas as técnicas implementadas e os testes realizados nos dois

experimentos.

No pré-processamento, os dois conjuntos de dados foram compilados cada um em uma

planilha diferente contendo todos os poços do respectivo campo e salvos em arquivos

texto com valores separados por vírgula.

Esses dados foram importados em forma de tabelas para o espaço de trabalho do

Matlab e foram analisados utilizando o aplicativo Classification Learner. O aplicativo

permitiu a comparação da acurácia na classificação de fácies de 22 técnicas de

Aprendizagem de Máquina. A seguir são apresentadas estas técnicas e entre parêntesis

como elas são denominadas no aplicativo:

Árvore de Decisão Finas (Fine Tree);

Árvore de Decisão Média (Medium Tree);

Árvores de Decisão Grossa (Coarse Tree);

Análise Discriminante Linear (Linear Discriminant);

Análise Discriminante Quadrática (Quadratic Discriminant);

Support Vector Machine Linear (Linear SVM);

Support Vector Machine Quadratica (Quadratic SVM);

Support Vector Machine Cúbica (Cubic SVM);

53

Support Vector Machine Gaussiana Fina (Fine Gaussian SVM);

Support Vector Machine Gaussiana Média (Medium Gaussian SVM) ;

Support Vector Machine Gaussiana Grossa (Coarse Gaussian SVM);

K-vizinho mais próximo Fina (Fine KNN);

K-vizinho mais próximo Média (Medium KNN);

K-vizinho mais próximo Grossa (Coarse KNN);

K-vizinho mais próximo Cosseno (Cosine KNN);

K-vizinho mais próximo Cúbica (Cubic KNN);

K-vizinho mais próximo usando pesos (Weighted KNN);

Métodos Ensemble – (Boosted trees);

Métodos Ensemble – (Bagged trees);

Métodos Ensemble – Subspace Discriminant;

Métodos Ensemble – Subspace KNN;

Métodos Ensemble – RUSBoosted Trees;

Cada uma das técnicas mencionadas acima usou dois conjuntos diferentes de

preditores para cada experimento, tais como:

Experimento 1 (Campos Hugoton e Panoma): (Profundidade), (GR),

(ILDlog10), (PE), (DeltaPHI), (PHIND), (NM-M) e (RelPos).

Experimento 2 (Campo de Namorado): (Profundidade), (DT), (GR), (ILDlog10),

(NPHI) e (RHOB).

54

A Tabela 5.1 resume todos os preditores e fácies presentes por experimento.

Tabela 5.1- Preditores e fácies por experimento

Todos os preditores foram importados como dados numéricos, caso contrário algumas

das técnicas – como o KNN e Análise Discriminante – não estariam disponíveis. Pelo

mesmo motivo, o nome dos poços não foi usado como um preditor.

Experimentos Preditores Fácies

Experimento 1 -

Campos Hugoton e

Panoma

1. GR

2. ILDlog10

3. PE

4. DeltaPHI

5. PHIND

6. NM-M

7. RelPos

8. Profundidades

1. Arenito marinho

2. Siltito grosso não-marinho

3. Siltito fino não-marinho

4. Siltito e folhelho marinho

5. Lamito

6. Calcário tipo vaque

7. Dolomita

8. Packstone-Grainstone

9. Bafflestone

Experimento 2 -

Campo de Namorado

1. DT

2. GR

3. ILDlog10

4. NPHI

5. RHOB

6. Profundidades

1. Conglomerados e arenitos conglomeráticos

2. Arenitos maciços e estratificados

3. Turbiditos de Bouma em camadas espessas

4. Turbiditos de Bouma em camadas finas

5. Conglomerados suportados pela matriz

6. Escorregamentos

7. Lamitos

55

5.1 Testes realizados

Foram realizados seis testes em cada experimento. Estes testes procuraram descobrir

a configuração mais apropriada para que as fácies fossem classificadas com maior

acurácia. A tabela 5.2 mostra um resumo dos testes realizados.

Os testes foram realizados aplicando as técnicas de Aprendizagem de Máquina para

cada conjunto de dados, incluindo em alguns testes os dados para todas as

profundidades disponíveis como preditores.

De maneira que o teste 1 além de todos os perfis de poços, a profundidade foi usada

como preditor. No teste 2 a profundidade não é usada como preditor. No teste 3 o perfil

efeito fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) não são usados como

preditores devido a um menor número de profundidades em que esses dados estão

disponíveis. No teste 4 os dados do perfil efeito fotoelétrico (Hugoton e Panoma), perfil

sônico (Namorado) e medidas de profundidade foram excluídos como preditores.

Foram realizados ainda dois testes adicionais. Esses testes são considerados

adicionais, pois os dados necessitaram ser novamente carregados no Matlab para que

as linhas (profundidades) com dados faltantes pudessem ser excluídas da massa de

dados utilizando a ferramenta de importação de dados do software. O teste 5 foi

realizado com a exclusão das profundidades em que medidas para o perfil efeito

fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) não foram obtidas mas

todos os preditores disponíveis utilizados. E o teste 6 excluindo as profundidades em

que medidas para o perfil efeito fotoelétrico (Hugoton e Panoma) e perfil sônico

(Namorado) não foram obtidas mas todos os preditores disponíveis utilizados, com

exceção das medidas de profundidade.

A exclusão de linhas com dados faltantes da massa de dados pôde ser feita dentro da

própria ferramenta de importação de dados para o Matlab (testes 5 e 6), a seleção de

56

preditores utilizados em cada teste pôde ser feita dentro do aplicativo Classification

Learner (testes 3 e 4). Para os campos de Hugoton e Panoma, 917 profundidades com

dados faltantes para o efeito fotoelétrico (PE) foram excluídas nos testes 5 e 6. Para o

campo de Namorado, 759 profundidades com dados faltantes para o perfil sônico (DT)

foram excluídas nos testes 5 e 6.

Na Tabela 5.2 são descritos todos os testes realizados. No próximo capítulo são

mostrados os resultados obtidos em cada um destes testes nos 2 experimentos.

Tabela 5.2 - Descrição dos testes realizados nos dois experimentos

Testes Realizados

#

Descrição

1 Todos os dados dos poços foram utilizados como preditores;

2 Todos os dados dos poços foram utilizados como preditores, com exceção das medidas de profundidade;

3 Excluindo os dados do perfil efeito fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) como preditores;

4 Excluindo os dados do perfil efeito fotoelétrico (Hugoton e Panoma), perfil sônico (Namorado) e medidas de profundidade como preditores;

Testes adicionais

#

5 Excluindo as profundidades em que medidas para o perfil efeito fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) não foram obtidas mas todos os preditores disponíveis utilizados;

6 Excluindo as profundidades em que medidas para o perfil efeito fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) não foram obtidas mas todos os preditores disponíveis utilizados, com exceção das medidas de profundidade.

5.2 Validação dos testes realizados

Como forma de reduzir os riscos de ocorrência do problema de overfitting e ao mesmo

tempo evitar a necessidade de realizar novas rodadas em cada teste para determinar a

acurácia dos modelos treinados em dados não utilizados durante o treinamento, foi

escolhido o método de validação cruzada K-fold com 10 partições (ver seção 2.3.3). A

57

massa de dados para os dois experimentos é reduzida, e a exclusão de alguns poços

do conjunto de dados de treinamento para realização de um posterior teste cego

reduziria ainda mais a massa de dados. Isso traria efeitos adversos à qualidade de

previsão e poderia agravar ainda mais o problema de baixa representação das fácies

com menor número de amostras. Além disso, o método de validação utilizado é

considerado capaz de demonstrar o comportamento aproximado de um modelo treinado

quando aplicado em fazer previsões em dados novos [8].

Como medida de avaliação de qualidade para comparação entre os diversos testes foi

utilizada a acurácia. Para comparação da eficiência de previsão classe-a-classe foram

utilizadas matrizes de confusão e o cálculo do fator F1-score.

58

6 Resultados obtidos

Nesse capítulo são apresentados os resultados obtidos para os seis testes realizados

em cada um dos dois experimentos, como descrito no capítulo 5. As figuras 6.1 à 6.12

trazem a acurácia obtida para cada uma das 22 técnicas utilizados em cada teste.

EXPERIMENTO 1 – TESTE 1

Figura 6.1 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 1, experimento 1 (dados para os campos Hugoton e Panoma)

59





60





61




Figura 6.7 - Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 1, experimento 2 (dados para o campo Namorado)

62



Figura 6.8 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 2, experimento 2 (dados para o campo Namorado)


63




Figura 6.11 - Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 5, experimento 2 (dados para o campo Namorado)

64


As tabelas 6.1 (experimento 1) e 6.2 (experimento 2) trazem um resumo das acurácias

mostradas nas figuras anteriores. Um mapa de calor permite uma análise dos melhores

resultados obtidos para cada experimento. Os três melhores resultados obtidos estão

assinalados em amarelo nas tabelas. Estes resultados serão detalhados no próximo

capítulo.


65

Tabela 6.1 - Resumo dos resultados obtidos para as 22 técnicas utilizadas para os seis testes realizados para o experimento 1 (dados dos campos de Hugoton e Panoma)

Teste 1 Teste 2 Teste 3 Teste 4 Teste 5 Teste 6

Fine tree 62.2% 60.5% 61.0% 59.4% 62.3% 61.3%

Medium tree 55.0% 54.8% 55.1% 54.8% 56.0% 56.1%

Coarse Tree 49.8% 49.8% 49.8% 49.8% 49.0% 49.0%

Linear discriminant 50.9% 50.4% 52.9% 52.6% 57.4% 56.6%

Quadratic discriminant

Linear SVM 48.7% 48.3% 54.2% 54.4% 59.4% 58.9%

Quadratic SVM 54.2% 51.6% 62.1% 60.5% 66.2% 63.5%

Cubic SVM 60.4% 57.7% 68.3% 64.7% 73.5% 71.0%

Fine Gaussian SVM 63.0% 61.6% 76.0% 72.3% 78.1% 76.4%

Median gaussian SVM 56.4% 54.3% 65.7% 63.1% 69.4% 67.3%

Coarse gaussian SVM 47.3% 46.6% 54.2% 54.6% 58.3% 57.5%

Fine KNN 67.7% 66.1% 77.5% 73.1% 79.4% 77.3%

Medium KNN 62.5% 61.7% 69.3% 67.3% 72.9% 71.5%

Coarse KNN 53.5% 52.4% 58.8% 58.2% 61.5% 60.9%

Cosine KNN 62.4% 60.7% 69.5% 66.8% 73.0% 71.3%

Cubic KNN 61.8% 61.0% 68.5% 67.0% 71.9% 70.4%

Weighted KNN 67.9% 66.4% 76.2% 72.9% 79.4% 77.4%

Boosted trees 58.2% 57.4% 57.7% 57.3% 59.1% 57.8%

Bagged trees 75.8% 71.5% 76.6% 70.9% 79.1% 75.6%

Subspace discriminant 52.4% 53.2% 50.2% 47.9% 52.7% 52.3%

Subspace KNN 74.1% 57.7% 73.3% 56.5% 74.6% 60.1%

RUSBoosted trees 53.8% 52.2% 54.8% 51.6% 56.5% 54.7%

66

Tabela 6.2 – Resumo dos resultados obtidos para as 22 técnicas utilizadas para os seis testes realizados para o experimento 2 (dados do campo de Namorado)

Teste 1 Teste 2 Teste 3 Teste 4 Teste 5 Teste 6

Fine tree 70.2% 63.2% 74.1% 67.0% 77.6% 69.6%

Medium tree 64.5% 60.7% 68.1% 65.1% 70.8% 66.7%

Coarse Tree 53.3% 53.3% 54.6% 54.3% 57.3% 57.8%

Linear discriminant 44.2% 44.1% 53.2% 52.7% 55.8% 55.0%

Quadratic discriminant 49.8% 50.4% 61.0% 60.9% 61.2% 60.2%

Linear SVM 45.2% 45.1% 58.4% 58.0% 56.7% 56.2%

Quadratic SVM 59.5% 55.7% 72.7% 67.4% 75.0% 70.0%

Cubic SVM 64.6% 57.9% 78.2% 69.9% 81.9% 74.1%

Fine Gaussian SVM 65.0% 60.7% 82.2% 73.9% 82.3% 76.8%

Median gaussian SVM 59.3% 55.9% 73.9% 68.8% 76.0% 70.3%

Coarse gaussian SVM 48.6% 47.1% 61.3% 58.8% 61.5% 59.1%

Fine KNN 66.2% 60.9% 80.0% 70.5% 82.6% 75.2%

Medium KNN 62.1% 58.4% 77.2% 70.2% 77.3% 71.7%

Coarse KNN 55.3% 53.6% 68.0% 65.4% 68.9% 65.6%

Cosine KNN 62.2% 58.4% 75.8% 68.5% 76.9% 71.2%

Cubic KNN 61.8% 57.8% 76.8% 70.1% 76.9% 72.0%

Weighted KNN 65.4% 61.2% 81.2% 73.3% 81.9% 75.2%

Boosted trees 66.6% 60.8% 71.7% 65.9% 73.7% 68.1%

Bagged trees 80.0% 69.9% 84.9% 73.2% 85.1% 75.8%

Subspace discriminant 52.1% 52.0% 52.7% 51.2% 52.9% 53.0%

Subspace KNN 81.7% 56.5% 81.1% 56.1% 80.0% 58.8%

RUSBoosted trees 64.9% 58.5% 65.8% 59.5% 71.9% 63.0%

67

7 Análise de resultados

Nesse capítulo serão analisados os resultados obtidos para os experimentos com dados

dos campos Hugoton e Panoma (experimento 1) e campo de Namorado (experimento

2) mostrados no capítulo 6. Será observado o desempenho dos melhores

classificadores para prever cada fácies individualmente através das matrizes de

confusão e como a distribuição assimétrica do número de observações por fácies afeta

os resultados. Também serão discutidos os efeitos que a adição ou não dos dados de

profundidade traz para a classificação de fácies, assim como o efeito causado pela

exclusão dos perfis de poço que não foram corridos para todas as profundidades

estudadas. Por fim, os resultados obtidos nesse trabalho serão comparados aos

resultados obtidos por estudos anteriores através do cálculo do fator de avaliação de

qualidade F1-score conforme definição dada no capítulo 2.

7.1 Matrizes de confusão

A matriz de confusão é uma forma comum de apresentar os resultados para problemas

de aprendizagem supervisionada em Aprendizagem de Máquina. A matriz apresenta

duas dimensões: fácies real e fácies prevista. Nesse estudo, a fácies real é aquela

atribuída durante a análise de testemunho e que faz parte do conjunto de dados

utilizado. A fácies prevista é aquela atribuída por um dos modelos treinados.

Essas matrizes apresentam de uma forma visual os casos em que para uma dada

profundidade o modelo treinado confunde, ou atribui erroneamente, uma fácies prevista

diferente da fácies real.

Da forma como as matrizes de confusão estão apresentadas, elas trazem duas

informações. O percentual de positivos verdadeiros e o percentual de falsos negativos,

ou erros do tipo II (ver seção 2.3.4). Para cada fácies real, ou cada linha da tabela, os

68

positivos verdadeiros representam o percentual de vezes em que uma fácies foi

corretamente prevista pelo modelo treinado. Esses percentuais estão pintados em verde

e se encontram na diagonal principal da matriz. Os falsos negativos representam o

percentual de vezes em que dada fácies real foi confundida com outra fácies na previsão

do modelo treinado. Apresentada dessa forma, cada linha da matriz confusão soma

100%.

Alternativamente, a matriz confusão poderia trazer valores absolutos. Dessa forma,

cada linha somaria o número de vezes em que uma fácies real foi prevista, de forma

correta ou não. Outra alternativa, seria a construção da matriz com os percentuais

somando 100% em colunas. Dessa forma, estaríamos observando os percentuais de

positivos verdadeiros e falsos positivos, ou erros do tipo I. Os falsos positivos

representam o percentual de vezes em que dada fácies prevista é diferente da fácies

real.

7.1.1 Experimento 1 – Campos de Hugoton e Panoma

Como pode ser visto na Tabela 6.1, o teste 5 obteve os três melhores resultados no

experimento utilizando os dados para os campos de Hugoton e Panoma (experimento

1) com as técnicas Fine KNN, Weighted KNN e Bagged trees. As Figuras 7.1, 7.2 e 7.3

trazem as matrizes de confusão com o resultado obtido por essas três técnicas no teste

5. Essas matrizes de confusão apresentam os percentuais de verdadeiros positivos e

falsos negativos – métrica conhecida como revocação ou recall.

Como visto anteriormente, no teste 5 foram excluídas as informações para as

profundidades em que o perfil efeito fotoelétrico (PE) não foi medido. O melhor resultado

obtido utilizou a técnica Fine KNN obtendo acurácia equivalente a 79.4%. Esse resultado

está apresentado na Figura 7.1. As Figuras 7.2 e 7.3 apresentam as matrizes de

confusão para o segundo e terceiro melhores resultados obtidos nesse experimento.

Ambos resultados também foram obtidos no teste 5 o qual segue a metodologia de

69

excluir as informações para as profundidades em que o perfil efeito fotoelétrico (PE) não

foi medido. As técnicas Weighted KNN e Bagged Trees obtiveram acurácias de 79.4%

e 79.1%, respectivamente.

Figura 7.1 – Matriz de confusão para os campos Hugoton e Panoma durante o teste 5 utilizando a técnica Fine KNN – todos os

preditores foram utilizados, incluindo os dados de profundidade, porém excluiu-se as profundidades em que não foi medido o perfil

efeito fotoelétrico (PE)

70

Figura 7.2 – Matriz de confusão para os campos Hugoton e Panoma durante o teste 5 utilizando a técnica Weighted KNN –

todos os preditores foram utilizados, incluindo os dados de profundidade, porém excluiu-se as profundidades em que não foi

medido o perfil efeito fotoelétrico (PE)

71

Os três melhores resultados foram todos obtidos no teste 5, em que todos os preditores

foram utilizados – incluindo os dados de profundidade, os cinco perfis de poço, a

classificação entre sequência deposicional marinha ou não-marinha e posição relativa

à profundidade em que ocorreu a última alternância entre sequência marinha e não-

marinha – porém, as profundidades em que as medidas do perfil efeito fotoelétrico (PE)

não foram obtidas foram excluídas.

As técnicas utilizadas foram duas variações de K-vizinho mais próximo (Fine KNN e

Weighted KNN) e um Método Ensemble (Bagged Trees). As acurácias obtidas foram

79,4% para ambos as variações de K-vizinho Mais Próximo e 79,1% para o Método

Ensemble.

Figura 7.3 - Matriz de confusão para os campos Hugoton e Panoma durante o teste 5 utilizando a técnica Bagged Trees – todos os preditores foram utilizados, incluindo os dados de

profundidade, porém excluiu-se as profundidades em que não foi medido o perfil efeito fotoelétrico (PE)

72

Vale notar que as fácies 1, 2 e 3 são raramente previstas por engano como uma das

outras seis fácies. Essas três fácies caracterizam rochas depositadas em ambiente

deposicional não-marinho. Essa informação foi incluída no conjunto de preditores

através do marcador binário marinho ou não-marinho (NM-M) e demonstra a importância

de incluir informações conhecidas a priori como dado de entrada.

7.1.2 Experimento 2 – Campo de Namorado

Como pode ser visto na Tabela 6.2, os testes que obtiveram os três melhores resultados

no experimento 2 foram o teste 3 e o teste 5 utilizando as técnicas Fine KNN e Bagged

Trees. As Figuras 7.4, 7.5 e 7.6 trazem as matrizes de confusão destas três técnicas.

De forma similar a seção anterior, essas matrizes de confusão apresentam os

percentuais de verdadeiros positivos e falsos negativos – métrica conhecida como

revocação ou recall.

Como visto anteriormente, o teste 5 excluiu as informações para as profundidades em

que o perfil sônico (DT) não foi medido. A Figura 7.4 apresenta o melhor resultado obtido

no experimento 2. Esse resultado foi obtido no teste 5 com a técnica Bagged Trees e

obtendo acurácia equivalente a 85.1%. A Figura 7.5 apresenta a matriz de confusão

para o segundo melhor resultado obtido nesse experimento. O resultado foi obtido no

teste 3 também aplicando a técnica Bagged Trees porém seguindo a metodologia de

excluir todas as informações para o perfil sônico (DT). Dessa forma foi obtida uma

acurácia de 84.9%. A Figura 7.6 apresenta a matriz de confusão para o terceiro melhor

resultado obtido nesse experimento. O resultado foi obtido no teste 5 dessa vez

aplicando a técnica Fine KNN com a exclusão de todas as profundidades com medidas

faltantes para o perfil sônico (DT). Dessa forma foi obtida uma acurácia de 82.6%.

73

Figura 7.4 - Matriz de confusão para o campo Namorado durante o teste 5 utilizando a técnica Bagged Trees – todos os preditores foram

utilizados, incluindo os dados de profundidade, porém excluiu-se as profundidades em que não foi medido o perfil sônico (DT)

74

Figura 7.5 – Matriz de confusão para o campo Namorado durante o teste 3 utilizando a técnica Bagged Trees – apenas o perfil sônico não

foi utilizado como preditor

75

Para o campo de Namorado, novamente o teste 5 apresentou boa parte dos melhores

resultados. Para o conjunto de dados de Namorado, nesse teste, foram excluídas as

observações em que o perfil sônico (DT) não foi corrido. Porém, um dos três melhores

resultados ocorreu no teste 3, em que todos os dados do perfil sônico (DT) foram

excluídos, porém dessa forma nenhuma das observações é excluída do conjunto de

dados.

No teste 5, novamente as técnicas mais bem sucedidas foram variações do K-vizinho

mais próximo (Fine KNN) e de um Método Ensemble (Bagged Trees). Eles obtiveram

acurácia de 82,6% e 85,1%, respectivamente. No teste 3, um Método Ensemble

(Bagged Trees) obteve o melhor resultado com acurácia de 84,9%.

Figura 7.6 – Matriz de confusão para o campo Namorado durante o teste 5 utilizando a técnica Fine KNN – todos os preditores foram utilizados,

incluindo os dados de profundidade, porém excluiu-se as profundidades em que não foi medido o perfil sônico (DT)

76

7.2 Comparação entre as técnicas e testes

Essa seção apresenta uma comparação do desempenho das técnicas de classificação.

Essa comparação foi feita a partir dos resultados obtidos no experimento 1 (campos de

Hugoton e Panoma) e no experimento 2 (campo de Namorado). De maneira que é

mostrado um resumo da acurácia obtida por cada uma das 22 técnicas de

Aprendizagem de Máquina nos seis testes realizados para cada um dos experimentos.

Além disso, serão discutidos fatores que influenciaram os resultados obtidos em ambos

os experimentos.

A assimetria no número de observações para cada fácies não apresentou uma

relação direta com a qualidade da previsão de fácies.

De forma geral, o uso da informação de profundidade como um preditor trouxe

uma melhoria dos resultados, conforme testes 1, 3 e 5.

A ausência de dados para algumas profundidades causou um efeito negativo ao

desempenho de previsão. A exclusão dos preditores que não tinham o conjunto

de dados completo, conforme testes 3 e 4, ou a exclusão das profundidades que

não possuíam medidas registradas para todos os preditores, conforme testes 5

e 6, resultaram em melhora significativa dos resultados para a maioria das 22

técnicas testadas.

7.2.1 Comparação do desempenho das técnicas de Aprendizagem

de Máquina

A Figura 7.7 mostra o desempenho das 22 técnicas aplicadas aos seis testes realizados

para o experimento 1 (campos de Hugoton e Panoma). Na Figura 7.8, o gráfico da Figura

7.7 foi desmembrado em cinco gráficos para melhor visualização dos resultados. Para

77

o desmembramento, as 22 técnicas foram separadas em cinco grupos – Árvores de

Decisão, Análise Discriminante, Support Vector Machine (SVM), K-vizinho mais próximo

e Métodos Ensemble.

40.0%

45.0%

50.0%

55.0%

60.0%

65.0%

70.0%

75.0%

80.0%

1 2 3 4 5 6

Número do teste

Fine tree

Medium tree

Coarse Tree

Linear discriminant

Quadratic discriminant

Linear SVM

Quadratic SVM

Cubic SVM

Fine Gaussian SVM

Median gaussian SVM

Coarse gaussian SVM

Fine KNN

Medium KNN

Coarse KNN

Cosine KNN

Cubic KNN

Weighted KNN

Boosted trees

Bagged trees

Subspace discriminant

Subspace KNN

RUSBoosted trees

Figura 7.7 – Comparação de resultados para os testes 1 à 6 realizados para o experimento 1 (campos de Hugoton e Panoma)

78

Pode ser notado nas Figuras 7.7 e 7.8 que as técnicas Bagged Trees, Fine KNN,

Weighted KNN e Fine Gaussian SVM obtiveram o melhor desempenho. Além disso, os

testes com melhor desempenho alcançado foram os 5 e 6.

Figura 7.8 Comparação de resultados para os testes 1 à 6 realizados para o experimento 1 (campos de Hugoton e Panoma) e agrupados por Árvores de

Decisão, Análise Discriminante, SVM, K-Vizinho Mais Próximo e Métodos Ensemble

40%

45%

50%

55%

60%

65%

70%

75%

80%

1 2 3 4 5 6

Número do teste

40%

45%

50%

55%

60%

65%

70%

75%

80%

1 2 3 4 5 6Número do teste

40%

45%

50%

55%

60%

65%

70%

75%

80%

1 2 3 4 5 6

Número do teste

40%

45%

50%

55%

60%

65%

70%

75%

80%

1 2 3 4 5 6

Número do teste

40%

45%

50%

55%

60%

65%

70%

75%

80%

1 2 3 4 5 6

Número do teste

79

As Figuras 7.9 e 7.10 são similares às 7.7 e 7.8, porém mostram os resultados obtidos

para o experimento 2 (campo de Namorado). A Figura 7.9 traz os resultados obtidos

pelas 22 técnicas de Aprendizagem de Máquina aplicadas em seis testes realizados

com o conjunto de dados para o campo de Namorado. A Figura 7.10, apresenta esses

mesmos resultados com as técnicas reunidas em cinco grupos – Árvores de Decisão,

Análise Discriminante, Support Vector Machine (SVM), K-vizinho mais próximo e

Métodos Ensemble – para uma melhor visualização dos resultados.

40.0%

45.0%

50.0%

55.0%

60.0%

65.0%

70.0%

75.0%

80.0%

85.0%

90.0%

1 2 3 4 5 6

Número do teste

Fine treeMedium treeCoarse TreeLinear discriminantQuadratic discriminantLinear SVMQuadratic SVMCubic SVMFine Gaussian SVMMedian gaussian SVMCoarse gaussian SVMFine KNNMedium KNNCoarse KNNCosine KNNCubic KNNWeighted KNNBoosted treesBagged treesSubspace discriminantSubspace KNNRUSBoosted trees

Figura 7.9 – Comparação de resultados para os testes 1 à 6 realizados para o experimento 2 (campo de Namorado)

80

As Figuras 7.9 e 7.10 mostram que a técnica que obteve o melhor desempenho no

experimento 2 foi Bagged Trees. Além disso, os melhores desempenhos foram

alcançados nos testes 3 e 5.

Figura 7.10 - Comparação de resultados para os testes 1 à 6 realizados para o experimento 2 (campo de Namorado) e agrupados por Árvores de Decisão, Análise Discriminante, SVM, K-Vizinho Mais Próximo e Métodos Ensemble

40.0%

45.0%

50.0%

55.0%

60.0%

65.0%

70.0%

75.0%

80.0%

85.0%

1 2 3 4 5 6

Número do teste

40.0%

45.0%

50.0%

55.0%

60.0%

65.0%

70.0%

75.0%

80.0%

85.0%

1 2 3 4 5 6

Número do teste

40.0%

45.0%

50.0%

55.0%

60.0%

65.0%

70.0%

75.0%

80.0%

85.0%

1 2 3 4 5 6

Número do teste

40.0%

45.0%

50.0%

55.0%

60.0%

65.0%

70.0%

75.0%

80.0%

85.0%

1 2 3 4 5 6

Número do teste

40.0%

45.0%

50.0%

55.0%

60.0%

65.0%

70.0%

75.0%

80.0%

85.0%

1 2 3 4 5 6

Número do teste

81

Como uma conclusão das Figuras 7.7 à 7.10 podemos ver que a técnica Bagged Trees

está entre as técnicas de melhor desempenho nos dois experimentos, e além disso o

teste 5 foi o mais bem avaliado.

7.2.2 Desequilíbrio no número de observações para cada fácies

Nos dois experimentos existe uma assimetria no número de observações disponíveis

para cada uma das fácies, com algumas das fácies estando mais bem representadas

dentro da massa de dados. Com isso, era esperado que os classificadores

apresentassem melhor desempenho na previsão das fácies com maior número de

informações sobre elas. Porém, isso não ocorreu para os dois experimentos.

As Figuras 7.11 e 7.12 apresentam como o número de observações para cada fácies

está distribuído. Para o experimento 1 (campos de Hugoton e Panoma), as fácies mais

presentes são as 2, 3, 6 e 8. Entretanto, para as matrizes de confusão nas Figuras 7.1,

7.2 e 7.3 podemos observar que as fácies mais bem previstas foram a 9, 2, 1 e 3.

Para o experimento 2 (campo de Namorado) houve uma dependência maior entre o

número de observações e quão bem as fácies foram previstas. As fácies mais presentes

e mais bem previstas – conforme pode ser visto nas Figuras 7.4, 7.5 e 7.6 – foram as 2

e 7.

82

O Método Ensemble RUSBoost foi criado, originalmente, para lidar com essa assimetria

na distribuição das observações. Durante o treinamento, ele realiza uma amostragem

aleatória dos dados na qual seleciona N observações de cada fácies durante os passos

de treinamento. N é o número de observações disponíveis para a fácies com a menor

quantidade de dados disponível sobre ela. Por nesse processo excluir muitos dados de

uma massa de dados já reduzida, ele não apresentou uma melhora de desempenho em

relação aos outros classificadores.

7.2.3 Utilização dos dados de profundidade

Alimentar o classificador com informações prévias sobre as fácies aumenta a qualidade

de previsão. O conhecimento geológico sobre o campo ou bacia pode ser utilizado com

esse fim. As fácies tendem a estar presentes somente em determinados ambientes de

deposição, formações ou profundidades. Existe um caráter sequencial de deposição dos

sedimentos ao longo do tempo geológico, e isso é refletido na coluna estratigráfica de

um campo ou bacia.

16%

222%

319%

47%

57%

614%

73%

818%

94%

1

2

3

4

5

6

7

8

9

Figura 7.11 - Distribuição do número de observações por fácies para a massa de dados dos campos de

Hugoton e Panoma

15%

228%

33%

412%5

7%

615%

730%

1

2

3

4

5

6

7

Figura 7.12 - Distribuição do número de observações por fácies para a massa de

dados do campo de Namorado

83

Diversos autores propõem metodologias para representar esse caráter sequencial de

deposição, uma informação que colocada como dado de entrada para um classificador

pode ter um efeito benéfico no desempenho de previsão.

Para os campos de Hugoton e Panoma, DUBOIS et al. [1] propôs dois indicadores

geológicos resultantes de conhecimento prévio da região estudada. Para os dois

campos estudados há uma alternância entre ambientes de deposição marinhos e não

marinhos, e o padrão de empilhamento vertical desses ciclos é bem previsível com o

conhecimento geológico adquirido da região. Com isso, foram criados os indicadores

marinho (M) e não-marinho (NM) e a posição relativa (RelPos). Esse último mede a

profundidade em relação ao ponto imediatamente superior de alternância entre

ambiente marinho e não-marinho.

Para o campo de Namorado, uma separação em cinco zonas foi proposta por Faria et

al. (2001) apud CARVALHO [31]. A criação das zonas é baseada no conhecimento da

existência de cinco formações que aparecem sempre na mesma sequência, com as

cinco formações podendo estar presentes ou não em todos os poços. Cada uma das

cinco formações apresentam um padrão distinto para os parâmetros porosidade nêutron

(NPHI) e densidade aparente da formação (RHOB). CARVALHO [31] ressalta a

importância de adicionar uma informação de localidade no modelo preditivo. O indicador

geológico proposto para o campo de Namorado não foi utilizado neste trabalho.

84

Para este trabalho, foi proposta a utilização da profundidade como indicador de

localidade. A profundidade foi incluída como preditor nos testes 1, 3 e 5, como descrito

anteriormente. As Figuras 7.13 e 7.14 apresentam a distribuição das fácies por

profundidade. Com uma análise rápida dos gráficos já é possível perceber que algumas

fácies não estão presentes em todas as profundidades, e essa é uma informação que

pode contribuir a eficiência do classificador.

A escolha da profundidade como preditor teve um impacto muito importante no

desempenho das classificações realizadas. Podemos notar nas Figuras 7.7 à 7.10 que

as classificações realizadas nos testes 1, 3 e 5, nos quais a profundidade foi

considerada como preditor, obtiveram um desempenho superior as classificações

realizadas nos testes 2, 4 e 6. A despeito de estudos mais aprofundados, a descoberta

é muito importante.

0 200 400 600

2560-2590

2590-2620

2620-2650

2650-2680

2680-2710

2710-2740

2740-2770

2770-2800

2800-2830

2830-2860

2860-2890

2890-2920

2920-2950

2950-2980

2980-3010

3010-3040

3040-3070

3070-3100

3100-3130

3130-3160

3160-3190

Número de observações

Pro

fundid

ade (

pés)

1

2

3

4

5

6

7

8

9

Figura 7.13 – Distribuição das fácies por profundidade para o experimento

1 (campos de Hugoton e Panoma)

0 100 200 300 400

3000-3015

3015-3030

3030-3045

3045-3060

3060-3075

3075-3090

3090-3105

3105-3120

3120-3135

3135-3150

3150-3165

3165-3180

3180-3195

3195-3210

3210-3225

3225-3240

3240-3255

3270-3285

3285-3300

3300-3315

3315-3330

3345-3360

3360-3375

Número de observações

Pro

fundid

ade (

metr

os)

1

2

3

4

5

6

7

Figura 7.14 – Distribuição das fácies por profundidade para o experimento

2 (campo de Namorado)

85

7.2.4 Exclusão das profundidades e preditores com dados faltantes

É comum que nem todos os perfis de poços sejam corridos em todos os poços ou por

toda a profundidade de interesse dos poços. Isso ocorreu tanto para a massa de dados

dos campos de Hugoton e Panoma quanto para o campo de Namorado. Cada técnica

de Aprendizagem de Máquina lida de uma forma diferente com os dados faltantes.

Árvores de Decisão, por exemplo, podem adaptar a forma como se ramificam a partir

de um nó para acomodar a falta de um preditor para parte do conjunto de dados. Com

isso, podemos observar nas Tabelas 6.1 e 6.2 como a diferença na acurácia entre os

testes 1-2 e demais testes é menor para as Árvores de Decisão quando comparado as

técnicas KNN e SVM, por exemplo.

Para o experimento 1, os dados do perfil efeito fotoelétrico (PE) e para o experimento 2,

os dados do perfil sônico (DT) não estão disponíveis para todos os poços e

profundidades utilizados nesse estudo. Devido à dificuldade que algumas técnicas de

Aprendizagem de Máquina apresentam, como descrito no parágrafo anterior, foram

propostos dois tratamentos para a falta de dados. Para os experimentos 3 e 4, os dados

para esses dois preditores – perfil efeito fotoelétrico (PE) e perfil sônico (DT) – foram

excluídos por completo. Para os experimentos 5 e 6, os poços e profundidades em que

esses dois perfis não foram corridos foram excluídas das respectivas massas de dados.

Esse procedimento foi adotado para determinar qual dos dois tratamentos propostos

resultaria em uma maior melhora do desempenho das técnicas de Aprendizagem de

Máquina.

De forma geral, a remoção das profundidades e preditores sem o conjunto de dados

completo causou uma melhora nos resultados. Para os testes 3 e 4 foram excluídos por

completo os preditores com dados faltantes – PE para o experimento 1 e DT para o

experimento 2. Para os testes 5 e 6 foram excluídas as profundidades com dados de

PE (experimento 1) ou DT (experimento 2) faltantes. Apesar dos índices de correlação

86

relativamente altos para esses preditores em relação aos demais preditores de seus

respectivos experimentos, a perda da informação completa de um preditor (testes 3 e

4) se mostrou mais valiosa que a perda da informação para algumas profundidades

(testes 5 e 6) para ambos os experimentos. Com isso, com poucas exceções, os testes

5 e 6 apresentaram melhores resultados que os testes 3 e 4.

7.3 Comparação com estudos anteriores

Como forma de validar os resultados obtidos, nesta seção são realizadas comparações

(benchmark studies) do desempenho dos três melhores classificadores para cada um

dos dois experimentos realizados nesse estudo contra os resultados obtidos em estudos

anteriores que fizeram os mesmos experimentos.

É importante notar que alguns autores reportaram somente o desempenho dos modelos

treinados em um teste cego, ou seja, quando se realiza um teste do modelo treinado em

dados que não foram utilizados durante o treinamento. Para este estudo, o teste cego

não foi realizado e, portanto, as métricas de avaliação da qualidade de previsão foram

obtidas durante o treinamento com a validação cruzada. É esperado que durante o teste

cego o modelo treinado apresente um desempenho abaixo do alcançado durante a

validação e a comparação pode se tornar um pouco injusta. Como exemplo,

SHASHANK e MAHAPATRA [8] reportaram o F1-score médio para validação e para o

teste cego. Durante o teste cego, o F1-score médio foi de 10 a 12 pontos percentuais

menor comparado ao obtido durante o treinamento com validação cruzada.

Para os campos de Hugoton e Panoma (experimento 1), foram utilizados para

comparação os resultados obtidos por HALL [3], BESTAGINI e LIPARI et al. [2],

SHASHANK e MAHAPATRA [8] e resultados da competição internacional apresentados

em HALL e HALL [4]. Os resultados apresentados nas tabelas 7.1, 7.2 e 7.3 para HALL

[3] e HALL e HALL [4] foram obtidos em testes cegos. Os resultados apresentados para

87

BESTAGINI e LIPARI et al. [2] e SHASHANK e MAHAPATRA [8] foram obtidos em

treinamento.

Para o campo de Namorado, os resultados são comparados ao trabalho de CARVALHO

[31]. Os resultados apresentados por CARVALHO [31] foram obtidos em testes cegos.

Também são apresentados os resultados de outros estudos em que fácies semelhantes

foram agrupadas de forma a tornar o problema menos complexo.

Como mencionado na metodologia, o critério adotado para comparação com estudos

anteriores foi o F1-score. De maneira que, HALL [3] obteve um F1-score médio de 43%

ao aplicar uma SVM com função Kernel Gaussiana (Gaussian SVM), o parâmetro σ

com valor um e o parâmetro de margem flexível (C) com valor 10. Os dados de um dos

12 poços disponíveis foram reservados para realização de um teste cego com o modelo

treinado e 5% das amostras dos 11 poços restantes foram colocados à parte para

cálculo do erro de validação durante a fase de treinamento. A comparação entre o

resultado obtido nesse experimento, e os três classificadores de melhor desempenho

para o experimento 1 (campos de Hugoton e Panoma) desse trabalho estão

apresentados na Tabela 7.1.

Tabela 7.1- F1-score para os três melhores classificadores para o experimento 1 (dados dos campos Hugoton e Panoma) comparados aos resultados obtidos no

experimento realizado por HALL [3]

Fácies Teste 5 - Fine KNN

Teste 5 - Weighted KNN

Teste 5 - Bagged Trees

HALL [3] - SVM

1 84% 84% 84% 12%

2 83% 84% 84% 48%

3 81% 82% 82% 58%

4 77% 76% 76% 27%

5 67% 67% 67% 13%

6 74% 75% 75% 59%

7 81% 79% 79% 42%

8 77% 77% 77% 49%

9 91% 89% 89% 0%

F1-score médio 80% 79% 79% 43%

88

Como pode ser visto na Tabela 7.1 os resultados obtidos neste trabalho são bem

superiores aos resultados obtidos por HALL [3], com quase o dobre de acerto feito em

quase todas as classificações realizadas.

Os demais trabalhos apresentaram somente o F1-score médio, sem apresentar o

detalhe dos resultados obtidos por fácies. BESTAGINI e LIPARI et al. [2] obtiveram o

terceiro melhor resultado no concurso internacional apresentado em HALL e HALL [4]

com um F1-score médio de 61% aplicando um Método Ensemble conhecido como

Gradient Boosted Trees e validação cruzada com 10 partições – mesma opção

escolhida no presente trabalho. Os autores não realizaram nenhum tratamento para as

profundidades em que o perfil efeito fotoelétrico (PE) não foi medido, o que poderia ter

contribuído para melhores resultados. Ao invés disso, propuseram uma ampliação da

dimensão do espaço característico fazendo a multiplicação dois a dois, elemento a

elemento dos 7 preditores originais. Em HALL e HALL [4], o modelo treinado proposto

por BESTAGINI e LIPARI et al. [2] foi confrontado com dados de novos poços em um

teste cego no qual obtiveram um F1-score médio de 62%, demonstrando a eficiência da

validação cruzada para evitar o problema de overfitting. Os dois melhores resultados

apresentados em HALL e HALL [4] obtiveram F1-score médios de 63% e 64%, ambos

utilizando Métodos Ensemble – não especificados no artigo – com Árvores de Decisão

como classificadores base.

SHASHANK e MAHAPATRA [8] construíram o próprio Método Ensemble utilizando

como classificadores base uma Support Vector Machine, uma Extremely Randomized

Tree e uma Gradient Boosted Tree. Após diversos testes para realizar o ajuste fino de

cada um dos classificadores base, os autores obtiveram F1-score médio de 62%, 63%

e 61%. Os três classificadores base foram combinados com base em um sistema de

pesos atribuídos a cada um deles de forma a reduzir o erro de previsão. Dessa forma,

89

o F1-score durante a validação cruzada com 5 partições foi de 64%. Um resumo desses

resultados está apresentado na Tabela 7.2.

Tabela 7.2 - F1-score obtido para os três melhores classificadores para o experimento 1 (campos de Hugoton e Panoma) comparados a estudos

internacionais que utilizaram o mesmo conjunto de dados

Testes e Técnicas de Aprendizagem de Máquina F1-score médio

Teste 5 - Fine KNN 80%

Teste 5 - Weighted KNN 80%

Teste 5 - Bagged Trees 79%

HALL [3] - SVM 43%

BESTAGINI e LIPARI et al. [2] - Gradient Boosted Trees 61%

HALL e HALL [4] - Método Ensemble -1⁰ colocado 63%

HALL e HALL [4] - Método Ensemble -2⁰ colocado 64%

SHASHANK e MAHAPATRA [8] - SVM 62%

SHASHANK e MAHAPATRA [8] - Extremely Randomized Trees 63%

SHASHANK e MAHAPATRA [8] - Gradient Boosted Trees 61%

SHASHANK e MAHAPATRA [8] - Método Ensemble 64%

CARVALHO [31] implementou três técnicas de Aprendizagem de Máquina ao

apresentar uma solução para o problema de classificação de fácies com dados para o

campo de Namorado. As três técnicas utilizadas foram Supported Vector Machine, um

Método Ensemble denominado Random Forest similar a técnica Bagged Trees

implementada nesse trabalho, e K-vizinhos mais próximos. Foram propostos dois

procedimentos para lidar com as medidas faltantes do perfil sônico (DT) para algumas

profundidades. Para o primeiro (caso inicial), o perfil sônico (DT) não foi utilizado como

preditor. Para o segundo (caso final), os dados faltantes foram estimados com uma

técnica de regressão. Para o caso final ainda foi incluído um parâmetro de cálculo do

volume de folhelho baseado nos dados do perfil densidade nêutron (NPHI) e densidade

aparente da formação (RHOB), e um indicador de posição como descrito na seção 7.2.3.

Os fatores F1-score foram calculados baseado nas matrizes de confusão apresentadas

em CARVALHO [31] e estão apresentadas em conjunto com o F1-score para os três

melhores classificadores para o experimento 2 (campo de Namorado) na tabela 7.3.

90

Tabela 7.3 - F1-score obtido para os três melhores classificadores para o experimento 2 (campo de Namorado) comparados aos seis resultados obtidos

por CARVALHO [31]

Fácies 1 2 3 4 5 6 7

F1-score médio

Teste 5 - Bagged Trees 65% 81% 82% 82% 73% 84% 93% 80%

Teste 3 - Bagged Trees 64% 85% 78% 82% 71% 85% 93% 80%

Teste 5 - Fine KNN 64% 81% 70% 74% 73% 82% 91% 76%

CARVALHO [31] - SVM - Caso inicial 1% 71% 0% 47% 1% 54% 71% 35%

CARVALHO [31] - Random Forest - Caso inicial

4% 70% 16% 49% 1% 56% 69% 38%

CARVALHO [31] - KNN - Caso inicial 0% 72% 2% 43% 3% 56% 67% 35%

CARVALHO [31] - SVM - Caso final 1% 76% 0% 50% 0% 64% 76% 38%

CARVALHO [31] - Random Forest - Caso final

2% 75% 8% 46% 1% 56% 75% 38%

CARVALHO [31] - KNN - Caso final 3% 75% 7% 48% 4% 61% 75% 39%

Diversos autores utilizaram massas de dados semelhantes com poços para o campo de

Namorado. De forma geral, todos os autores partem da definição de fácies deposicionais

estabelecida pela Petrobras com 21 fácies presentes conforme descrito em BARBOZA

[29]. A partir daí, procedimentos distintos são adotados para agrupar as fácies de forma

mais prática à aplicação da classificação de fácies através da Aprendizagem de

Máquina, tornando o problema menos complexo. Este trabalho e CARVALHO [31]

adotaram o agrupamento proposto por BARBOZA [31] com sete fácies.

FLEXA e ANDRADE et al. [32] utilizaram a técnica Análise Discriminante para

diferenciar rochas selantes e reservatório para dois poços, sem cálculo de uma métrica

de avaliação de qualidade quando comparado a análise de testemunho. CUNHA [33]

utilizou a técnica de Redes Neurais Artificiais para realizar a classificação de fácies

baseada na correlação entre análise de testemunho e perfis de poço. Diante da

complexidade do problema, a autora testou diversos agrupamentos das fácies obtendo

acurácias superiores a 80%, porém nunca utilizando todas as fácies simultaneamente

em seus experimentos. NINCI [34] utilizou Lógica Fuzzy (Nebulosa) para resolver o

mesmo problema. A autora agrupou as fácies em quatro grupos baseados na

91

granulometria, cimentação, presença de folhelhos e probabilidade de serem rocha

reservatório. Os índices de acerto foram analisados poço a poço e variaram entre 29%

e 91%. O agrupamento distinto não permite a comparação dos resultados.

As Tabelas 7.1, 7.2, e 7.3 mostram que os resultados obtidos nas pesquisas realizadas

foram bem superiores aos resultados obtidos em todas as outras pesquisas realizadas

anteriormente. Com relação ao experimento 1, muitas pesquisas foram realizadas, uma

vez que houve, um concurso promovido pela revista The Leading Edge para

classificação de fácies dos poços de Hugoton e Panoma. E nenhum dos resultados

obtidos neste concurso foram superiores aos resultados obtidos nas pesquisas

realizadas.

Com relação ao experimento 2 também houveram diversos estudos usando os dados

de Namorado e da mesma forma os resultados obtidos não foram superiores aos

resultados obtidos nas pesquisas realizadas.

92

8 Sugestões para trabalhos futuros

A abordagem utilizada nesse trabalho, a princípio, mostrou-se bem sucedida quando

comparada ao desempenho relatado em estudos anteriores com problemas de

classificação de fácies utilizando técnicas de Aprendizagem de Máquina. Porém, alguns

tópicos poderiam ser explorados para ter uma melhora ainda maior dos resultados

obtidos.

Diversas técnicas de Aprendizagem de Máquina – como K-vizinho mais próximo –

trabalham com medidas de distância para determinar a similaridade dos pontos. A

padronização dos dados poderia trazer benefícios a qualidade de previsão. Ou seja,

subtrair elemento a elemento a média para cada preditor e logo após fazer a divisão

pelo desvio padrão. Isso faria com que todos os preditores tivessem média zero e desvio

padrão igual a um, tornando as distâncias entre pontos para cada dimensão do espaço

característico (cada preditor) mais comparável.

A estimativa dos dados faltantes para os preditores que não temos informação em todas

as profundidades – perfil efeito fotoelétrico (PE) para os campos de Hugoton e Panoma

e perfil sônico (DT) para o campo de Namorado – poderiam ser estimados através de

técnicas de regressão, como já realizado em outros trabalhos, ou técnicas mais

avançadas para estimativas de dados faltantes. Esse procedimento também poderia

trazer um efeito benéfico, evitando a exclusão de dados como aconteceu nos testes 3,

4, 5 e 6 para ambos os experimentos realizados.

Caso fossem disponibilizados dados para novos poços, a realização de teste cego com

esses poços daria a prova final de que a validação cruzada protegeu de forma eficiente

os modelos treinados do overfitting. Como discutido na seção 5.2, esse procedimento

foi evitado já que reduziria ainda mais as massas de dados já consideradas pequenas.

93

Outra abordagem que poderia ser adotada se deve as fácies não serem completamente

discretas. Em certas profundidades ocorre uma transição entre fácies vizinhas, e nessas

profundidades é esperado que ocorra um menor índice de acerto [4]. Diversos autores

propuseram considerar como um acerto a previsão de uma face vizinha por engano.

Esse pós-tratamento dos dados produz medidas de avaliação de qualidade altas. Como

exemplo, HALL [3] obteve um F1-score de 88% quando adotou esse critério comparado

a 43% quando esse critério não foi considerado. Esse critério não foi adotado nessa

monografia.

94

9 Conclusões

Neste trabalho foi apresentada uma comparação entre 22 técnicas de Aprendizagem de

Máquina em dois experimentos. Os dois conjuntos de dados – campos de Hugoton e

Panoma e campo de Namorado – foram escolhidos devido ao grande número de

trabalhos nacionais e internacionais que os utilizaram para estudar problemas de

classificação de fácies.

O aplicativo Classification Learner em Matlab foi escolhido por permitir que um grande

número de técnicas de Aprendizagem de Máquina fosse testado sob diferentes

configurações em um curtíssimo espaço de tempo e com necessidade mínima de

escrever códigos de programação.

A abordagem permitiu que fossem descobertas as melhores técnicas de Aprendizagem

de Máquina para lidar com os dois experimentos, o efeito positivo do uso da informação

de profundidade como indicador de posição dentro do poço e de que forma a exclusão

de amostras de dados e preditores afetam o desempenho dos classificadores.

Houve uma melhora significativa na qualidade da previsão de fácies quando comparada

a estudos anteriores. A abordagem proposta se mostrou bem sucedida para a análise

de duas massas de dados consideradas pequenas, porém pode se tornar inviável para

análise de um volume grande de dados devido ao tempo computacional requerido.

95

10 Bibliografia

[1] DUBOIS, M., BOHLING, G., CHAKRABARTI, S. “Comparison Of Four Approaches

To A Rock Facies Classification Problem”, Computers & Geosciences v. 33, n. 5, pp.

599-617, 2007.

[2] BESTAGINI, P., LIPARI, V., TUBARO, S., “A Machine Learning Approach To Facies

Classification Using Well Logs”. 2017 SEG International Exposition and Annual

Meeting, Houston, Estados Unidos, 24-29 Setembro 2017.

[3] HALL, B. “Facies Classification Using Machine Learning”, The Leading Edge v. 35,

n. 10, pp. 906–909, 2016.

[4] HALL, M., HALL, B. “Distributed Collaborative Prediction: Results Of The Machine

Learning Contest”, The Leading Edge v. 36, n. 3, pp. 267–269, 2017.

[5] BATEMAN, R., Openhole Log Analysis and Formation Evaluation. 2 ed.

Richardson, SPE, 2012.

[6] ELLIS, D., SINGER, J., Well logging for Earth Scientists. 2 ed. Dordrecht, Springer,

2007.

[7] SCHLUMBERGER OILFIELD GLOSSARY. PEF. Schlumberger Oilfield Glossary,

2019. Disponível em: <https://www.glossary.oilfield.slb.com/en/Terms/p/pef.aspx>.

Acesso em: 28 jul. 2019.

[8] SHASHANK, S., MAHAPATRA, P., “Boosting Rock Facies Prediction: Weighted

Ensemble of Machine Learning Classifiers”. Abu Dhabi International Petroleum

Exhibition & Conference, Abu Dhabi, Emirados Árabes, 12-15 Novembro 2018.

[9] THE MATHWORKS, INC., Statistics and Machine Learning Toolbox™ User’s

Guide, Natick, The MathWorks, Inc., 2016.

https://www.glossary.oilfield.slb.com/en/Terms/p/pef.aspx

96

[10] WIKIPEDIA. Precision and Recall. Wikipedia, 2019. Disponível em:

<https://en.wikipedia.org/wiki/Precision_and_recall>. Acesso em: 28 jul. 2019.

[11] MITCHELL, T., Machine Learning, 1 ed. Boston, McGraw-Hill, 1997.

[12] MACHINE LEARNING MASTERY. Classification And Regression Trees For

Machine Learning. Blog Machine Learning Mastery, 2016. Disponível em:

<https://machinelearningmastery.com/classification-and-regression-trees-for-machine-

learning/>. Acesso em: 28 jul. 2019.

[13] WIKIPEDIA. Covariance. Wikipedia, 2019. Disponível em:

<https://en.wikipedia.org/wiki/Covariance>. Acesso em: 28 jul. 2019.

[14] MACHINE LEARNING MASTERY. Support Vector Machines For Machine Learning.

Blog Machine Learning Mastery, 2016. Disponível em:

<https://machinelearningmastery.com/support-vector-machines-for-machine-learning/>.

Acessado em: 28 jul.2019.

[15] LORENA, A., CARVALHO, A. “Uma Introdução às Support Vector Machines”,

Revista de Informática Teórica e Aplicada (UFRGS) v. 14, n. 2, pp. 43-67, 2007.

[16] MACHINE LEARNING MASTERY. K-Nearest Neighbors for Machine Learning. Blog

Machine Learning Mastery, 2016. Disponível em:

<https://machinelearningmastery.com/k-nearest-neighbors-for-machine-learning/>.


[17] MACHINE LEARNING MASTERY. Bagging and Random Forest Ensemble

Algorithms for Machine Learning. Blog Machine Learning Mastery, 2016. Disponível em:

<https://machinelearningmastery.com/bagging-and-random-forest-ensemble-

algorithms-for-machine-learning/>. Acesso em: 28 jul. 2019.

https://en.wikipedia.org/wiki/Precision_and_recall

https://machinelearningmastery.com/classification-and-regression-trees-for-machine-learning/

https://machinelearningmastery.com/classification-and-regression-trees-for-machine-learning/

https://en.wikipedia.org/wiki/Covariance

https://machinelearningmastery.com/support-vector-machines-for-machine-learning/

https://machinelearningmastery.com/k-nearest-neighbors-for-machine-learning/

https://machinelearningmastery.com/bagging-and-random-forest-ensemble-algorithms-for-machine-learning/

https://machinelearningmastery.com/bagging-and-random-forest-ensemble-algorithms-for-machine-learning/

97

[18] MACHINE LEARNING MASTERY. Boosting and AdaBoost For Machine Learning.

Blog Machine Learning Mastery, 2016. Disponível em:

<https://machinelearningmastery.com/boosting-and-adaboost-for-machine-learning/>


[19] NOSHI, I., SCHUBERT, J., “The Role of Machine Learning in Drilling Operations; A

Review”. SPE/AAPG Eastern Regional Meeting, Pittsburgh, Estados Unidos, 7-11

Outubro 2018.

[20] MANIAR, H., RYALI, S., KULKARNI, S. et al. “Machine-Learning Methods In

Geoscience”. 2018 SEG International Exposition and Annual Meeting, Anaheim,

Estados Unidos, 14-19 Novembro 2018.

[21] BANDURA, L., HALPERT, D., ZHANG, Z., “Machine learning in the interpreter’s

toolbox: Unsupervised, supervised, and deep-learning applications”. 2018 SEG

International Exposition and Annual Meeting, Anaheim, Estados Unidos, 14-19

Novembro 2018.

[22] SNEED, J. “Predicting ESP Lifespan With Machine Learning”. SPE/AAPG/SEG

Unconventional Resources Technology Conference, Austin, Estados Unidos, 24-26

Julho 2017

[23] BERTRAM, J., FAN, Y., RAFFELT, D. et al., “An Applied Machine Learning

Approach To Subsea Asset Inspection”. Abu Dhabi International Petroleum

Exhibition & Conference, Abu Dhabi, Emirados Árabes, 12-15 Novembro 2018.

[24] XU, C., MISRA, S., SRINIVASAN, P. et al., “When Petrophysics Meets Big Data:

What can Machine Do?”. SPE Middle East Oil and Gas Show and Conference,

Manama, Bahrain, 18-21 Março 2019.

https://machinelearningmastery.com/boosting-and-adaboost-for-machine-learning/

98

[25] BIZE-FOREST, N., LIMA, L., BAINES, V. et al., “Using Machine-Learning for

Depositional Facies Prediction in a Complex Carbonate Reservoir”. SPWLA 59th Annual

Logging Symposium, Londres, Reino Unido, 2-6 Junho 2018.

[26] ZIMMERMANN, T., LIANG, L., ZEROUG, S. “Machine-Learning-Based Automatic

Well-Log Depth Matching”, Petrophysics v. 59, n. 06, pp. 863-872, Dez. 2018.

[27] HAYUM, L., RIOS, E., COUTO, P., “Correlação rocha-perfil para o campo de

Namorado”. 9o Congresso Brasileiro de Pesquisa e Desenvolvimento em Petróleo

e Gás, Maceió, AL, Brasil, 9-11 Novembro 2017.

[28] DOCPLAYER. Overview of the Hugoton Asset Management Project (HAMP)

Southwest Kansas and Oklahoma Panhandle. Midcontinent AAPG, 2005. Disponível

em: <https://docplayer.net/14681006-Overview-of-the-hugoton-asset-management-

project-hamp-southwest-kansas-and-oklahoma-panhandle.html>. Acesso em: 28 jul.

2019.

[29] BARBOZA, E., Análise Estratigráfica do Campo de Namorado (Bacia de

Campos) com Base na Interpretação Sísmica Tridimensional. Tese de D.Sc.,

UFRGS, Porto Alegre, RS, Brasil, 2005.

[30] CARVALHO, L., SANTOS, L., MEDEIROS, L., et al., “Prediction of depositional

facies using data mining on well logs from Namorado oil field, offshore Brazil”. 37o

Congresso Íbero Latino-Americano de Métodos Computacionais em Engenharia,

Florianópolis, SC, Brasil, 5-8 Novembro 2017.

[31] CARVALHO, L., Previsão de Fácies Deposicionais Usando Perfis de Poço do

Campo de Namorado. Tese de B.Sc., UFRJ, Rio de Janeiro, RJ, Brasil, 2017.

[32] FLEXA, R., ANDRADE, A., CARRASQUILLA, A. “Identificação de Litotipos nos

Perfis de Poço do Campo de Namorado (Bacia de Campos, Brasil) e do Lago Maracaibo

https://docplayer.net/14681006-Overview-of-the-hugoton-asset-management-project-hamp-southwest-kansas-and-oklahoma-panhandle.html

https://docplayer.net/14681006-Overview-of-the-hugoton-asset-management-project-hamp-southwest-kansas-and-oklahoma-panhandle.html

99

(Venezuela) Aplicando Estatística Multivariada”, Revista Brasileira de Geociências v.

34, n. 04, pp. 571-578, Dez. 2004.

[33] CUNHA, E., Identificação de Litofácies de Poços de Petróleo Utilizando um

Método Baseado em Redes Neurais Artificiais. Tese de M.Sc., UFCG, Campina

Grande, PB, Brasil, 2002.

[34] NINCI, B., Aplicação da Lógica Nebulosa na Determinação de Fácies do

Campo de Namorado. Tese de M.Sc., Unicamp, Campinas, SP, Brasil, 2008.

Download - UM ESTUDO COMPARATIVO DE TÉCNICAS DE MACHINE LEARNING …monografias.poli.ufrj.br › monografias › monopoli10029817.pdf · A classificação de fácies é o processo de determinar

Top Related