UM ESTUDO COMPARATIVO DE TÉCNICAS DE MACHINE
LEARNING NA CLASSIFICAÇÃO DE FÁCIES: APLICAÇÕES
NOS CAMPOS DE HUGOTON E PANOMA E CAMPO DE
NAMORADO
Luiz Gustavo Vicente Hayum
Projeto de Graduação apresentado ao
Curso de Engenharia de Petróleo da
Escola Politécnica, Universidade Federal
do Rio de Janeiro, como parte dos
requisitos necessários à obtenção do título
de Engenheiro.
Orientador: Paulo Camargo Silva
Rio de Janeiro
Agosto 2019
i
Vicente Hayum, Luiz Gustavo
Um estudo comparativo de técnicas de Machine
Learning na classificação de fácies: aplicações nos campos
de Hugoton e Panoma e campo de Namorado / Luiz Gustavo
Vicente Hayum. – Rio de Janeiro: UFRJ/ Escola Politécnica,
2019.
VII, 99 p.: il.; 29,7 cm.
Orientador: Paulo Camargo Silva
Projeto de Graduação – UFRJ/ Escola Politécnica/
Curso de Engenharia de Petróleo, 2019.
Referências Bibliográficas: p. 95-99.
1. Aprendizagem de máquina. 2. Classificação de
fácies. 3. Perfilagem de poços. I. Camargo Silva, Paulo. II.
Universidade Federal do Rio de Janeiro, Escola Politécnica,
Curso de Engenharia de Petróleo. III. Um estudo comparativo
de técnicas de Machine Learning na classificação de fácies:
aplicações nos campos de Hugoton e Panoma e campo de
Namorado.
ii
AGRADECIMENTOS
Agradeço a minha mãe e amiga, Amanda, por todo o apoio e carinho em todas as fases
da minha vida. Por sempre incentivar que trabalhe pelos meus sonhos, e por ser meu
grande exemplo de honestidade, trabalho duro e gentileza.
Agradeço a meu padrinho e amigo, Joaquim, a primeira pessoa a me mostrar o real
valor da educação e o poder de transformação que ela pode trazer à vida das pessoas.
Agradeço a meu orientador, Paulo Camargo, pela paciência e apoio nesses últimos
meses de trabalho. Por saber respeitar minhas limitações e ao mesmo tempo extrair de
mim o melhor resultado possível.
Sou muito grato pela formação acadêmica de grande qualidade recebida aqui na UFRJ.
Certamente, foram anos de grandes experiências e aprendizados profissionais e
pessoais. Levo com carinho muito boas lembranças e amigos feitos aqui.
iii
Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como parte
dos requisitos necessários para a obtenção do grau de Engenheiro de Petróleo.
UM ESTUDO COMPARATIVO DE TÉCNICAS DE MACHINE LEARNING NA
CLASSIFICAÇÃO DE FÁCIES: APLICAÇÕES NOS CAMPOS DE HUGOTON E
PANOMA E CAMPO DE NAMORADO
Luiz Gustavo Vicente Hayum
Agosto/2019
Orientador: Paulo Camargo Silva
Curso: Engenharia de Petróleo
A Aprendizagem de Máquina é uma disciplina de crescente relevância na indústria de
óleo e gás devido à necessidade de automatizar a análise de grandes volumes de
dados. Isso é particularmente verdade para a classificação de fácies a partir da
correlação de dados de perfis de poços e análise de testemunhos. Esse estudo realiza
de forma automática uma aplicação comparativa de 22 técnicas de Aprendizagem de
Máquina para classificação de fácies ao conjunto de dados dos campos Hugoton e
Panoma e do campo de Namorado. Em determinados testes realizados, foram obtidas
acurácias excelentes quando comparadas a outros trabalhos de nível nacional e
internacional. É realizada uma comparação com estudos anteriores. É apresentada uma
revisão detalhada dos perfis de poços e técnicas de Aprendizagem de Máquinas
utilizados, e uma descrição dos dados disponíveis para os campos estudados. Essa
descrição inclui diagramas de correlação cruzada e matrizes de covariância entre os
preditores. Os resultados são apresentados através de métricas de acurácia e matrizes
de confusão juntamente com uma discussão sobre as particularidades das duas massas
de dados e os efeitos dessas particularidades sobre os resultados obtidos.
Palavras-chave: Aprendizagem de máquina, classificação de fácies, perfilagem de
poços
iv
Abstract of Undergraduate Project presented to Escola Politécnica/UFRJ as a partial
fulfillment of the requirements for earning the degree of Petroleum Engineer.
BENCHMARK OF MACHINE LEARNING TECHNIQUES FOR FACIES
CLASSIFICATION: APPLICATION TO THE HUGOTON AND PANOMA FIELDS AND
THE NAMORADO FIELD
Luiz Gustavo Vicente Hayum
August/2019
Advisor: Paulo Camargo Silva
Course: Petroleum Engineering
Machine Learning is a field of study of increasing importance in the petroleum industry
due to the need to automate the analysis of large data sets. This is particularly true in
facies classification based on the correlation of well logs and core analysis. This study
automatically deploys an application to compare the performance of 22 Machine
Learning techniques for facies classification using data sets for the Hugoton and Panoma
fields and the Namorado field. In specific tests, high accuracy rates have been obtained
when compared to other work of national and international relevance. A comparison to
previous work is made. A detailed review of the well logs and Machine Learning
techniques applied in this work is provided, as well as a description of the available data
for the studied fields. The data set description includes cross-plots and covariance
matrices for the predictors. The results are presented through the Accuracy metric and
confusion matrices together with a discussion about the peculiarities of the two data sets
and their effect on the achieved results.
Keywords: Machine learning, facies classification, well logging
v
Sumário
1 Introdução .............................................................................................................. 1
1.1 Descrição do problema ................................................................................... 3
1.2 Motivação ........................................................................................................ 4
1.3 Objetivos ......................................................................................................... 5
2 Conceitos fundamentais ......................................................................................... 6
2.1 Perfilagem de poços........................................................................................ 6
2.1.1 Raios gama .............................................................................................. 6
2.1.2 Resistividade ............................................................................................ 7
2.1.3 Sônico ...................................................................................................... 8
2.1.4 Nêutron .................................................................................................... 8
2.1.5 Densidade ................................................................................................ 9
2.1.6 Porosidade densidade-nêutron ................................................................ 9
2.1.7 Efeito fotoelétrico ................................................................................... 10
2.2 Análise de testemunhos ................................................................................ 11
2.3 Aprendizagem de Máquina ........................................................................... 12
2.3.1 Técnicas de Aprendizagem de Máquina supervisionadas ...................... 16
2.3.2 Underfitting e Overfitting......................................................................... 17
2.3.3 Métodos de validação ............................................................................ 18
vi
2.3.4 Avaliação de qualidade .......................................................................... 19
2.3.5 Técnicas de Aprendizagem de Máquina ................................................ 21
3 Revisão bibliográfica ............................................................................................ 33
4 Descrição dos dados ............................................................................................ 37
4.1 Campos de Hugoton e Panoma .................................................................... 37
4.2 Campo de Namorado .................................................................................... 45
5 Metodologia da pesquisa...................................................................................... 52
5.1 Testes realizados .......................................................................................... 55
5.2 Validação dos testes realizados .................................................................... 56
6 Resultados obtidos ............................................................................................... 58
7 Análise de resultados ........................................................................................... 67
7.1 Matrizes de confusão .................................................................................... 67
7.1.1 Experimento 1 – Campos de Hugoton e Panoma .................................. 68
7.1.2 Experimento 2 – Campo de Namorado .................................................. 72
7.2 Comparação entre as técnicas e testes ........................................................ 76
7.2.1 Comparação do desempenho das técnicas de Aprendizagem de Máquina
76
7.2.2 Desequilíbrio no número de observações para cada fácies ................... 81
7.2.3 Utilização dos dados de profundidade ................................................... 82
7.2.4 Exclusão das profundidades e preditores com dados faltantes .............. 85
vii
7.3 Comparação com estudos anteriores ............................................................ 86
8 Sugestões para trabalhos futuros ......................................................................... 92
9 Conclusões .......................................................................................................... 94
10 Bibliografia ........................................................................................................... 95
1
1 Introdução
O presente trabalho mostra os resultados das pesquisas realizadas relativas à aplicação
de diferentes técnicas de Aprendizagem de Máquina – tais como: Árvores de Decisão,
Support Vector Machine, Métodos Ensemble e outros – na classificação de fácies.
Foram realizados dois experimentos importantes de classificação de fácies nos poços
dos campos:
Hugoton e Panoma – localizados em terra no Meio Oeste dos Estados Unidos;
Namorado – localizado na costa do Estado do Rio de Janeiro no Brasil.
O primeiro experimento – relativo aos campos de Hugoton e Panoma – foi realizado em
virtude de importantes estudos internacionais abordando o tema da aplicação de
Aprendizagem de Máquina na classificação de fácies, que utilizaram o conjunto de
dados dos poços destes campos. Tendo sido usado em análises comparativas
internacionais (benchmarking study). Os dados para os campos de Hugoton e Panoma
foram inicialmente disponibilizados pela University of Kansas.
O segundo experimento – relativo ao campo de Namorado – foi realizado em virtude do
conjunto de dados dos poços deste campo estar envolvido em diversos estudos
brasileiros relacionados à classificação de fácies aplicando diferentes técnicas. O
campo de Namorado é um campo escola, e teve seus dados disponibilizados pela
Agência Nacional do Petróleo, Gás Natural e Biocombustíveis (ANP) para estudos
acadêmicos.
Usando os dados dos poços dos campos mencionados acima, os dois experimentos
foram realizados. Estes experimentos consistiram na aplicação das técnicas de
Aprendizagem de Máquina na classificação de fácies dos poços destes campos. Para
2
verificar a eficiência das técnicas foram feitos diversos testes em cada experimento.
Sendo que os mesmos testes foram realizados nos dois experimentos.
Este trabalho está dividido da seguinte forma:
Capítulo 1 – É feita uma introdução do estudo que foi desenvolvido, uma
descrição detalhada do problema, a motivação e os objetivos;
Capítulo 2 – São apresentados os conceitos fundamentais abordados no
estudo. Estes conceitos incluem perfis de poços, análise de testemunhos e
descrição das técnicas de Aprendizagem de Máquina que foram aplicados;
Capítulo 3 – É mostrada uma revisão bibliográfica da utilização da
Aprendizagem de Máquina na indústria do petróleo e em especial na
classificação de fácies;
Capítulo 4 – São apresentados os campos estudados, com uma descrição dos
respectivos conjuntos de dados dos poços;
Capítulo 5 – É apresentada a metodologia usada nos dois experimentos
realizados, assim como uma descrição dos testes implementados dentro de cada
experimento;
Capitulo 6 – São apresentados os resultados obtidos nos dois experimentos
realizados;
Capítulo 7 – É apresentada uma discussão dos resultados obtidos. Também é
apresentada uma comparação dos resultados com estudos anteriores;
Capítulo 8 – São feitas as considerações finais acerca dos experimentos
realizados;
3
Capítulo 9 – São apresentas as principais conclusões obtidas a partir do estudo
realizado.
1.1 Descrição do problema
A classificação de fácies é o processo de determinar a litologia das rochas usando
medidas diretas e indiretas tais como análise de testemunhos e perfis de poços. Essa
classificação em poços de petróleo é de extrema importância já que o conhecimento da
litologia influi na estimativa de outros parâmetros do reservatório. Por exemplo,
permeabilidade e saturação de fluidos apresentarão uma grande variação para uma
mesma porosidade mas litologias distintas [1].
A melhor fonte de informação para a litologia é a análise de amostras de testemunhos
[1], porém o alto custo limita a realização das operações de testemunhagem a uma
pequena parcela dos poços perfurados. A solução é extrapolar as informações obtidas
em poços testemunhados para outros poços sem testemunhos. Uma forma de fazer isso
é através da correlação usando perfilagem de poços.
A análise petrofísica a partir dos perfis de poços pode ser feita poço a poço para
caracterizar as rochas. Alternativamente, a análise poço a poço pode ser realizada para
um pequeno número de poços e extrapolada para um conjunto maior. Para isso, devem
ser determinados intervalos de valores medidos em cada perfil de poço que
caracterizem cada fácies. A classificação de fácies para um número maior de poços
pode então ser realizada pela comparação desses intervalos de valores com as
propriedades de rocha medidas para esses poços. Eliminando a necessidade de realizar
a análise petrofísica para cada um dos poços. Ambos processos são lentos e não
práticos quando se pretende analisar um número grande de poços.
Para enfrentar esse problema, nos anos 80, diversas técnicas de análise estatística
multivariada foram desenvolvidas para acelerar e automatizar o processo de
4
classificação de fácies usando a correlação entre testemunhos e perfis de poços. Entre
essas técnicas podemos destacar: Análise de Componentes Principais, Análise de
Aglomerados (Cluster Analysis), Análise Discriminante e outras. Além disso, técnicas
não paramétricas de classificação ganharam força desde os anos 90. Alguns exemplos
são Redes Neurais, lógica nebulosa (fuzzy) e K-vizinho mais próximo. O último sendo
um dos objetos de estudo desse trabalho.
Com a popularização dos conceitos de Big Data e aumento da capacidade
computacional, houve uma renovação no interesse pela Aprendizagem de Máquina em
diversas áreas, incluindo a geofísica [2].
1.2 Motivação
A motivação inicial desta monografia foi o trabalho desenvolvido por Brendon Hall,
apresentado em HALL [3]. Brendon procurou uma solução para o problema de
classificação de fácies de perfis de poços dos campos de Hugoton e Panoma
localizados nos Estados Unidos. Ele obteve uma acurácia de 43% ao aplicar uma
Supported Vector Machine (SVM) ao conjunto de dados contra um resultado de 16% ao
realizar um experimento aleatório simples para classificar as fácies. Mesmo assim, o
resultado foi considerado baixo. A partir daí, ele propôs um concurso internacional
aberto a cientistas, estudantes e curiosos de todo o mundo para trabalhar com os
mesmos dados a fim de conhecer as técnicas mais eficazes para obter maior acurácia.
Os resultados do concurso foram apresentados em HALL e HALL [4].
Após quatro meses de concurso, 40 equipes submeteram cerca de 300 soluções para
o problema. As técnicas utilizadas variaram desde Árvores de Decisão até Redes
Neurais. As cinco soluções com melhor resultado utilizaram as Gradient Boosted Trees,
um Método Ensemble. Os quais serão descritos posteriormente. A equipe vencedora
5
obteve uma acurácia de 64%. Houve então uma motivação para trabalhar sobre esta
base de dados a fim de ver as dificuldades de se obter índices ainda melhores.
Por outro lado, o campo de Namorado é um campo escola para o qual um grande
volume de dados está disponível ao público para a realização de estudos. Com isso,
diversos autores já exploraram o uso de técnicas de Aprendizagem de Máquina para
classificação de fácies neste campo, mas sempre limitados a aplicação de poucas
técnicas. Esse trabalho mostra a aplicação de uma grande variedade de técnicas e
observa a eficácia de cada uma delas na realização de previsões de fácies.
1.3 Objetivos
O objetivo principal da pesquisa foi comparar o desempenho de diferentes técnicas de
Aprendizagem de Máquina aplicadas em problemas complexos. De maneira que
técnicas avançadas de Aprendizagem de Máquina foram aplicadas no problema de
classificação de fácies de poços em dois experimentos específicos. O primeiro
experimento utilizou dados dos campos de Hugoton e Panoma, e o segundo utilizou
dados do campo de Namorado. Nos últimos anos, estes dois conjuntos de dados têm
sido usados em estudos comparativos, de nível nacional e internacional, para verificar
o desempenho de técnicas de Aprendizagem de Máquina na classificação de fácies
usando a correlação entre dados de testemunho e de perfis de poços.
Outro objetivo foi verificar a relevância da pesquisa desenvolvida. Para isso, os
resultados obtidos neste trabalho foram comparados com os resultados obtidos em
pesquisas realizadas anteriormente.
Vários testes foram realizados para atingir estes objetivos, seguindo diferentes
premissas para determinar quais procedimentos específicos determinavam o melhor
desempenho de cada técnica.
6
2 Conceitos fundamentais
Este capítulo apresenta os conceitos mais importantes que foram utilizados nas
pesquisas desenvolvidas. De maneira que são introduzidos os perfis de poço que
compõem a base de dados dos dois experimentos realizados, a análise dos
testemunhos, as técnicas de Aprendizagem de Máquina que foram aplicadas, métodos
de validação e avaliação da qualidade. Todas as técnicas de Aprendizagem de Máquina
que foram implementadas na monografia têm seus aspectos teóricos introduzidos neste
capítulo.
2.1 Perfilagem de poços
Operações convencionais de perfilagem de poços consistem na descida de uma sonda
dentro do poço através de um sistema de cabos, polias e guincho. A sonda contém
sensores capazes de medir resistividade, densidade, radioatividade natural e induzida,
conteúdo de hidrogênio e módulo elástico das rochas[5]. Essas medidas são realizadas
de forma contínua e associadas à profundidade, que também é medida. Os dados são
transmitidos à superfície através dos cabos e são em seguida gravados. A interpretação
posterior desses dados permite deduzir indiretamente propriedades do reservatório
como porosidade, saturação de fluidos e litologia. A seguir são apresentados alguns
tipos de perfis de poços.
2.1.1 Raios gama
Essa ferramenta realiza a medição da emissão natural de raios gama da formação.
Emissões que são geradas pelo decaimento natural de elementos radioativos do grupo
Urânio, Tório e Potássio para isótopos estáveis. O decaimento gera partículas alfa e
beta (com carga) que são rapidamente absorvidos por outros átomos mas também raios
gama. Raios gama são ondas eletromagnéticas que penetram mais facilmente os
7
sólidos, incluindo revestimentos, quando comparado a outras partículas. Essa facilidade
de penetrar sólidos possibilita que esse perfil seja corrido a poço aberto ou revestido.
O perfil de raios gama é utilizado principalmente para identificar formações argilosas
(folhelhos). Após identificadas, essas formações podem ser eliminadas dos passos
posteriores da análise do poço, já que geralmente não são de interesse comercial.
Através da correlação com outros perfis, o perfil de raios gama também pode ser
utilizado para análise da litologia, mineralogia e porosidade.
2.1.2 Resistividade
A resistividade é uma medida da resistência à condução de correntes elétricas da rocha
que elimina o fator forma. Medida em Ω x m2/m, ou abreviado para Ω x m, é interpretado
como a voltagem necessária para que 1 Ampere passe por um cubo com 1 metro de
aresta.
Ferramentas de indução consistem em uma bobina energizada por corrente alternada
que gera um campo magnético alternado. O oscilador é mantido a frequência e corrente
de módulo constante, gerando um campo magnético de intensidade constante. Esse
campo magnético induz uma diferença de potencial na rocha, que dependendo de sua
resistividade, irá gerar uma corrente alternada secundária de maior ou menor
intensidade na própria rocha. Uma segunda bobina, por sua vez, detecta a diferença de
potencial induzida pelo campo magnético gerado pela corrente secundária presente na
rocha. A intensidade dessa corrente é proporcional a condutividade da rocha. A
diferença de potencial induzida na segunda bobina é medida e os resultados gravados.
O perfil resistividade é utilizado para determinar a saturação da água de formação e
diferenciar zonas contendo água e zonas contendo hidrocarbonetos.
8
2.1.3 Sônico
O perfil sônico é baseado na refração de ondas elásticas pela formação. Transdutores
convertem energia elétrica em mecânica emitindo um pulso acústico que se propaga
pela lama e penetra a formação. Parte dessa energia é então refletida de volta a outros
transdutores que a convertem novamente, agora em um sinal elétrico. O tempo de
propagação desse pulso é então medido e pode ser relacionado a diversas propriedades
mecânicas da rocha, assim como porosidade, litologia e identificação de zonas
sobrepressurizadas.
2.1.4 Nêutron
A ferramenta emite nêutrons de alta energia. Por ser uma partícula eletricamente neutra
e de pequena massa, os nêutrons penetram facilmente a matéria. Isso inclui
revestimento e rochas. Os nêutrons emitidos têm sua energia reduzida ao se chocar
com outras partículas ou emitem raios gama de captura quando absorvidos por outros
átomos. Um sensor mede o retorno de nêutrons de menor energia e raios gama de
captura.
Entre os elementos mais presentes no ambiente de poço, o Hidrogênio apresenta a
maior capacidade de desacelerar nêutrons. Dessa forma, o perfil nêutron realiza uma
medida indireta da porosidade. Na realidade, a ferramenta mede o índice de Hidrogênio
da formação. Para zonas saturadas por água e de litologia conhecida, a ferramenta
medirá a porosidade. Em outras situações, o operador da ferramenta escolherá uma
calibração que assume a matriz da rocha sendo predominantemente arenito ou
carbonato.
9
2.1.5 Densidade
A densidade aparente da formação guarda uma relação direta com a porosidade, e a
estimativa desta propriedade é o principal objetivo ao correr o perfil densidade. Este
perfil também pode ser utilizado como indicador da litologia e dos fluidos contidos na
formação.
A fonte emite raios gama continuamente. Os raios gama terão sua energia mais
reduzida por formações densas. Assim, uma contagem alta de raios gama nos
detectores indicará uma formação de baixa densidade.
A ferramenta do perfil densidade faz a leitura da densidade aparente da rocha. A
porosidade para o perfil densidade pode ser calculada a partir da equação 2.1. Para o
cálculo é necessário que seja conhecida a litologia da rocha e saturação de fluidos, com
isso valores tabelados para a densidade da matriz da rocha (ρma) e densidade do fluido
(ρf) podem ser utilizados. A ferramenta é calibrada para que que a densidade aparente
(ρa) medida pela rocha seja igual a densidade real dos grãos (ρb) em carbonatos com
poros preenchidos por água limpa [5].
𝜙𝐷 = 𝜌𝑚𝑎 − 𝜌𝑏
𝜌𝑚𝑎 − 𝜌𝑓 (Eq. 2.1)
2.1.6 Porosidade densidade-nêutron
A combinação dos perfis de densidade e de nêutron fornece uma boa fonte de dados
de porosidade, especialmente em formações de litologia complexa. Melhores
estimativas de porosidade são possíveis com esta combinação do que usando qualquer
ferramenta ou o perfil sônico separadamente, porque inferências sobre litologia e
conteúdo de fluido podem ser feitas. Também pode determinar a litologia e detectar
zonas de gás.
10
Para litologia desconhecida, o mais comum é que as leituras dos perfis densidade e
nêutron sejam ajustadas para carbonatos. Com isso, a porosidade média calculada a
partir das porosidades para o perfil nêutron e perfil densidade (PHIND) será uma ótima
aproximação da porosidade verdadeira. Caso, a matriz seja predominantemente
carbonato, a porosidade a partir do perfil nêutron (ϕN) e a partir do perfil densidade (ϕD)
terão a mesma leitura. Caso a matriz seja predominantemente arenito, ϕD terá um valor
alto e ϕN terá um valor baixo, com a média ainda sendo verdadeira [5]. PHIND pode ser
calculado pela equação 2.2.
𝑃𝐻𝐼𝑁𝐷 =
𝜙𝑁 − 𝜙𝐷
2 (Eq. 2.2)
Conforme mencionado acima, a diferença entre as porosidades a partir do perfil nêutron
e perfil densidade (DeltaPHI) pode ser utilizada como um indicador de litologia.
2.1.7 Efeito fotoelétrico
De forma similar ao perfil de densidade, o perfil de efeito fotoelétrico é baseado na
medida da capacidade da formação de atenuar raios gama emitidos pela ferramenta de
perfilagem. A atenuação de raios gama ocorre majoritariamente a partir de dois
fenômenos – efeito Compton e absorção fotoelétrica. Para raios gama de baixa energia,
a atenuação é dominada pela absorção fotoelétrica e essa é a principal diferença entre
o perfil de efeito fotoelétrico e densidade. Para o perfil efeito fotoelétrico, fontes de raio
gama de baixa energia são utilizadas [6].
O perfil de efeito fotoelétrico mede o fator de absorção fotoelétrica (Pe). Essa
propriedade varia em função do número atômico (Z) dos elementos presentes na
formação. Elementos mais pesados, de maior número atômico, apresentam Pe mais alto.
Como os fluidos presentes na formação apresentam números atômicos muito baixos,
Pe é uma medida mais representativa das propriedades da matriz da rocha.
11
Por isso, as medidas desse perfil de poço podem ser utilizadas para determinar a
litologia e mineralogia da rocha. Arenitos apresentam valores baixos de Pe, enquanto
dolomitas e carbonatos apresentam valores mais altos. Argilas e outros minerais
pesados, como os ferrosos, também apresentam altos valores de Pe [7].
2.2 Análise de testemunhos
A testemunhagem tem como objetivo trazer a superfície uma amostra de rocha com
suas características petrofísicas e de distribuição dos fluidos preservadas para análise
em laboratório. Como a própria operação de obtenção dos testemunhos altera essas
propriedades, técnicas de restauração das mesmas são utilizadas para tentar reproduzir
as condições de reservatório.
A testemunhagem convencional se diferencia de uma operação de perfuração apenas
pelo tipo de broca utilizada. O centro da broca de testemunhagem é oco. A broca é
acoplada a um barril de testemunhagem, equipamento capaz de estocar a amostra de
rocha, permitindo que a mesma seja elevada a superfície e recuperada. O poço é
perfurado com broca e coluna de perfuração convencionais até atingir a profundidade
de interesse, já que a perfuração com equipamento de testemunhagem é mais lenta e
limitada ao tamanho do barril de testemunhagem. A profundidade de início da operação
de testemunhagem pode ser definida através de poços análogos, quando há uma
mudança brusca na taxa de penetração da broca – indicando mudança de litologia – ou
um aumento na quantidade de gás extraída da lama de perfuração em superfície. Outra
alternativa é a inclusão de perfis de resistividade em ferramentas de LWD (Logging
While Drilling – perfilagem durante a perfuração).
Ao atingir a profundidade de interesse, a coluna de perfuração é recuperada e a broca
e BHA (Bottom-Hole Assembly – extremidade inferior da coluna de perfuração) são
substituídas. Quando o barril de testemunho é preenchido, a coluna é novamente
12
puxada para a superfície e o testemunho recuperado. O testemunho é então
condicionado, estocado em um tubo metálico e selado em ambas as extremidades e
enviado para laboratório. Em substituição ao tubo metálico podem ser usados
revestimento em epóxi ou acrílico, ou tubos termocontráteis.
Testemunhos obtidos dessa forma medem em torno de 30 pés com diâmetro de 1,75 a
5,25 polegadas. O testemunho pode ser separado em amostras medindo até 10
polegadas para análise. Porém, o mais comum é a extração de plugues com 1 a 1,5
polegadas de diâmetro e 1 a 3 polegadas de comprimento.
Essas amostras de rocha são utilizadas para o estudo da sequência deposicional,
calibração de perfis de poço, medição direta da porosidade, permeabilidade, saturação
de fluidos e densidade de grãos.
2.3 Aprendizagem de Máquina
A Inteligência Artificial é um campo de pesquisa que procura fazer com que os
computadores convencionais passem a desenvolver tarefas que só os seres humanos
são capazes de realizar, tais como: prova de teoremas, visão artificial, solução de
problemas complexos, reconhecimento de voz e outros. A Aprendizagem de Máquina é
considerada um ramo da Inteligência Artificial. A Aprendizagem de Máquina ensina os
computadores a aprender com a experiência. Técnicas de Aprendizagem de Máquina
usam métodos computacionais para “aprender” informações diretamente dos dados. As
técnicas melhoram de forma adaptativa seu desempenho à medida que o número de
amostras disponíveis para aprendizagem aumenta.
A Aprendizagem de Máquina utiliza dois tipos de técnicas:
Aprendizagem supervisionada, que treina um modelo baseado em dados de
entrada e saída conhecidos para que possa prever saídas futuras e;
13
Aprendizagem não supervisionada, que encontra padrões ocultos ou estruturas
intrínsecas nos dados de entrada.
A Aprendizagem de Máquina supervisionada visa a construção de um modelo hábil para
fazer previsões baseadas em evidências na presença de incerteza. Uma técnica de
aprendizagem supervisionada usa um conjunto conhecido de dados de entrada e
respostas conhecidas para os dados (saída) e treina um modelo para gerar previsões
razoáveis para a resposta a novos dados. A aprendizagem supervisionada usa técnicas
de classificação e regressão para desenvolver modelos preditivos.
Técnicas de classificação predizem respostas categóricas. Modelos de
classificação classificam os dados de entrada em classes. Aplicações típicas
incluem classificação de imagens de satélites, reconhecimento de padrões de
fala, classificação de fácies e outros.
Técnicas de regressão predizem respostas contínuas. Por exemplo, mudanças
na temperatura, flutuações na demanda de energia e movimento de ações na
bolsa. Aplicações típicas incluem previsão de carga de eletricidade e negociação
algorítmica.
O aprendizado não supervisionado encontra padrões ocultos ou estruturas intrínsecas
nos dados. Ele é usado para extrair inferências de conjuntos de dados que consistem
em dados de entrada sem respostas marcadas. Clustering é a técnica de aprendizado
não supervisionada mais comum. Ele é usado para análise exploratória de dados para
encontrar padrões ocultos ou agrupamentos em dados. Aplicações para Clustering
incluem análise de sequência genética, pesquisa de mercado e reconhecimento de
objetos.
14
A Figura 2.1 traz um resumo sobre os três grandes grupos de técnicas de Aprendizagem
de Máquina Supervisionada e Não Supervisionada.
Figura 2.1 - Principais categorias de técnicas de Aprendizagem de Máquina.
15
Diferentes técnicas têm sido usadas na Aprendizagem de Máquina. A Figura 2.2 mostra
algumas destas técnicas.
Este trabalho trata principalmente de Aprendizagem de Máquina Supervisionada. De
maneira que a seguir as técnicas usadas neste trabalho relativas a este tipo de
Aprendizagem de Máquinas são descritas.
Figura 2.2 - Exemplos de técnicas de Aprendizagem Supervisionada e Não Supervisionado.
16
2.3.1 Técnicas de Aprendizagem de Máquina supervisionadas
As técnicas de Aprendizagem de Máquina supervisionadas, em oposição aos não
supervisionados, trabalham com um conjunto de dados de entrada e respostas
conhecidas. Essas técnicas podem ainda lidar com dois tipos de problemas:
classificação e regressão. No primeiro tipo, as respostas são um conjunto conhecido de
valores discretos. Em problemas de regressão as respostas são medidas contínuas.
Para problemas de classificação supervisionada o conjunto de dados de entrada
também são chamados preditores, características ou atributos e as respostas são
chamadas classes ou rótulos.
A classificação ocorre em dois passos: treinamento e previsão, ver Figura 2.3. No
primeiro passo, o modelo é treinado para identificar padrões de dados de entrada que
produzem a mesma resposta e a qualidade do treinamento pode ser medida
comparando as classes reais contra as previstas pelo modelo. Essa comparação é feita
através de uma função do erro. O modelo de treinamento é aquele que minimiza essa
função [8]. No segundo passo, o modelo treinado pode ser aplicado a novos dados, em
que as classes não são conhecidas, para obter previsões [9].
17
Um dos objetivos principais do processo de classificação é obter um classificador capaz
de capturar o melhor possível a relação entre os dados de entrada e as respostas, para
que possa ser muito preciso na etapa de previsão.
2.3.2 Underfitting e Overfitting
Para realização de boas previsões, é necessário evitar duas das maiores razões para o
baixo desempenho de técnicas de Aprendizagem de Máquina – underfitting e overfitting
[8].
O problema de underfitting é o mais facilmente identificável. As métricas de qualidade
de ajuste do modelo, tais como a acurácia, serão baixas. Isso ocorre quando um
conjunto de dados é relativamente pequeno para caracterizar uma relação complexa
entre os dados de entrada e saída. Esse problema também ocorre quando técnicas
Figura 2.3 - Passos de treinamento e previsão comuns às técnicas de Aprendizagem de Máquina Supervisionadas. Adaptado de: Statistics and
Machine Learning Toolbox™ User’s Guide [9]
18
muito simples, como as que assumem relações lineares entre os dados, são usados
para lidar com relações complexas.
O problema oposto é o overfitting. O modelo treinado se torna tão flexível e detalhado
que acomoda ruídos e pontos de dado que não se ajustam a tendência. Essas técnicas
não são capazes de generalizar o problema estudado e quando aplicados a um novo
conjunto de dados apresentarão taxas de erro mais altas durante a previsão com dados
novos que as registradas durante o treinamento [8].
2.3.3 Métodos de validação
Como forma de evitar esses problemas é necessário utilizar um método de validação.
Nos softwares modernos existem três opções disponíveis: não utilizar validação,
validação cruzada e holdout. A validação cruzada particiona os dados em K
subconjuntos de dados, sendo o número K escolhido pelo usuário. O modelo é então
treinado em (K – 1) subconjuntos e testado no subconjunto sobressalente. Os
subconjuntos são permutados K vezes de forma que cada subconjunto seja utilizado
uma vez para o teste cego do modelo. O modelo é otimizado para reduzir o erro médio
das K permutações. Esse método de validação é recomendado para conjuntos de dados
pequenos, já que requer diversas rodadas e ajustes [9], porém apresenta grande
capacidade de prever como o modelo treinado se comportará para um teste cego em
um novo conjunto de dados.
Para conjuntos de dados maiores, o método holdout é recomendado. Uma parcela dos
dados é separada para treinamento e outra para teste. O modelo é treinado na primeira
parcela e tem seu desempenho medido através da segunda [9].
19
2.3.4 Avaliação de qualidade
O conhecimento de alguns conceitos é importante para a avaliação da qualidade da
classificação dos modelos treinados. Esses conceitos, resumidos na Tabela 2.1, são
aplicados a previsão feita para cada observação e sua classe real:
Verdadeiro positivo: para uma dada classe i, esse é o número de previsões em
que a classe prevista coincide com a classe real.
Verdadeiro negativo: para uma dada classe i, esse é o número de previsões
em que a classe real é diferente de i e o modelo treinado corretamente atribuiu
uma classe prevista diferente de i.
Falso positivo: para uma dada classe real i, esse é o número de vezes em que
a uma observação com classe real diferente de i foi atribuída erroneamente a
classe prevista i.
Falso negativo: para uma dada classe real i, esse é o número de vezes em que
a uma observação uma classe prevista diferente de i foi erroneamente
atribuída.
Tabela 2.1 – Classificação dos quatro tipos de erros ou acertos de um modelo preditivo
Classe real
I Outras
Cla
sse
pre
vis
ta
I Verdadeiro positivo Falso positivo
Outras Falso negativo Verdadeiro negativo
20
A avaliação da qualidade da classificação dos modelos treinados pode ser feita por
algumas métricas diferentes:
Acurácia (accuracy): acurácia é a medida mais simples da qualidade de ajuste,
sendo definida como o número de previsões corretas sobre o número total de
observações. Quando uma das classes reais tem um número de observações
muito maior do que as demais classes, a acurácia pode ser enganosa. Em um
caso extremo em que todas as observações tenham como classe prevista a
classe real majoritária, o modelo ainda terá uma acurácia grande mesmo não
sendo capaz de generalizar o problema.
𝑎𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 + 𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠
𝑛º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 (Eq. 2.3)
Precisão (precision): a precisão considera uma análise classe a classe. Para
cada classe, a precisão será o número de vezes que uma determinada classe
foi prevista corretamente sobre o número de vezes que essa mesma classe foi
prevista, independente de correta ou incorretamente.
𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠
𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 + 𝑛º 𝑓𝑎𝑙𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (Eq. 2.4)
Revocação (recall): a revocação também considera uma análise classe a classe.
Para cada classe, a revocação será o número de vezes que uma determinada
classe foi prevista corretamente sobre o número de observações dessa classe
no conjunto de dados, quando considerada a classe real.
𝑟𝑒𝑣𝑜𝑐𝑎çã𝑜 = 𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠
𝑛º 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 + 𝑛º 𝑓𝑎𝑙𝑠𝑜𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠 (Eq. 2.5)
21
F1-score: o F1-score é uma combinação da precisão e revocação, sendo
calculado pela média harmônica das duas medidas [10].
𝐹1 − 𝑠𝑐𝑜𝑟𝑒 = 2 ×𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 × 𝑟𝑒𝑣𝑜𝑐𝑎çã𝑜
𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 + 𝑟𝑒𝑣𝑜𝑐𝑎çã𝑜 (Eq. 2.6)
2.3.5 Técnicas de Aprendizagem de Máquina
2.3.5.1 Árvores de Decisão
Árvores de Decisão é uma técnica robusta de Aprendizagem de Máquina para aproximar
funções alvo discretas, sendo capaz de lidar com dados contendo ruído e
inconsistências [11], como conjunto de dados incompletos para uma variável de entrada.
O modelo treinado é representado por uma árvore de decisão ou por conjuntos de
comandos se-então (if-then).
Em sua representação gráfica, a árvore será formada por um conjunto de nós. Cada nó
representa uma decisão sobre um preditor, ou um teste, e produz uma ramificação das
observações contidas no nó original em dois grupos. Esse novo nó pode sofrer uma
nova ramificação ou ser considerado uma resposta. O primeiro nó é chamado raiz e os
últimos, que contém uma resposta, de folhas. No exemplo da Figura 2.4, os preditores
são x3 e x4, as classes são setosa, versicolor e virginica. Caso uma observação do
conjunto de dados testado obedeça a sequência de regras desde a raiz até uma folha,
essa observação receberá a classe dessa folha.
22
Durante o treinamento, um critério de parada determina a profundidade das Árvores de
Decisão. A profundidade é caracterizada por um maior número de folhas, nós e
ramificações, e consequentemente um menor número de observações nas folhas.
O critério de parada padrão para o Classification Learner é o número de ramificações.
Árvore Fina (Fine): 100 ramificações;
Árvore Média (Medium): 20 ramificações;
Árvore Grossa (Coarse): 4 ramificações.
Como alternativa, pode ser determinado um número mínimo de observações em cada
nó. Quando esse número mínimo é atingido, esse nó não sofre mais ramificações e se
Figura 2.4 – Representação gráfica da ramificação de uma Árvore de Decisão com nós e folhas para o conjunto de dados das Flores Iris. Adaptado de:
Statistics and Machine Learning Toolbox™ User’s Guide [9]
23
torna uma folha. Um nó puro, contendo observações de apenas uma classe, também
serve como critério de parada.
A escolha de qual preditor e qual regra de decisão (comando se-então) utilizar em cada
nó é determinado de forma a minimizar uma função erro. Essa função erro é a impureza
de Gini. A impureza de Gini é caracterizada pelo produto da probabilidade de que um
elemento aleatoriamente sorteado em um dado nó pertença a uma classe alvo i pela
probabilidade de que esse elemento pertença a qualquer outra classe diferente de i. A
impureza de Gini é igual a zero quando todos os elementos em um nó pertencem à
classe alvo. A técnica é considerada gulosa, ou seja, ela analisa todas as alternativas
para um determinado nó e escolhe a solução local ótima com a esperança de que
escolher ótimos locais para todos os nós leve a solução global ótima [12].
2.3.5.2 Análise Discriminante
A Análise Discriminante assume que cada classe apresenta os preditores baseados em
uma distribuição multivariada Normal (também chamada Gaussiana). Durante o
treinamento, o classificador estima os dois principais parâmetros para esse tipo de
distribuição – o vetor de médias e a matriz de covariância [9]. Cada elemento no vetor
de médias é o valor médio ou esperado para um preditor, assumindo sua distribuição
Normal. O vetor de médias é subtraído de cada observação antes do cálculo da matriz
de covariância.
A matriz de covariância mede o nível de correlação dos diversos preditores, analisando-
os em pares. Por exemplo, se o aumento no valor de uma variável x1 é acompanhado
pelo aumento no valor de uma variável x2 – o mesmo sendo verdade para uma redução
no valor de ambos – o par x1, x2 apresentará um valor de covariância positivo. Quando
o aumento ou redução no valor de x1 é acompanhado pelo movimento oposto no valor
de x2, a covariância será negativa. Quando as variáveis são normalizadas, o módulo da
24
covariância indicará quão forte é a correlação. Nesse caso, os valores na matriz de
covariância serão conhecidos como coeficientes de correlação ou coeficientes de
correlação de Pearson [13].
Duas opções de Análise Discriminante estão disponíveis no aplicativo Classification
Learner: linear e quadrática.
Análise Discriminante Linear, o classificador calcula uma única matriz de
covariância para toda a massa de dados.
Análise Discriminante Quadrática, o classificador calcula uma matriz de
covariância para cada classe. Para ambos os métodos, um vetor de médias é
calculado para cada classe [9].
Com os parâmetros da distribuição ajustados o classificador setoriza por classes o
espaço contendo as observações de forma a minimizar o erro de classificação. O
espaço é dividido por linhas (linear), elipses, parábolas ou hipérboles (quadrática). O
erro de classificação é contabilizado levando em conta dois parâmetros: a probabilidade
a posteriori e o custo. A probabilidade a posteriori é a probabilidade condicional de que
uma observação seja classificada como determinada classe, levando em consideração
as distribuições normais calculadas anteriormente para cada classe. No limite, quando
se utiliza o conhecimento a priori das classes reais, a função custo assumirá o valor zero
quando a classe prevista e real forem iguais, e o valor de 1 se forem diferentes. Para
otimização do modelo, o custo também será estimado baseado nas probabilidades a
posteriori.
2.3.5.3 Supported Vector Machine (SVM)
A técnica SVM foi desenvolvida na década de 90 e é extremamente popular desde
então. A popularidade é devida ao bom desempenho com mínima necessidade de
25
ajustar seus parâmetros [14]. A técnica SVM pode ser utilizada para problemas de
classificação e regressão.
Para problemas de classificação, o SVM cria um espaço N-dimensional em que N é o
número de preditores presentes na massa de dados. Em seguida, o SVM utiliza
hiperplanos para separar os pontos de dados em classes.
O critério para posicionar os hiperplanos é conhecido como margem. A margem é
definida como a distância perpendicular entre os hiperplanos e os pontos mais próximos
a eles. Esses pontos mais próximos aos hiperplanos são conhecidos como vetores de
suporte ou support vectors [8, 14]. O objetivo do SVM é maximizar o tamanho das
margens, e por isso também é conhecido como Classificador de Margem Máxima ou
Maximum Margin Classifier. A Figura 2.5 traz um exemplo simples com duas classes
separáveis por um hiperplano, com sua margem e vetores de suporte.
Figura 2.5 - Representação gráfica do hiperplano separador e margem para um problema linear com
duas classes
26
Na prática, dificilmente todos os pontos de uma determinada classe poderão ser
separados por um hiperplano. Por esse motivo, o modelo precisa ser flexível o suficiente
para permitir que alguns pontos desrespeitem a margem estabelecida. Para isso, um
fator de ajuste C é colocado como parte dele. Valores altos de C permitem que mais
pontos de dados desrespeitem os limites estabelecidos pelos hiperplanos e margens,
desde que o modelo treinado continue capaz de generalizar o problema [8].
SVMs usam uma função Kernel para analisar a similaridade entre dois pontos de dados
calculando o produto interno entre eles. Para prever a classe de um ponto de dado não
utilizado para treinamento, a função Kernel calcula o produto interno entre esse ponto
de dado e os vetores de suporte [8].
Para problemas não lineares, em que um hiperplano não é capaz de determinar a
fronteira entre as classes, uma função Kernel mais complexa pode ser introduzida. Essa
função Kernel transforma o espaço N-dimensional original em um espaço de mais alta
dimensão em que os dados de entrada sejam mais facilmente separáveis [15]. Esse
novo espaço de alta dimensão é chamado de espaço de características e é resultado
de combinações linearmente separáveis dos pontos no espaço N-dimensional.
No Classification Learner, quatro funções Kernel estão disponíveis:
Linear (d = 1)
Quadrática (d = 2)
Cúbica (d = 3)
Gaussiana (ou RBF, Radial-Basis Function)
A função RBF ainda tem três opções:
Fine,
27
Medium e
Coarse.
Elas se diferenciam pelo parâmetro Kernel Scale. O Classification Learner divide todos
os elementos na matriz de preditores pelo Kernel Scale antes de computar a matriz de
produtos internos no espaço de dimensão mais alta criado pela função Kernel [9]. As
funções Kernel utilizadas foram apresentadas na Tabela 2.2.
Tabela 2.2 – Funções Kernel utilizadas. Adaptado de LORENA et al. [15]
Tipo de Kernel Função K (xi, xj) Parâmetros
Polinomial (δ (xi • xj) + C) d δ, C e d
Gaussiana exp(-σ xi – xj2) σ
2.3.5.4 K-vizinho mais próximo (KNN)
A técnica KNN difere das demais técnicas não-paramétricas por fazer previsões
utilizando todo o conjunto de dados de treinamento, não um modelo. Para problemas de
classificação, ele buscará os K pontos vizinhos mais próximos, ou mais semelhantes,
ao ponto do conjunto de dados que precisa ser classificado. A classe que aparece com
maior frequência entre os K vizinhos, como em uma contagem de votos, será atribuída
ao ponto de dado sem classificação prévia.
28
Por funcionar dessa forma, a técnica pode se tornar lenta para analisar conjuntos de
dados muito grandes [16]. Por outro lado, sua simplicidade e facilidade de interpretação
dos resultados torna a técnica um benchmark para os resultados obtidos por outras
técnicas mais sofisticadas [9]. A Figura 3.7 apresenta uma visualização de como a
classe para um ponto não classificado poderia ser decidida considerando os oito
vizinhos mais próximos.
A similaridade entre dois pontos é medida pela distância entre esses dois pontos no
espaço N-dimensional, sendo N o número de preditores. Um dos parâmetros a ser
escolhido para essa técnica é a forma de medir a distância entre pontos. As opções
disponíveis no Classification Learner são:
Figura 2.6 - Visualização de como a classe para um ponto não classificado poderia ser decidida
considerando os oito vizinhos mais próximos utilizando o conjunto de dados das Flores de Iris.
Adaptado de: Statistics and Machine Learning Toolbox™ User’s Guide [9]
29
Distância Euclidiana (A, B)
𝑑𝑖𝑠𝑡𝑒(𝐴, 𝐵) = √∑(𝐴𝑖 − 𝐵𝑖)2 (Eq. 2.7)
Distância por cosseno (A, B)
𝑑𝑖𝑠𝑡𝑐 (𝐴, 𝐵) =
𝐴 •
‖𝐴‖ × ‖‖ =
∑ 𝐴𝑖 × 𝐵𝑖
√∑ 𝐴𝑖2 × √∑ 𝐵𝑖
2
(Eq. 2.8)
Distância Minkowski cúbica (A, B)
𝑑𝑖𝑠𝑡𝑚𝑐 (𝐴, 𝐵) = √∑|𝐴𝑖 − 𝐵𝑖|3
3 (Eq. 2.9)
Sendo A e B duas observações dentro do conjunto de dados, ou seja, dois vetores
compostos pelo conjunto de preditores para duas profundidades distintas. E Ai e Bi
componentes dos vetores A e B.
A distância Euclidiana é utilizada para as técnicas Fine, Medium e Coarse que se
diferenciam pelo número de K vizinhos mais próximos utilizados – 1, 10 e 100. Outras
opções disponíveis são o Cosine e o Cubic, os quais utilizam os 10 vizinhos mais
próximos com as distâncias por cosseno e Minkowski cúbica, respectivamente. Há
ainda a técnica Weighted que utiliza a distância Euclidiana, porém atribuindo pesos a
cada uma das observações. O peso é calculado pelo inverso do quadrado da distância
entre os pontos.
Com o aumento no número de preditores, e em consequência o aumento da dimensão
do espaço característico, a técnica pode consumir muitos recursos computacionais e a
noção de distância entre os pontos se torna menos intuitiva para interpretação [16].
30
2.3.5.5 Métodos Ensemble
Métodos Ensemble são compostos pela combinação das decisões feitas por múltiplos
classificadores simples individualmente. Esses classificadores simples são chamados
classificadores base ou weak learners. O modelo resultante da combinação dos diversos
classificadores base apresentará um maior índice de acerto em suas previsões que cada
um dos classificadores base individualmente.
Essas técnicas são compostas por três elementos principais: o classificador base, uma
função de perda (ou erro de classificação) e um elemento aditivo que atribua os devidos
pesos a cada weak learner de forma a minimizar a função de perda. A minimização é
um processo iterativo em que o erro é reduzido pouco a pouco em diversos passos, o
quão rápido isso acontece é determinado pelo parâmetro de taxa de aprendizagem ou
learning rate [8].
As técnicas Ensemble diferem entre si pela escolha das técnicas utilizadas como
classificadores base e pelo método utilizado para combinar o resultado obtido por cada
classificador base individualmente. Cinco técnicas Ensemble estão disponíveis no
Classification Learner para problemas de classificação multi-classe.
A técnica Bagged Trees é caracterizada pelo método que utiliza para criar amostras do
conjunto de dados e treinar o modelo de Aprendizagem de Máquina, o método é
conhecido como Bootstrap Aggregation ou Bagging. O Bootstrap é um método
estatístico robusto para caracterizar um conjunto de dados a partir de amostras. Um
número grande de amostras aleatórias – e com reposição – são retiradas do conjunto
de dados, e a propriedade para o conjunto completo de dados é estimado a partir da
média dos valores calculados para cada uma das amostras. Essa propriedade estimada
através das amostras pode ser uma medida estatística como a média ou desvio padrão.
31
O mesmo procedimento pode ser aplicado para reduzir a variância de técnicas de
Aprendizagem de Máquina como as Árvores de Decisão. Árvores de Decisão
apresentam uma variância muito grande em suas previsões – árvores treinadas em duas
amostras distintas de um mesmo conjunto de dados provavelmente produzirão
predições diferentes. Ao produzir um número grande de amostras e utilizar a classe
prevista com maior frequência para um ponto de dado, a variância é eliminada. Quando
o método Bootstrap é aplicado com essa finalidade, ele é chamado de Bootstrap
Aggregation ou Bagging.
Cada classificador base é uma árvore de decisão profunda, com poucas observações
em cada folha e sem critérios de parada para ramificação em novos nós. Mais
especificamente, a técnica disponível no Matlab utiliza Random Forests. Random
Forests é uma versão melhorada do Bagged Trees. No Bagged Trees, a técnica tem
todos os preditores disponíveis no momento de criar a ramificação de um nó e pode
escolher a melhor opção. No Random Forests, a técnica é forçada a escolher em um
conjunto limitado e aleatório de preditores. Por padrão, o número de preditores
escolhidos aleatoriamente por ramificação é igual a raiz quadrada do número total de
preditores. Isso evita que os classificadores base sejam criados com estruturas
semelhantes e com alto índice de correlação nos resultados [17].
Outra técnica disponível no Classification Learner é o Boosted Trees. As Boosted Trees
para problemas multi-classe utilizam um método conhecido como AdaboostM2.
Diferente das Bagged Trees, as Boosted Trees utilizam Árvores de Decisão
extremamente rasas, em geral com apenas uma ramificação. Os classificadores base
são treinados sequencialmente, de forma que um novo classificador base tenta corrigir
os erros cometidos pelo classificador base que o precedeu. Novos classificadores base
são adicionados até que pare de haver melhora na qualidade da predição ou um número
definido de classificadores base sejam adicionados. O peso de cada classificador base
nos votos é definido pelo desempenho individual do mesmo na previsão [18].
32
O Classification Learner também disponibiliza a técnica RUSBoost. Essa técnica é um
caso especial de Boosted Trees para conjuntos de dados em que uma ou mais classes
tem um número de observações muito menores que as demais classes. A técnica
RUSBoost realiza para cada classificador base uma amostragem aleatória em que N
observações de cada classe são escolhidas, sendo N o número de observações
disponíveis para a classe com o menor número de observações no conjunto de dados.
Com exceção desse ajuste, a técnica RUSBoost opera da mesma forma que a técnica
Boosted Trees [9].
Ainda está disponível a técnica Subspace. Essa técnica criará classificadores base
utilizando um número restrito de preditores. Dentre o número total de preditores
disponíveis, a técnica escolherá aleatoriamente sem reposição um número definido de
preditores para compor o classificador base. Essa operação é repetida até que um
número pré-definido de classificadores base sejam criados. Os classificadores base
poderão utilizar Análise Discriminante ou KNN [9].
33
3 Revisão bibliográfica
Uma busca rápida no mais importante repositório de artigos científicos da indústria de
petróleo – OnePetro – foi capaz de demonstrar o potencial da aplicação da
Aprendizagem de Máquina nas mais diversas áreas de conhecimento da Engenharia de
Petróleo. Ao digitar o termo, mais de 1.100 trabalhos foram publicados nos últimos 3
anos. A Figura 3.1 mostra a tendência de crescimento do número total de artigos de
Aprendizagem de Máquina e Inteligência Artificial desde os anos 1960. Deve ser notado
que o número de pesquisas em Aprendizagem de Máquina já está superando o número
de pesquisas em Inteligência Artificial. Entretanto, diversos autores ressaltam que
apesar de amplamente aceita e utilizada em outras indústrias, em óleo e gás a
Aprendizagem de Máquina ainda não é explorada no seu potencial máximo [19, 20].
Na indústria de petróleo e gás, diversas aplicações de Aprendizagem de Máquinas são
propostas nas mais diferentes áreas, tais como: interpretação de dados sísmicos na
fase de exploração [21], otimização da perfuração de poços durante o desenvolvimento
de campos [19], até a fase de produção com a previsão da vida útil de bombas
centrífugas submersas [22], e análise de risco de falha de equipamentos submarinos a
partir de dados de inspeção [23]. Como discutiremos a seguir, diversos autores também
tratam da aplicação da Aprendizagem de Máquina para classificação de fácies
geológicas.
34
A Análise Petrofísica Orientada por Dados – Petrophysical Data Driven Analysis (PDDA)
– aparece como uma subdisciplina de crescente importância e com vantagens sobre
métodos convencionais demonstradas na literatura [24]. O PDDA usa técnicas de
Aprendizagem de Máquina em aplicações importantes, tais como: automatização do
controle de qualidade dos dados brutos de perfis de poços, identificando zonas em que
houve arrombamento ou fechamento do poço, efeitos de invasão da formação por
filtrado de lama, correção de profundidade para um grande número de poços, e outras.
Além destas, aplicações na correlação rocha-perfil de múltiplos poços para classificação
de fácies e predição de parâmetros de reservatório como permeabilidade e saturação
de fluidos [24].
Com relação a exploração simultânea de múltiplas técnicas de Aprendizagem de
Máquina para classificação de fácies, SHASHANK e MAHAPATRA [8] propuseram um
fluxo de trabalho para testar e comparar múltiplas técnicas, e combiná-las em um único
Figura 3.1 - Número de publicações sobre Inteligência Artificial e Aprendizagem de Máquina no repositório de artigos científicos OnePetro. Adaptado de: XU et
al. [24]
35
Método Ensemble (em conjunto). Os autores utilizaram Árvores de Decisão, Support
Vector Machines (SVM) e Gradient Boosting como classificadores base, ajustando
parâmetros para que cada um dos três classificadores possa gerar um modelo capaz
de prever as fácies com a maior acurácia possível. Em seguida, os três classificadores
base são ordenados de forma que aqueles que preveem as classificações de fácies com
maior acurácia recebem um maior peso. Esses pesos funcionam como votos, e a
classificação de fácies para uma determinada profundidade com o maior número de
votos entre os três classificadores base é a escolhida. A combinação dos três
classificadores, no contexto de métodos Ensemble chamados de weak learners, produz
um classificador melhor que os três originais individualmente. Dados dos campos de
Hugoton e Panoma foram utilizados na análise [8].
Utilizando o mesmo conjunto de dados para os campos de Hugoton e Panoma, HALL
[3] aplicou uma Support Vector Machine Gaussiana (Gaussian SVM) obtendo uma
acurácia próxima a 43%. Não satisfeito com o resultado, propôs um concurso
internacional que recebeu cerca de 300 soluções para o problema de classificação de
fácies utilizando Aprendizagem de Máquina para essa massa de dados. Os resultados
foram apresentados em HALL e HALL [4] com considerável redução do erro de previsão.
Um dos melhores resultados do concurso foi obtido por BESTAGINI e LIPARI et al. [2]
através do Método Ensemble conhecido como Gradient Boosted Trees.
BIZE-FOREST et al. [25] explorou uma combinação de Aprendizagem de Máquina Não
Supervisionada e Supervisionada para melhorar a capacidade preditiva em carbonatos
do pré-sal. O uso de Aprendizagem de Máquina para classificação de fácies nos
carbonatos do pré-sal se mostrou particularmente desafiador. No estudo, inicialmente
não foi possível obter acurácias maiores que 40%. A dificuldade se deve a
heterogeneidade dos carbonatos e efeitos diagenéticos que transformam o carbonato
originalmente depositado em um tipo de rocha reservatório (Reservoir Rock Type) com
propriedades petrofísicas distintas da fácies deposicional original. Com os avanços
36
realizados durante o estudo, foram alcançadas acurácias de 68% e 55% em dois
experimentos distintos. Em ambos os experimentos, diversas técnicas supervisionadas
de agrupamento (clustering) foram aplicadas para determinar quais delas melhor se
ajustavam aos dados e quais eram os perfis de poços com maior influência sobre a
classificação de fácies. Em um segundo momento, a técnica com melhor desempenho
foi aplicada de maneira não supervisionada utilizando como dados de entrada apenas
os perfis de poços selecionados como mais relevantes no passo anterior.
ZIMMERMANN [26] aplicou a Aprendizagem de Máquina em outro problema comum
na correlação rocha-perfil, corrigir a associação dos dados de profundidade dos perfis e
dos testemunhos. As medidas de profundidade do testemunho são obtidas durante a
perfuração, pelo método do sondador – em que é conhecido o número de tubos de
perfuração e seus comprimentos – enquanto as medidas de profundidade para os perfis
de poço são obtidas durante a perfilagem pelo comprimento de cabo utilizado. Assim,
um mesmo ponto dentro do poço pode apresentar medidas de profundidade distintas.
Essa diferença pode ser da ordem de dezenas de metros [27]. Dados do perfil de raios
gama obtidos durante a perfuração são comparados a medidas de raios gama feitas em
laboratório no testemunho – coregamma. A solução convencional depende de
manualmente ou com auxílio de computador, determinar pontos em que os sinais dos
dois testes coincidem e trasladar, comprimir ou esticar os perfis para que esses pontos
coincidam. ZIMMERMAN [26] utilizou uma técnica de Redes Neurais treinado em dados
rotulados manualmente, com alguma flexibilidade para lidar com o erro humano durante
a classificação manual, e alcançou resultados satisfatórios.
37
4 Descrição dos dados
Nesse capítulo será apresentado um resumo sobre os campos estudados nesse
trabalho. Esse resumo contêm a localização desses campos, um breve histórico das
atividades de exploração e produção, e informações geológicas sobre os reservatórios
estudados.
Além disso, serão apresentados os dados disponíveis para o treinamento das técnicas
de Aprendizagem de Máquina. Os perfis de poços e classificação de fácies serão
apresentados e discutidos. Os dados serão brevemente analisados através de
histogramas, diagramas de correlação cruzadas, estimativas de densidade kernel e
matrizes de covariância.
4.1 Campos de Hugoton e Panoma
Os campos de Hugoton e Panoma estão localizados no sudoeste do estado norte-
americano do Kansas e noroeste do estado de Oklahoma, em terra, conforme o mapa
na Figura 4.1. A descoberta de Hugoton ocorreu em 1928 e o desenvolvimento do
campo ocorreu a partir de 1948. Já a descoberta de Panoma ocorreu em 1958 e o
desenvolvimento do campo ocorreu a partir de 1970. Os campos produzem
predominantemente gás e atingiram seu pico de produção nos anos 70, produzindo
volumes próximos a 50 milhões de metros cúbicos de gás por dia. O volume de gás
recuperado nesses campos é próximo de 1 trilhão de metros cúbicos através de mais
de 12 mil poços [1].
38
Os reservatórios datam do período Permiano, sendo o reservatório de Panoma mais
profundo e pertencente ao grupo Council Grove, enquanto o reservatório de Hugoton
mais raso pertence ao grupo Chase. O reservatório é formado pela alternância de finas
camadas de siltitos e carbonatos depositados em 13 ciclos de deposição marinhos e
não-marinhos ao longo de aproximadamente 170 metros (550 pés) [28].
Para os campos de Hugoton e Panoma, foram disponibilizados dados para 12 poços. O
conjunto de dados é composto por nome dos poços, dados de profundidade, sete
variáveis – incluindo três medidas de perfis de poços, duas métricas calculadas com
base em perfis de poços e duas classificações manuais – e uma classificação de fácies
litológicas.
Raios gama – Gamma ray (GR)
Resistividade – Resistivity (ILDlog10)
Efeito fotoelétrico – Photoelectric effect (PE)
Figura 4.1 - Mapa para os campos de Hugoton e Panoma
39
Diferença das porosidades calculadas a partir dos perfis densidade e nêutron –
Neutron-density porosity difference (DeltaPHI)
Porosidade média calculada a partir dos perfis densidade e nêutron – Average
neutron-density porosity (PHIND)
Classificação binária de ambiente deposicional baseado em conhecimento da
posição de topo de formações e membros que marcam a alternância entre
ambiente marinho e não-marinho (NM-M)
Posição relativa à última alternância entre ambiente deposicional marinho e não-
marinho (RelPos)
As medidas foram realizadas em intervalos de profundidade de meio pé. O conjunto de
dados foi disponibilizado para 4979 profundidades. Porém, em 917 desses intervalos os
dados para o perfil efeito fotoelétrico não estão disponíveis. Dois dos 12 poços não têm
nenhuma medida do perfil efeito fotoelétrico disponível.
A partir da análise dos testemunhos, as 4979 observações foram classificadas em nove
fácies, conforme descrição da Tabela 4.1. Essa classificação também faz parte do
conjunto de dados. As fácies foram construídas observando principalmente o ambiente
de deposição – marinho ou não-marinho – e pelo tipo de rocha – siliciclástica ou
carbonática. Para as rochas siliciclásticas, foram ainda atribuídas a classificação de Folk
para o tamanho de grão dos sedimentos que as compõem, e para as rochas
carbonáticas, foram atribuídas as classificações de textura de Dunham [1].
40
Tabela 4.1 - Descrição das fácies dos campos de Hugoton e Panoma
Fácies Descrição
1 Arenito não-marinho
2 Siltito grosso não-marinho
3 Siltito fino não-marinho
4 Siltito e folhelho marinho
5 Lamito
6 Wackestone
7 Dolomita
8 Packstone-Grainstone
9 Bafflestone
A partir das nove fácies e as observações dos sete preditores para as 4979 observações
disponíveis, foi elaborado um diagrama de correlações cruzadas exibido na Figura 4.2.
O diagrama apresenta visualmente a correlação dois a dois dos diversos preditores e
como as fácies influenciam essa correlação. Para problemas facilmente separáveis,
seria possível visualmente perceber os intervalos de valores para cada par de preditores
que delimitam uma fácies. Podemos observar que apesar de haver algumas tendências,
as fácies não são facilmente separáveis para os dados dos campos de Hugoton e
Panoma.
41
Fig
ura
4.2
– D
iag
ram
a d
e c
orr
ela
çõ
es c
ruzad
as p
ara
os s
ete
pre
dit
ore
s u
tili
za
do
s n
o e
stu
do
para
os
ca
mp
os d
e
Hu
go
ton
e P
an
om
a a
gru
pad
os p
or
fác
ies
42
Como podemos ver em mais detalhes na Figura 4.3, a distribuição do número de
observações por fácies é bastante assimétrica. As fácies 7 e 9, principalmente, possuem
um pequeno número de observações dentro do conjunto de dados. Isso pode dificultar
a qualidade de previsão dessas fácies para algumas técnicas.
Em seguida, a distribuição de cada preditor individualmente e para cada fácies foi
analisada. Os resultados estão apresentados na figura 4.4. Para fazer essa análise, foi
escolhida a estimativa de densidade kernel – uma representação contínua da função
densidade de probabilidade de cada preditor individualmente, e uma alternativa à
representação de uma distribuição discreta através de um histograma. A distribuição
kernel é uma curva de densidade da probabilidade não-paramétrica que se adapta à
forma dos dados ao invés de pedir pela definição de uma forma paramétrica – normal,
lognormal ou outra – como informação a priori [8]. Novamente é possível identificar os
valores de cada preditor no qual cada fácies apresenta maior frequência de
observações, porém fica claro que o problema não é facilmente separável.
Figura 4.3 - Número de observações por fácies para os campos de Hugoton e Panoma
0
200
400
600
800
1000
1200
1 2 3 4 5 6 7 8 9
Nú
mer
o d
e o
bse
rvaç
ões
Fácies
43
Para analisar a independência entre os sete preditores disponíveis, foi utilizada uma
matriz de covariância contendo os coeficientes de correlação de Pearson para cada par
de preditores. A matriz de covariância e os coeficientes de correlação de Pearson foram
Figura 4.4 - Distribuição Kernel para os cinco perfis de poços disponíveis para os campos de Hugoton e Panoma
Fácies:
44
descritos em maiores detalhes no capítulo 2.3.5.2 e estão representados na Figura 4.5
para os dados do campo de Hugoton e Panoma através de um mapa de calor. As cores
mais claras – laranja claro, amarelo e branca – representam uma correlação positiva,
sendo a cor branca a correlação mais forte. As cores mais escuras – laranja escuro,
vermelho, marrom e preto – representam uma correlação negativa, sendo a cor preta a
correlação mais forte.
Os pares com alto índice de correlação indicam que existe informação redundante, e
deve ser analisada a possibilidade de eliminar um dos dois preditores de forma a reduzir
a dimensão do espaço característico, reduzindo o tempo de classificação [8].
Os três pares de preditores que apresentaram maior nível de correlação foram o
indicador de ambiente deposicional marinho ou não-marinho (NM-M) com o perfil efeito
fotoelétrico (PE) – correlação positiva –, a porosidade média a partir dos perfis
densidade e nêutron (PHIND) com o perfil efeito fotoelétrico (PE) e a PHIND com o perfil
resistividade (ILDlog10) – correlação negativa.
Figura 4.5 - Matriz de covariância e coeficientes de correlação de Pearson para os perfis de poços disponíveis para os campos de Hugoton e Panoma.
45
4.2 Campo de Namorado
O campo de Namorado está localizado a cerca de 80 km da costa do Rio de Janeiro, na
porção central da Bacia de Campos, conforme apresentado na Figura 4.6. A área se
encontra em lâmina d’água que varia entre 120 e 270 metros. O campo foi a segunda
descoberta comercial realizada pela Petrobras na Bacia de Campos em 1975. O campo
de Namorado produziu o primeiro óleo em 1979 atingindo seu pico de produção em
1986 com taxas diárias de produção acima de 60 mil barris de óleo. O campo produz
predominantemente óleo médio com 28°API e viscosidade próxima a 1cP. Até
Dezembro de 2015, o campo já havia recuperado 417 milhões de barris de óleo tendo
sido perfurados um total de 65 poços no campo – incluindo produtores, injetores e
exploratórios.
Figura 4.6 – Mapa para o campo de Namorado
46
O principal reservatório do campo de Namorado é o Arenito Namorado, de idade
Albiano-Cenomaniana. O reservatório é constituído por depósitos turbidíticos, mais
especificamente arenitos arcoseanos que apresentam espessura média de 60 metros,
variando entre 5 e 130 metros, e boas características permo-porosas – com porosidade
média de 26% e permeabilidade média de 400 mD. Os arenitos encontram-se
depositados no topo do Grupo Macaé, sendo parte da Formação Outeiro. A tectônica e
a halocinese, resultado da instabilidade de evaporitos e formação de diápiros de sal,
foram responsáveis pela abertura de falhas que permitiram a acomodação desses
corpos de areia. Esses processos também contribuíram para o processo de migração e
formação de trapas para o óleo.
Para o campo de Namorado, foram disponibilizados dados para 13 poços. O conjunto
de dados é composto por nome dos poços, dados de profundidade, medidas de cinco
perfis de poços e uma classificação de fácies deposicionais.
Sônico (DT)
Raios gama (GR)
Resistividade (ILDlog10)
Porosidade calculada a partir do perfil nêutron (NPHI)
Densidade (RHOB)
As medidas foram realizadas em intervalos de profundidade de 20 centímetros. O
conjunto de dados foi disponibilizado para 3274 profundidades. Porém, em 759 desses
intervalos os dados para o perfil sônico não estão disponíveis. Seis dos 13 poços não
tem nenhuma medida do perfil sônico disponível.
A partir da análise de testemunhos, as 3274 observações foram classificadas em sete
fácies, como descrito na Tabela 4.2. Essa classificação foi proposta por BARBOSA [29],
e é uma combinação da classificação original proposta por Zarpelon (1997) apud
BARBOSA [29] que continha 21 fácies. A correlação rocha-perfil a partir da classificação
47
anterior não se mostrava prática já que muitas vezes suas espessuras estavam abaixo
da resolução dos perfis elétricos. Por isso, as fácies foram reagrupadas em apenas sete
[29]. A classificação de fácies foi construída observando principalmente textura e
granulometria das rochas [30].
Tabela 4.2 - Descrição das fácies do campo de Namorado
Fácies Descrição
1 Conglomerados e arenitos conglomeráticos
2 Arenitos maciços e estratificados
3 Turbiditos de Bouma em camadas espessas
4 Turbiditos de Bouma em camadas finas
5 Conglomerados suportados pela matriz
6 Escorregamentos
7 Lamitos
Assim como no capítulo anterior, foi elaborado um diagrama de correlações cruzadas
utilizando as observações disponíveis para os cinco preditores e 3274 observações. O
diagrama está apresentado na Figura 4.7. Através do diagrama, podemos observar que
as fácies não são facilmente separáveis para os dados do campo de Namorado.
48
Fig
ura
4.7
- D
iag
ram
a d
e c
orr
ela
çõ
es c
ruzad
as p
ara
os c
inco
pre
dit
ore
s u
tiliza
do
s n
o e
stu
do
para
o c
am
po
de
Nam
ora
do
ag
rup
ad
os p
or
fácie
s
49
O histrograma apresentado na Figura 4.8 mostra como a distribuição de dados é
assimétrica. As fácies 1, 3 e 5, principalmente, possuem um número de observações
pequeno dentro do conjunto de dados. Algumas técnicas podem apresentar um
desempenho pior na previsão dessas fácies.
A estimativa de densidade kernel, apresentada na Figura 4.9, foi utilizada para analisar
a distribuição de cada preditor e para cada fácies individualmente. Assim como para os
dados dos campos de Hugoton e Panoma, para o campo de Namorado é possível notar
que cada fácies tem maior probabilidade de assumir determinados valores de preditores,
com picos bem definidos na curva da função densidade de probabilidade de cada
preditor. Ainda assim, não é possível separar facilmente as fácies.
0
200
400
600
800
1000
1200
1 2 3 4 5 6 7
Nú
mer
o d
e o
bse
rvaç
ões
Fácies
Figura 4.8 - Número de observações por fácies para o campo de Namorado
50
A matriz de covariância para os dados do campo de Namorado está apresentada na
Figura 4.10. Cinco pares de preditores apresentam um alto índice de correlação. Os
pares perfil raios gama (GR) com perfil sônico (DT), perfil porosidade nêutron (NPHI)
Figura 4.9 - Distribuição Kernel para os cinco perfis de poços disponíveis para o campo de Namorado.
Fácies:
51
com perfil sônico (DT) e perfil porosidade nêutron (NPHI) com perfil raios gama (GR)
apresentam correlação positiva. Os pares perfil densidade (RHOB) com perfil sônico
(DT) e perfil densidade (RHOB) com perfil porosidade nêutron (NPHI) apresentam
correlação negativa.
A alta correlação entre os preditores pode permitir que alguns dos preditores sejam
removidos, reduzindo a dimensão do espaço característico e por consequência o tempo
de classificação.
Figura 4.10 - Matriz de covariância e coeficientes de correlação de Pearson para os perfis de poços disponíveis para o campo de
Namorado
52
5 Metodologia da pesquisa
Esta seção apresenta uma descrição da metodologia usada na monografia que consiste
na aplicação das técnicas de Aprendizagem de Máquina na classificação de fácies nos
poços dos campos Hugoton e Panoma (experimento 1) e Namorado (experimento 2).
São introduzidas as técnicas implementadas e os testes realizados nos dois
experimentos.
No pré-processamento, os dois conjuntos de dados foram compilados cada um em uma
planilha diferente contendo todos os poços do respectivo campo e salvos em arquivos
texto com valores separados por vírgula.
Esses dados foram importados em forma de tabelas para o espaço de trabalho do
Matlab e foram analisados utilizando o aplicativo Classification Learner. O aplicativo
permitiu a comparação da acurácia na classificação de fácies de 22 técnicas de
Aprendizagem de Máquina. A seguir são apresentadas estas técnicas e entre parêntesis
como elas são denominadas no aplicativo:
Árvore de Decisão Finas (Fine Tree);
Árvore de Decisão Média (Medium Tree);
Árvores de Decisão Grossa (Coarse Tree);
Análise Discriminante Linear (Linear Discriminant);
Análise Discriminante Quadrática (Quadratic Discriminant);
Support Vector Machine Linear (Linear SVM);
Support Vector Machine Quadratica (Quadratic SVM);
Support Vector Machine Cúbica (Cubic SVM);
53
Support Vector Machine Gaussiana Fina (Fine Gaussian SVM);
Support Vector Machine Gaussiana Média (Medium Gaussian SVM) ;
Support Vector Machine Gaussiana Grossa (Coarse Gaussian SVM);
K-vizinho mais próximo Fina (Fine KNN);
K-vizinho mais próximo Média (Medium KNN);
K-vizinho mais próximo Grossa (Coarse KNN);
K-vizinho mais próximo Cosseno (Cosine KNN);
K-vizinho mais próximo Cúbica (Cubic KNN);
K-vizinho mais próximo usando pesos (Weighted KNN);
Métodos Ensemble – (Boosted trees);
Métodos Ensemble – (Bagged trees);
Métodos Ensemble – Subspace Discriminant;
Métodos Ensemble – Subspace KNN;
Métodos Ensemble – RUSBoosted Trees;
Cada uma das técnicas mencionadas acima usou dois conjuntos diferentes de
preditores para cada experimento, tais como:
Experimento 1 (Campos Hugoton e Panoma): (Profundidade), (GR),
(ILDlog10), (PE), (DeltaPHI), (PHIND), (NM-M) e (RelPos).
Experimento 2 (Campo de Namorado): (Profundidade), (DT), (GR), (ILDlog10),
(NPHI) e (RHOB).
54
A Tabela 5.1 resume todos os preditores e fácies presentes por experimento.
Tabela 5.1- Preditores e fácies por experimento
Todos os preditores foram importados como dados numéricos, caso contrário algumas
das técnicas – como o KNN e Análise Discriminante – não estariam disponíveis. Pelo
mesmo motivo, o nome dos poços não foi usado como um preditor.
Experimentos Preditores Fácies
Experimento 1 -
Campos Hugoton e
Panoma
1. GR
2. ILDlog10
3. PE
4. DeltaPHI
5. PHIND
6. NM-M
7. RelPos
8. Profundidades
1. Arenito marinho
2. Siltito grosso não-marinho
3. Siltito fino não-marinho
4. Siltito e folhelho marinho
5. Lamito
6. Calcário tipo vaque
7. Dolomita
8. Packstone-Grainstone
9. Bafflestone
Experimento 2 -
Campo de Namorado
1. DT
2. GR
3. ILDlog10
4. NPHI
5. RHOB
6. Profundidades
1. Conglomerados e arenitos conglomeráticos
2. Arenitos maciços e estratificados
3. Turbiditos de Bouma em camadas espessas
4. Turbiditos de Bouma em camadas finas
5. Conglomerados suportados pela matriz
6. Escorregamentos
7. Lamitos
55
5.1 Testes realizados
Foram realizados seis testes em cada experimento. Estes testes procuraram descobrir
a configuração mais apropriada para que as fácies fossem classificadas com maior
acurácia. A tabela 5.2 mostra um resumo dos testes realizados.
Os testes foram realizados aplicando as técnicas de Aprendizagem de Máquina para
cada conjunto de dados, incluindo em alguns testes os dados para todas as
profundidades disponíveis como preditores.
De maneira que o teste 1 além de todos os perfis de poços, a profundidade foi usada
como preditor. No teste 2 a profundidade não é usada como preditor. No teste 3 o perfil
efeito fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) não são usados como
preditores devido a um menor número de profundidades em que esses dados estão
disponíveis. No teste 4 os dados do perfil efeito fotoelétrico (Hugoton e Panoma), perfil
sônico (Namorado) e medidas de profundidade foram excluídos como preditores.
Foram realizados ainda dois testes adicionais. Esses testes são considerados
adicionais, pois os dados necessitaram ser novamente carregados no Matlab para que
as linhas (profundidades) com dados faltantes pudessem ser excluídas da massa de
dados utilizando a ferramenta de importação de dados do software. O teste 5 foi
realizado com a exclusão das profundidades em que medidas para o perfil efeito
fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) não foram obtidas mas
todos os preditores disponíveis utilizados. E o teste 6 excluindo as profundidades em
que medidas para o perfil efeito fotoelétrico (Hugoton e Panoma) e perfil sônico
(Namorado) não foram obtidas mas todos os preditores disponíveis utilizados, com
exceção das medidas de profundidade.
A exclusão de linhas com dados faltantes da massa de dados pôde ser feita dentro da
própria ferramenta de importação de dados para o Matlab (testes 5 e 6), a seleção de
56
preditores utilizados em cada teste pôde ser feita dentro do aplicativo Classification
Learner (testes 3 e 4). Para os campos de Hugoton e Panoma, 917 profundidades com
dados faltantes para o efeito fotoelétrico (PE) foram excluídas nos testes 5 e 6. Para o
campo de Namorado, 759 profundidades com dados faltantes para o perfil sônico (DT)
foram excluídas nos testes 5 e 6.
Na Tabela 5.2 são descritos todos os testes realizados. No próximo capítulo são
mostrados os resultados obtidos em cada um destes testes nos 2 experimentos.
Tabela 5.2 - Descrição dos testes realizados nos dois experimentos
Testes Realizados
#
Descrição
1 Todos os dados dos poços foram utilizados como preditores;
2 Todos os dados dos poços foram utilizados como preditores, com exceção das medidas de profundidade;
3 Excluindo os dados do perfil efeito fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) como preditores;
4 Excluindo os dados do perfil efeito fotoelétrico (Hugoton e Panoma), perfil sônico (Namorado) e medidas de profundidade como preditores;
Testes adicionais
#
5 Excluindo as profundidades em que medidas para o perfil efeito fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) não foram obtidas mas todos os preditores disponíveis utilizados;
6 Excluindo as profundidades em que medidas para o perfil efeito fotoelétrico (Hugoton e Panoma) e perfil sônico (Namorado) não foram obtidas mas todos os preditores disponíveis utilizados, com exceção das medidas de profundidade.
5.2 Validação dos testes realizados
Como forma de reduzir os riscos de ocorrência do problema de overfitting e ao mesmo
tempo evitar a necessidade de realizar novas rodadas em cada teste para determinar a
acurácia dos modelos treinados em dados não utilizados durante o treinamento, foi
escolhido o método de validação cruzada K-fold com 10 partições (ver seção 2.3.3). A
57
massa de dados para os dois experimentos é reduzida, e a exclusão de alguns poços
do conjunto de dados de treinamento para realização de um posterior teste cego
reduziria ainda mais a massa de dados. Isso traria efeitos adversos à qualidade de
previsão e poderia agravar ainda mais o problema de baixa representação das fácies
com menor número de amostras. Além disso, o método de validação utilizado é
considerado capaz de demonstrar o comportamento aproximado de um modelo treinado
quando aplicado em fazer previsões em dados novos [8].
Como medida de avaliação de qualidade para comparação entre os diversos testes foi
utilizada a acurácia. Para comparação da eficiência de previsão classe-a-classe foram
utilizadas matrizes de confusão e o cálculo do fator F1-score.
58
6 Resultados obtidos
Nesse capítulo são apresentados os resultados obtidos para os seis testes realizados
em cada um dos dois experimentos, como descrito no capítulo 5. As figuras 6.1 à 6.12
trazem a acurácia obtida para cada uma das 22 técnicas utilizados em cada teste.
EXPERIMENTO 1 – TESTE 1
Figura 6.1 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 1, experimento 1 (dados para os campos Hugoton e Panoma)
59
EXPERIMENTO 1 – TESTE 2
EXPERIMENTO 1 – TESTE 3
Figura 6.2 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 2, experimento 1 (dados para os campos Hugoton e Panoma)
Figura 6.3 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 3, experimento 1 (dados para os campos Hugoton e Panoma)
60
EXPERIMENTO 1 – TESTE 4
EXPERIMENTO 1 – TESTE 5
Figura 6.4 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 4, experimento 1 (dados para os campos Hugoton e Panoma)
Figura 6.5 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 5, experimento 1 (dados para os campos Hugoton e Panoma)
61
EXPERIMENTO 1 – TESTE 6
EXPERIMENTO 2 – TESTE 1
Figura 6.6 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 6, experimento 1 (dados para os campos Hugoton e Panoma)
Figura 6.7 - Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 1, experimento 2 (dados para o campo Namorado)
62
EXPERIMENTO 2 – TESTE 2
EXPERIMENTO 2 – TESTE 3
Figura 6.8 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 2, experimento 2 (dados para o campo Namorado)
Figura 6.9 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 3, experimento 2 (dados para o campo Namorado)
63
EXPERIMENTO 2 – TESTE 4
EXPERIMENTO 2 – TESTE 5
Figura 6.10 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 4, experimento 2 (dados para o campo Namorado)
Figura 6.11 - Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 5, experimento 2 (dados para o campo Namorado)
64
EXPERIMENTO 2 – TESTE 6
As tabelas 6.1 (experimento 1) e 6.2 (experimento 2) trazem um resumo das acurácias
mostradas nas figuras anteriores. Um mapa de calor permite uma análise dos melhores
resultados obtidos para cada experimento. Os três melhores resultados obtidos estão
assinalados em amarelo nas tabelas. Estes resultados serão detalhados no próximo
capítulo.
Figura 6.12 – Acurácia obtida por cada uma das 22 técnicas utilizadas para o teste 6, experimento 2 (dados para o campo Namorado)
65
Tabela 6.1 - Resumo dos resultados obtidos para as 22 técnicas utilizadas para os seis testes realizados para o experimento 1 (dados dos campos de Hugoton e Panoma)
Teste 1 Teste 2 Teste 3 Teste 4 Teste 5 Teste 6
Fine tree 62.2% 60.5% 61.0% 59.4% 62.3% 61.3%
Medium tree 55.0% 54.8% 55.1% 54.8% 56.0% 56.1%
Coarse Tree 49.8% 49.8% 49.8% 49.8% 49.0% 49.0%
Linear discriminant 50.9% 50.4% 52.9% 52.6% 57.4% 56.6%
Quadratic discriminant
Linear SVM 48.7% 48.3% 54.2% 54.4% 59.4% 58.9%
Quadratic SVM 54.2% 51.6% 62.1% 60.5% 66.2% 63.5%
Cubic SVM 60.4% 57.7% 68.3% 64.7% 73.5% 71.0%
Fine Gaussian SVM 63.0% 61.6% 76.0% 72.3% 78.1% 76.4%
Median gaussian SVM 56.4% 54.3% 65.7% 63.1% 69.4% 67.3%
Coarse gaussian SVM 47.3% 46.6% 54.2% 54.6% 58.3% 57.5%
Fine KNN 67.7% 66.1% 77.5% 73.1% 79.4% 77.3%
Medium KNN 62.5% 61.7% 69.3% 67.3% 72.9% 71.5%
Coarse KNN 53.5% 52.4% 58.8% 58.2% 61.5% 60.9%
Cosine KNN 62.4% 60.7% 69.5% 66.8% 73.0% 71.3%
Cubic KNN 61.8% 61.0% 68.5% 67.0% 71.9% 70.4%
Weighted KNN 67.9% 66.4% 76.2% 72.9% 79.4% 77.4%
Boosted trees 58.2% 57.4% 57.7% 57.3% 59.1% 57.8%
Bagged trees 75.8% 71.5% 76.6% 70.9% 79.1% 75.6%
Subspace discriminant 52.4% 53.2% 50.2% 47.9% 52.7% 52.3%
Subspace KNN 74.1% 57.7% 73.3% 56.5% 74.6% 60.1%
RUSBoosted trees 53.8% 52.2% 54.8% 51.6% 56.5% 54.7%
66
Tabela 6.2 – Resumo dos resultados obtidos para as 22 técnicas utilizadas para os seis testes realizados para o experimento 2 (dados do campo de Namorado)
Teste 1 Teste 2 Teste 3 Teste 4 Teste 5 Teste 6
Fine tree 70.2% 63.2% 74.1% 67.0% 77.6% 69.6%
Medium tree 64.5% 60.7% 68.1% 65.1% 70.8% 66.7%
Coarse Tree 53.3% 53.3% 54.6% 54.3% 57.3% 57.8%
Linear discriminant 44.2% 44.1% 53.2% 52.7% 55.8% 55.0%
Quadratic discriminant 49.8% 50.4% 61.0% 60.9% 61.2% 60.2%
Linear SVM 45.2% 45.1% 58.4% 58.0% 56.7% 56.2%
Quadratic SVM 59.5% 55.7% 72.7% 67.4% 75.0% 70.0%
Cubic SVM 64.6% 57.9% 78.2% 69.9% 81.9% 74.1%
Fine Gaussian SVM 65.0% 60.7% 82.2% 73.9% 82.3% 76.8%
Median gaussian SVM 59.3% 55.9% 73.9% 68.8% 76.0% 70.3%
Coarse gaussian SVM 48.6% 47.1% 61.3% 58.8% 61.5% 59.1%
Fine KNN 66.2% 60.9% 80.0% 70.5% 82.6% 75.2%
Medium KNN 62.1% 58.4% 77.2% 70.2% 77.3% 71.7%
Coarse KNN 55.3% 53.6% 68.0% 65.4% 68.9% 65.6%
Cosine KNN 62.2% 58.4% 75.8% 68.5% 76.9% 71.2%
Cubic KNN 61.8% 57.8% 76.8% 70.1% 76.9% 72.0%
Weighted KNN 65.4% 61.2% 81.2% 73.3% 81.9% 75.2%
Boosted trees 66.6% 60.8% 71.7% 65.9% 73.7% 68.1%
Bagged trees 80.0% 69.9% 84.9% 73.2% 85.1% 75.8%
Subspace discriminant 52.1% 52.0% 52.7% 51.2% 52.9% 53.0%
Subspace KNN 81.7% 56.5% 81.1% 56.1% 80.0% 58.8%
RUSBoosted trees 64.9% 58.5% 65.8% 59.5% 71.9% 63.0%
67
7 Análise de resultados
Nesse capítulo serão analisados os resultados obtidos para os experimentos com dados
dos campos Hugoton e Panoma (experimento 1) e campo de Namorado (experimento
2) mostrados no capítulo 6. Será observado o desempenho dos melhores
classificadores para prever cada fácies individualmente através das matrizes de
confusão e como a distribuição assimétrica do número de observações por fácies afeta
os resultados. Também serão discutidos os efeitos que a adição ou não dos dados de
profundidade traz para a classificação de fácies, assim como o efeito causado pela
exclusão dos perfis de poço que não foram corridos para todas as profundidades
estudadas. Por fim, os resultados obtidos nesse trabalho serão comparados aos
resultados obtidos por estudos anteriores através do cálculo do fator de avaliação de
qualidade F1-score conforme definição dada no capítulo 2.
7.1 Matrizes de confusão
A matriz de confusão é uma forma comum de apresentar os resultados para problemas
de aprendizagem supervisionada em Aprendizagem de Máquina. A matriz apresenta
duas dimensões: fácies real e fácies prevista. Nesse estudo, a fácies real é aquela
atribuída durante a análise de testemunho e que faz parte do conjunto de dados
utilizado. A fácies prevista é aquela atribuída por um dos modelos treinados.
Essas matrizes apresentam de uma forma visual os casos em que para uma dada
profundidade o modelo treinado confunde, ou atribui erroneamente, uma fácies prevista
diferente da fácies real.
Da forma como as matrizes de confusão estão apresentadas, elas trazem duas
informações. O percentual de positivos verdadeiros e o percentual de falsos negativos,
ou erros do tipo II (ver seção 2.3.4). Para cada fácies real, ou cada linha da tabela, os
68
positivos verdadeiros representam o percentual de vezes em que uma fácies foi
corretamente prevista pelo modelo treinado. Esses percentuais estão pintados em verde
e se encontram na diagonal principal da matriz. Os falsos negativos representam o
percentual de vezes em que dada fácies real foi confundida com outra fácies na previsão
do modelo treinado. Apresentada dessa forma, cada linha da matriz confusão soma
100%.
Alternativamente, a matriz confusão poderia trazer valores absolutos. Dessa forma,
cada linha somaria o número de vezes em que uma fácies real foi prevista, de forma
correta ou não. Outra alternativa, seria a construção da matriz com os percentuais
somando 100% em colunas. Dessa forma, estaríamos observando os percentuais de
positivos verdadeiros e falsos positivos, ou erros do tipo I. Os falsos positivos
representam o percentual de vezes em que dada fácies prevista é diferente da fácies
real.
7.1.1 Experimento 1 – Campos de Hugoton e Panoma
Como pode ser visto na Tabela 6.1, o teste 5 obteve os três melhores resultados no
experimento utilizando os dados para os campos de Hugoton e Panoma (experimento
1) com as técnicas Fine KNN, Weighted KNN e Bagged trees. As Figuras 7.1, 7.2 e 7.3
trazem as matrizes de confusão com o resultado obtido por essas três técnicas no teste
5. Essas matrizes de confusão apresentam os percentuais de verdadeiros positivos e
falsos negativos – métrica conhecida como revocação ou recall.
Como visto anteriormente, no teste 5 foram excluídas as informações para as
profundidades em que o perfil efeito fotoelétrico (PE) não foi medido. O melhor resultado
obtido utilizou a técnica Fine KNN obtendo acurácia equivalente a 79.4%. Esse resultado
está apresentado na Figura 7.1. As Figuras 7.2 e 7.3 apresentam as matrizes de
confusão para o segundo e terceiro melhores resultados obtidos nesse experimento.
Ambos resultados também foram obtidos no teste 5 o qual segue a metodologia de
69
excluir as informações para as profundidades em que o perfil efeito fotoelétrico (PE) não
foi medido. As técnicas Weighted KNN e Bagged Trees obtiveram acurácias de 79.4%
e 79.1%, respectivamente.
Figura 7.1 – Matriz de confusão para os campos Hugoton e Panoma durante o teste 5 utilizando a técnica Fine KNN – todos os
preditores foram utilizados, incluindo os dados de profundidade, porém excluiu-se as profundidades em que não foi medido o perfil
efeito fotoelétrico (PE)
70
Figura 7.2 – Matriz de confusão para os campos Hugoton e Panoma durante o teste 5 utilizando a técnica Weighted KNN –
todos os preditores foram utilizados, incluindo os dados de profundidade, porém excluiu-se as profundidades em que não foi
medido o perfil efeito fotoelétrico (PE)
71
Os três melhores resultados foram todos obtidos no teste 5, em que todos os preditores
foram utilizados – incluindo os dados de profundidade, os cinco perfis de poço, a
classificação entre sequência deposicional marinha ou não-marinha e posição relativa
à profundidade em que ocorreu a última alternância entre sequência marinha e não-
marinha – porém, as profundidades em que as medidas do perfil efeito fotoelétrico (PE)
não foram obtidas foram excluídas.
As técnicas utilizadas foram duas variações de K-vizinho mais próximo (Fine KNN e
Weighted KNN) e um Método Ensemble (Bagged Trees). As acurácias obtidas foram
79,4% para ambos as variações de K-vizinho Mais Próximo e 79,1% para o Método
Ensemble.
Figura 7.3 - Matriz de confusão para os campos Hugoton e Panoma durante o teste 5 utilizando a técnica Bagged Trees – todos os preditores foram utilizados, incluindo os dados de
profundidade, porém excluiu-se as profundidades em que não foi medido o perfil efeito fotoelétrico (PE)
72
Vale notar que as fácies 1, 2 e 3 são raramente previstas por engano como uma das
outras seis fácies. Essas três fácies caracterizam rochas depositadas em ambiente
deposicional não-marinho. Essa informação foi incluída no conjunto de preditores
através do marcador binário marinho ou não-marinho (NM-M) e demonstra a importância
de incluir informações conhecidas a priori como dado de entrada.
7.1.2 Experimento 2 – Campo de Namorado
Como pode ser visto na Tabela 6.2, os testes que obtiveram os três melhores resultados
no experimento 2 foram o teste 3 e o teste 5 utilizando as técnicas Fine KNN e Bagged
Trees. As Figuras 7.4, 7.5 e 7.6 trazem as matrizes de confusão destas três técnicas.
De forma similar a seção anterior, essas matrizes de confusão apresentam os
percentuais de verdadeiros positivos e falsos negativos – métrica conhecida como
revocação ou recall.
Como visto anteriormente, o teste 5 excluiu as informações para as profundidades em
que o perfil sônico (DT) não foi medido. A Figura 7.4 apresenta o melhor resultado obtido
no experimento 2. Esse resultado foi obtido no teste 5 com a técnica Bagged Trees e
obtendo acurácia equivalente a 85.1%. A Figura 7.5 apresenta a matriz de confusão
para o segundo melhor resultado obtido nesse experimento. O resultado foi obtido no
teste 3 também aplicando a técnica Bagged Trees porém seguindo a metodologia de
excluir todas as informações para o perfil sônico (DT). Dessa forma foi obtida uma
acurácia de 84.9%. A Figura 7.6 apresenta a matriz de confusão para o terceiro melhor
resultado obtido nesse experimento. O resultado foi obtido no teste 5 dessa vez
aplicando a técnica Fine KNN com a exclusão de todas as profundidades com medidas
faltantes para o perfil sônico (DT). Dessa forma foi obtida uma acurácia de 82.6%.
73
Figura 7.4 - Matriz de confusão para o campo Namorado durante o teste 5 utilizando a técnica Bagged Trees – todos os preditores foram
utilizados, incluindo os dados de profundidade, porém excluiu-se as profundidades em que não foi medido o perfil sônico (DT)
74
Figura 7.5 – Matriz de confusão para o campo Namorado durante o teste 3 utilizando a técnica Bagged Trees – apenas o perfil sônico não
foi utilizado como preditor
75
Para o campo de Namorado, novamente o teste 5 apresentou boa parte dos melhores
resultados. Para o conjunto de dados de Namorado, nesse teste, foram excluídas as
observações em que o perfil sônico (DT) não foi corrido. Porém, um dos três melhores
resultados ocorreu no teste 3, em que todos os dados do perfil sônico (DT) foram
excluídos, porém dessa forma nenhuma das observações é excluída do conjunto de
dados.
No teste 5, novamente as técnicas mais bem sucedidas foram variações do K-vizinho
mais próximo (Fine KNN) e de um Método Ensemble (Bagged Trees). Eles obtiveram
acurácia de 82,6% e 85,1%, respectivamente. No teste 3, um Método Ensemble
(Bagged Trees) obteve o melhor resultado com acurácia de 84,9%.
Figura 7.6 – Matriz de confusão para o campo Namorado durante o teste 5 utilizando a técnica Fine KNN – todos os preditores foram utilizados,
incluindo os dados de profundidade, porém excluiu-se as profundidades em que não foi medido o perfil sônico (DT)
76
7.2 Comparação entre as técnicas e testes
Essa seção apresenta uma comparação do desempenho das técnicas de classificação.
Essa comparação foi feita a partir dos resultados obtidos no experimento 1 (campos de
Hugoton e Panoma) e no experimento 2 (campo de Namorado). De maneira que é
mostrado um resumo da acurácia obtida por cada uma das 22 técnicas de
Aprendizagem de Máquina nos seis testes realizados para cada um dos experimentos.
Além disso, serão discutidos fatores que influenciaram os resultados obtidos em ambos
os experimentos.
A assimetria no número de observações para cada fácies não apresentou uma
relação direta com a qualidade da previsão de fácies.
De forma geral, o uso da informação de profundidade como um preditor trouxe
uma melhoria dos resultados, conforme testes 1, 3 e 5.
A ausência de dados para algumas profundidades causou um efeito negativo ao
desempenho de previsão. A exclusão dos preditores que não tinham o conjunto
de dados completo, conforme testes 3 e 4, ou a exclusão das profundidades que
não possuíam medidas registradas para todos os preditores, conforme testes 5
e 6, resultaram em melhora significativa dos resultados para a maioria das 22
técnicas testadas.
7.2.1 Comparação do desempenho das técnicas de Aprendizagem
de Máquina
A Figura 7.7 mostra o desempenho das 22 técnicas aplicadas aos seis testes realizados
para o experimento 1 (campos de Hugoton e Panoma). Na Figura 7.8, o gráfico da Figura
7.7 foi desmembrado em cinco gráficos para melhor visualização dos resultados. Para
77
o desmembramento, as 22 técnicas foram separadas em cinco grupos – Árvores de
Decisão, Análise Discriminante, Support Vector Machine (SVM), K-vizinho mais próximo
e Métodos Ensemble.
40.0%
45.0%
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
1 2 3 4 5 6
Número do teste
Fine tree
Medium tree
Coarse Tree
Linear discriminant
Quadratic discriminant
Linear SVM
Quadratic SVM
Cubic SVM
Fine Gaussian SVM
Median gaussian SVM
Coarse gaussian SVM
Fine KNN
Medium KNN
Coarse KNN
Cosine KNN
Cubic KNN
Weighted KNN
Boosted trees
Bagged trees
Subspace discriminant
Subspace KNN
RUSBoosted trees
Figura 7.7 – Comparação de resultados para os testes 1 à 6 realizados para o experimento 1 (campos de Hugoton e Panoma)
78
Pode ser notado nas Figuras 7.7 e 7.8 que as técnicas Bagged Trees, Fine KNN,
Weighted KNN e Fine Gaussian SVM obtiveram o melhor desempenho. Além disso, os
testes com melhor desempenho alcançado foram os 5 e 6.
Figura 7.8 Comparação de resultados para os testes 1 à 6 realizados para o experimento 1 (campos de Hugoton e Panoma) e agrupados por Árvores de
Decisão, Análise Discriminante, SVM, K-Vizinho Mais Próximo e Métodos Ensemble
40%
45%
50%
55%
60%
65%
70%
75%
80%
1 2 3 4 5 6
Número do teste
40%
45%
50%
55%
60%
65%
70%
75%
80%
1 2 3 4 5 6Número do teste
40%
45%
50%
55%
60%
65%
70%
75%
80%
1 2 3 4 5 6
Número do teste
40%
45%
50%
55%
60%
65%
70%
75%
80%
1 2 3 4 5 6
Número do teste
40%
45%
50%
55%
60%
65%
70%
75%
80%
1 2 3 4 5 6
Número do teste
79
As Figuras 7.9 e 7.10 são similares às 7.7 e 7.8, porém mostram os resultados obtidos
para o experimento 2 (campo de Namorado). A Figura 7.9 traz os resultados obtidos
pelas 22 técnicas de Aprendizagem de Máquina aplicadas em seis testes realizados
com o conjunto de dados para o campo de Namorado. A Figura 7.10, apresenta esses
mesmos resultados com as técnicas reunidas em cinco grupos – Árvores de Decisão,
Análise Discriminante, Support Vector Machine (SVM), K-vizinho mais próximo e
Métodos Ensemble – para uma melhor visualização dos resultados.
40.0%
45.0%
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
85.0%
90.0%
1 2 3 4 5 6
Número do teste
Fine treeMedium treeCoarse TreeLinear discriminantQuadratic discriminantLinear SVMQuadratic SVMCubic SVMFine Gaussian SVMMedian gaussian SVMCoarse gaussian SVMFine KNNMedium KNNCoarse KNNCosine KNNCubic KNNWeighted KNNBoosted treesBagged treesSubspace discriminantSubspace KNNRUSBoosted trees
Figura 7.9 – Comparação de resultados para os testes 1 à 6 realizados para o experimento 2 (campo de Namorado)
80
As Figuras 7.9 e 7.10 mostram que a técnica que obteve o melhor desempenho no
experimento 2 foi Bagged Trees. Além disso, os melhores desempenhos foram
alcançados nos testes 3 e 5.
Figura 7.10 - Comparação de resultados para os testes 1 à 6 realizados para o experimento 2 (campo de Namorado) e agrupados por Árvores de Decisão, Análise Discriminante, SVM, K-Vizinho Mais Próximo e Métodos Ensemble
40.0%
45.0%
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
85.0%
1 2 3 4 5 6
Número do teste
40.0%
45.0%
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
85.0%
1 2 3 4 5 6
Número do teste
40.0%
45.0%
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
85.0%
1 2 3 4 5 6
Número do teste
40.0%
45.0%
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
85.0%
1 2 3 4 5 6
Número do teste
40.0%
45.0%
50.0%
55.0%
60.0%
65.0%
70.0%
75.0%
80.0%
85.0%
1 2 3 4 5 6
Número do teste
81
Como uma conclusão das Figuras 7.7 à 7.10 podemos ver que a técnica Bagged Trees
está entre as técnicas de melhor desempenho nos dois experimentos, e além disso o
teste 5 foi o mais bem avaliado.
7.2.2 Desequilíbrio no número de observações para cada fácies
Nos dois experimentos existe uma assimetria no número de observações disponíveis
para cada uma das fácies, com algumas das fácies estando mais bem representadas
dentro da massa de dados. Com isso, era esperado que os classificadores
apresentassem melhor desempenho na previsão das fácies com maior número de
informações sobre elas. Porém, isso não ocorreu para os dois experimentos.
As Figuras 7.11 e 7.12 apresentam como o número de observações para cada fácies
está distribuído. Para o experimento 1 (campos de Hugoton e Panoma), as fácies mais
presentes são as 2, 3, 6 e 8. Entretanto, para as matrizes de confusão nas Figuras 7.1,
7.2 e 7.3 podemos observar que as fácies mais bem previstas foram a 9, 2, 1 e 3.
Para o experimento 2 (campo de Namorado) houve uma dependência maior entre o
número de observações e quão bem as fácies foram previstas. As fácies mais presentes
e mais bem previstas – conforme pode ser visto nas Figuras 7.4, 7.5 e 7.6 – foram as 2
e 7.
82
O Método Ensemble RUSBoost foi criado, originalmente, para lidar com essa assimetria
na distribuição das observações. Durante o treinamento, ele realiza uma amostragem
aleatória dos dados na qual seleciona N observações de cada fácies durante os passos
de treinamento. N é o número de observações disponíveis para a fácies com a menor
quantidade de dados disponível sobre ela. Por nesse processo excluir muitos dados de
uma massa de dados já reduzida, ele não apresentou uma melhora de desempenho em
relação aos outros classificadores.
7.2.3 Utilização dos dados de profundidade
Alimentar o classificador com informações prévias sobre as fácies aumenta a qualidade
de previsão. O conhecimento geológico sobre o campo ou bacia pode ser utilizado com
esse fim. As fácies tendem a estar presentes somente em determinados ambientes de
deposição, formações ou profundidades. Existe um caráter sequencial de deposição dos
sedimentos ao longo do tempo geológico, e isso é refletido na coluna estratigráfica de
um campo ou bacia.
16%
222%
319%
47%
57%
614%
73%
818%
94%
1
2
3
4
5
6
7
8
9
Figura 7.11 - Distribuição do número de observações por fácies para a massa de dados dos campos de
Hugoton e Panoma
15%
228%
33%
412%5
7%
615%
730%
1
2
3
4
5
6
7
Figura 7.12 - Distribuição do número de observações por fácies para a massa de
dados do campo de Namorado
83
Diversos autores propõem metodologias para representar esse caráter sequencial de
deposição, uma informação que colocada como dado de entrada para um classificador
pode ter um efeito benéfico no desempenho de previsão.
Para os campos de Hugoton e Panoma, DUBOIS et al. [1] propôs dois indicadores
geológicos resultantes de conhecimento prévio da região estudada. Para os dois
campos estudados há uma alternância entre ambientes de deposição marinhos e não
marinhos, e o padrão de empilhamento vertical desses ciclos é bem previsível com o
conhecimento geológico adquirido da região. Com isso, foram criados os indicadores
marinho (M) e não-marinho (NM) e a posição relativa (RelPos). Esse último mede a
profundidade em relação ao ponto imediatamente superior de alternância entre
ambiente marinho e não-marinho.
Para o campo de Namorado, uma separação em cinco zonas foi proposta por Faria et
al. (2001) apud CARVALHO [31]. A criação das zonas é baseada no conhecimento da
existência de cinco formações que aparecem sempre na mesma sequência, com as
cinco formações podendo estar presentes ou não em todos os poços. Cada uma das
cinco formações apresentam um padrão distinto para os parâmetros porosidade nêutron
(NPHI) e densidade aparente da formação (RHOB). CARVALHO [31] ressalta a
importância de adicionar uma informação de localidade no modelo preditivo. O indicador
geológico proposto para o campo de Namorado não foi utilizado neste trabalho.
84
Para este trabalho, foi proposta a utilização da profundidade como indicador de
localidade. A profundidade foi incluída como preditor nos testes 1, 3 e 5, como descrito
anteriormente. As Figuras 7.13 e 7.14 apresentam a distribuição das fácies por
profundidade. Com uma análise rápida dos gráficos já é possível perceber que algumas
fácies não estão presentes em todas as profundidades, e essa é uma informação que
pode contribuir a eficiência do classificador.
A escolha da profundidade como preditor teve um impacto muito importante no
desempenho das classificações realizadas. Podemos notar nas Figuras 7.7 à 7.10 que
as classificações realizadas nos testes 1, 3 e 5, nos quais a profundidade foi
considerada como preditor, obtiveram um desempenho superior as classificações
realizadas nos testes 2, 4 e 6. A despeito de estudos mais aprofundados, a descoberta
é muito importante.
0 200 400 600
2560-2590
2590-2620
2620-2650
2650-2680
2680-2710
2710-2740
2740-2770
2770-2800
2800-2830
2830-2860
2860-2890
2890-2920
2920-2950
2950-2980
2980-3010
3010-3040
3040-3070
3070-3100
3100-3130
3130-3160
3160-3190
Número de observações
Pro
fundid
ade (
pés)
1
2
3
4
5
6
7
8
9
Figura 7.13 – Distribuição das fácies por profundidade para o experimento
1 (campos de Hugoton e Panoma)
0 100 200 300 400
3000-3015
3015-3030
3030-3045
3045-3060
3060-3075
3075-3090
3090-3105
3105-3120
3120-3135
3135-3150
3150-3165
3165-3180
3180-3195
3195-3210
3210-3225
3225-3240
3240-3255
3270-3285
3285-3300
3300-3315
3315-3330
3345-3360
3360-3375
Número de observações
Pro
fundid
ade (
metr
os)
1
2
3
4
5
6
7
Figura 7.14 – Distribuição das fácies por profundidade para o experimento
2 (campo de Namorado)
85
7.2.4 Exclusão das profundidades e preditores com dados faltantes
É comum que nem todos os perfis de poços sejam corridos em todos os poços ou por
toda a profundidade de interesse dos poços. Isso ocorreu tanto para a massa de dados
dos campos de Hugoton e Panoma quanto para o campo de Namorado. Cada técnica
de Aprendizagem de Máquina lida de uma forma diferente com os dados faltantes.
Árvores de Decisão, por exemplo, podem adaptar a forma como se ramificam a partir
de um nó para acomodar a falta de um preditor para parte do conjunto de dados. Com
isso, podemos observar nas Tabelas 6.1 e 6.2 como a diferença na acurácia entre os
testes 1-2 e demais testes é menor para as Árvores de Decisão quando comparado as
técnicas KNN e SVM, por exemplo.
Para o experimento 1, os dados do perfil efeito fotoelétrico (PE) e para o experimento 2,
os dados do perfil sônico (DT) não estão disponíveis para todos os poços e
profundidades utilizados nesse estudo. Devido à dificuldade que algumas técnicas de
Aprendizagem de Máquina apresentam, como descrito no parágrafo anterior, foram
propostos dois tratamentos para a falta de dados. Para os experimentos 3 e 4, os dados
para esses dois preditores – perfil efeito fotoelétrico (PE) e perfil sônico (DT) – foram
excluídos por completo. Para os experimentos 5 e 6, os poços e profundidades em que
esses dois perfis não foram corridos foram excluídas das respectivas massas de dados.
Esse procedimento foi adotado para determinar qual dos dois tratamentos propostos
resultaria em uma maior melhora do desempenho das técnicas de Aprendizagem de
Máquina.
De forma geral, a remoção das profundidades e preditores sem o conjunto de dados
completo causou uma melhora nos resultados. Para os testes 3 e 4 foram excluídos por
completo os preditores com dados faltantes – PE para o experimento 1 e DT para o
experimento 2. Para os testes 5 e 6 foram excluídas as profundidades com dados de
PE (experimento 1) ou DT (experimento 2) faltantes. Apesar dos índices de correlação
86
relativamente altos para esses preditores em relação aos demais preditores de seus
respectivos experimentos, a perda da informação completa de um preditor (testes 3 e
4) se mostrou mais valiosa que a perda da informação para algumas profundidades
(testes 5 e 6) para ambos os experimentos. Com isso, com poucas exceções, os testes
5 e 6 apresentaram melhores resultados que os testes 3 e 4.
7.3 Comparação com estudos anteriores
Como forma de validar os resultados obtidos, nesta seção são realizadas comparações
(benchmark studies) do desempenho dos três melhores classificadores para cada um
dos dois experimentos realizados nesse estudo contra os resultados obtidos em estudos
anteriores que fizeram os mesmos experimentos.
É importante notar que alguns autores reportaram somente o desempenho dos modelos
treinados em um teste cego, ou seja, quando se realiza um teste do modelo treinado em
dados que não foram utilizados durante o treinamento. Para este estudo, o teste cego
não foi realizado e, portanto, as métricas de avaliação da qualidade de previsão foram
obtidas durante o treinamento com a validação cruzada. É esperado que durante o teste
cego o modelo treinado apresente um desempenho abaixo do alcançado durante a
validação e a comparação pode se tornar um pouco injusta. Como exemplo,
SHASHANK e MAHAPATRA [8] reportaram o F1-score médio para validação e para o
teste cego. Durante o teste cego, o F1-score médio foi de 10 a 12 pontos percentuais
menor comparado ao obtido durante o treinamento com validação cruzada.
Para os campos de Hugoton e Panoma (experimento 1), foram utilizados para
comparação os resultados obtidos por HALL [3], BESTAGINI e LIPARI et al. [2],
SHASHANK e MAHAPATRA [8] e resultados da competição internacional apresentados
em HALL e HALL [4]. Os resultados apresentados nas tabelas 7.1, 7.2 e 7.3 para HALL
[3] e HALL e HALL [4] foram obtidos em testes cegos. Os resultados apresentados para
87
BESTAGINI e LIPARI et al. [2] e SHASHANK e MAHAPATRA [8] foram obtidos em
treinamento.
Para o campo de Namorado, os resultados são comparados ao trabalho de CARVALHO
[31]. Os resultados apresentados por CARVALHO [31] foram obtidos em testes cegos.
Também são apresentados os resultados de outros estudos em que fácies semelhantes
foram agrupadas de forma a tornar o problema menos complexo.
Como mencionado na metodologia, o critério adotado para comparação com estudos
anteriores foi o F1-score. De maneira que, HALL [3] obteve um F1-score médio de 43%
ao aplicar uma SVM com função Kernel Gaussiana (Gaussian SVM), o parâmetro σ
com valor um e o parâmetro de margem flexível (C) com valor 10. Os dados de um dos
12 poços disponíveis foram reservados para realização de um teste cego com o modelo
treinado e 5% das amostras dos 11 poços restantes foram colocados à parte para
cálculo do erro de validação durante a fase de treinamento. A comparação entre o
resultado obtido nesse experimento, e os três classificadores de melhor desempenho
para o experimento 1 (campos de Hugoton e Panoma) desse trabalho estão
apresentados na Tabela 7.1.
Tabela 7.1- F1-score para os três melhores classificadores para o experimento 1 (dados dos campos Hugoton e Panoma) comparados aos resultados obtidos no
experimento realizado por HALL [3]
Fácies Teste 5 - Fine KNN
Teste 5 - Weighted KNN
Teste 5 - Bagged Trees
HALL [3] - SVM
1 84% 84% 84% 12%
2 83% 84% 84% 48%
3 81% 82% 82% 58%
4 77% 76% 76% 27%
5 67% 67% 67% 13%
6 74% 75% 75% 59%
7 81% 79% 79% 42%
8 77% 77% 77% 49%
9 91% 89% 89% 0%
F1-score médio 80% 79% 79% 43%
88
Como pode ser visto na Tabela 7.1 os resultados obtidos neste trabalho são bem
superiores aos resultados obtidos por HALL [3], com quase o dobre de acerto feito em
quase todas as classificações realizadas.
Os demais trabalhos apresentaram somente o F1-score médio, sem apresentar o
detalhe dos resultados obtidos por fácies. BESTAGINI e LIPARI et al. [2] obtiveram o
terceiro melhor resultado no concurso internacional apresentado em HALL e HALL [4]
com um F1-score médio de 61% aplicando um Método Ensemble conhecido como
Gradient Boosted Trees e validação cruzada com 10 partições – mesma opção
escolhida no presente trabalho. Os autores não realizaram nenhum tratamento para as
profundidades em que o perfil efeito fotoelétrico (PE) não foi medido, o que poderia ter
contribuído para melhores resultados. Ao invés disso, propuseram uma ampliação da
dimensão do espaço característico fazendo a multiplicação dois a dois, elemento a
elemento dos 7 preditores originais. Em HALL e HALL [4], o modelo treinado proposto
por BESTAGINI e LIPARI et al. [2] foi confrontado com dados de novos poços em um
teste cego no qual obtiveram um F1-score médio de 62%, demonstrando a eficiência da
validação cruzada para evitar o problema de overfitting. Os dois melhores resultados
apresentados em HALL e HALL [4] obtiveram F1-score médios de 63% e 64%, ambos
utilizando Métodos Ensemble – não especificados no artigo – com Árvores de Decisão
como classificadores base.
SHASHANK e MAHAPATRA [8] construíram o próprio Método Ensemble utilizando
como classificadores base uma Support Vector Machine, uma Extremely Randomized
Tree e uma Gradient Boosted Tree. Após diversos testes para realizar o ajuste fino de
cada um dos classificadores base, os autores obtiveram F1-score médio de 62%, 63%
e 61%. Os três classificadores base foram combinados com base em um sistema de
pesos atribuídos a cada um deles de forma a reduzir o erro de previsão. Dessa forma,
89
o F1-score durante a validação cruzada com 5 partições foi de 64%. Um resumo desses
resultados está apresentado na Tabela 7.2.
Tabela 7.2 - F1-score obtido para os três melhores classificadores para o experimento 1 (campos de Hugoton e Panoma) comparados a estudos
internacionais que utilizaram o mesmo conjunto de dados
Testes e Técnicas de Aprendizagem de Máquina F1-score médio
Teste 5 - Fine KNN 80%
Teste 5 - Weighted KNN 80%
Teste 5 - Bagged Trees 79%
HALL [3] - SVM 43%
BESTAGINI e LIPARI et al. [2] - Gradient Boosted Trees 61%
HALL e HALL [4] - Método Ensemble -1⁰ colocado 63%
HALL e HALL [4] - Método Ensemble -2⁰ colocado 64%
SHASHANK e MAHAPATRA [8] - SVM 62%
SHASHANK e MAHAPATRA [8] - Extremely Randomized Trees 63%
SHASHANK e MAHAPATRA [8] - Gradient Boosted Trees 61%
SHASHANK e MAHAPATRA [8] - Método Ensemble 64%
CARVALHO [31] implementou três técnicas de Aprendizagem de Máquina ao
apresentar uma solução para o problema de classificação de fácies com dados para o
campo de Namorado. As três técnicas utilizadas foram Supported Vector Machine, um
Método Ensemble denominado Random Forest similar a técnica Bagged Trees
implementada nesse trabalho, e K-vizinhos mais próximos. Foram propostos dois
procedimentos para lidar com as medidas faltantes do perfil sônico (DT) para algumas
profundidades. Para o primeiro (caso inicial), o perfil sônico (DT) não foi utilizado como
preditor. Para o segundo (caso final), os dados faltantes foram estimados com uma
técnica de regressão. Para o caso final ainda foi incluído um parâmetro de cálculo do
volume de folhelho baseado nos dados do perfil densidade nêutron (NPHI) e densidade
aparente da formação (RHOB), e um indicador de posição como descrito na seção 7.2.3.
Os fatores F1-score foram calculados baseado nas matrizes de confusão apresentadas
em CARVALHO [31] e estão apresentadas em conjunto com o F1-score para os três
melhores classificadores para o experimento 2 (campo de Namorado) na tabela 7.3.
90
Tabela 7.3 - F1-score obtido para os três melhores classificadores para o experimento 2 (campo de Namorado) comparados aos seis resultados obtidos
por CARVALHO [31]
Fácies 1 2 3 4 5 6 7
F1-score médio
Teste 5 - Bagged Trees 65% 81% 82% 82% 73% 84% 93% 80%
Teste 3 - Bagged Trees 64% 85% 78% 82% 71% 85% 93% 80%
Teste 5 - Fine KNN 64% 81% 70% 74% 73% 82% 91% 76%
CARVALHO [31] - SVM - Caso inicial 1% 71% 0% 47% 1% 54% 71% 35%
CARVALHO [31] - Random Forest - Caso inicial
4% 70% 16% 49% 1% 56% 69% 38%
CARVALHO [31] - KNN - Caso inicial 0% 72% 2% 43% 3% 56% 67% 35%
CARVALHO [31] - SVM - Caso final 1% 76% 0% 50% 0% 64% 76% 38%
CARVALHO [31] - Random Forest - Caso final
2% 75% 8% 46% 1% 56% 75% 38%
CARVALHO [31] - KNN - Caso final 3% 75% 7% 48% 4% 61% 75% 39%
Diversos autores utilizaram massas de dados semelhantes com poços para o campo de
Namorado. De forma geral, todos os autores partem da definição de fácies deposicionais
estabelecida pela Petrobras com 21 fácies presentes conforme descrito em BARBOZA
[29]. A partir daí, procedimentos distintos são adotados para agrupar as fácies de forma
mais prática à aplicação da classificação de fácies através da Aprendizagem de
Máquina, tornando o problema menos complexo. Este trabalho e CARVALHO [31]
adotaram o agrupamento proposto por BARBOZA [31] com sete fácies.
FLEXA e ANDRADE et al. [32] utilizaram a técnica Análise Discriminante para
diferenciar rochas selantes e reservatório para dois poços, sem cálculo de uma métrica
de avaliação de qualidade quando comparado a análise de testemunho. CUNHA [33]
utilizou a técnica de Redes Neurais Artificiais para realizar a classificação de fácies
baseada na correlação entre análise de testemunho e perfis de poço. Diante da
complexidade do problema, a autora testou diversos agrupamentos das fácies obtendo
acurácias superiores a 80%, porém nunca utilizando todas as fácies simultaneamente
em seus experimentos. NINCI [34] utilizou Lógica Fuzzy (Nebulosa) para resolver o
mesmo problema. A autora agrupou as fácies em quatro grupos baseados na
91
granulometria, cimentação, presença de folhelhos e probabilidade de serem rocha
reservatório. Os índices de acerto foram analisados poço a poço e variaram entre 29%
e 91%. O agrupamento distinto não permite a comparação dos resultados.
As Tabelas 7.1, 7.2, e 7.3 mostram que os resultados obtidos nas pesquisas realizadas
foram bem superiores aos resultados obtidos em todas as outras pesquisas realizadas
anteriormente. Com relação ao experimento 1, muitas pesquisas foram realizadas, uma
vez que houve, um concurso promovido pela revista The Leading Edge para
classificação de fácies dos poços de Hugoton e Panoma. E nenhum dos resultados
obtidos neste concurso foram superiores aos resultados obtidos nas pesquisas
realizadas.
Com relação ao experimento 2 também houveram diversos estudos usando os dados
de Namorado e da mesma forma os resultados obtidos não foram superiores aos
resultados obtidos nas pesquisas realizadas.
92
8 Sugestões para trabalhos futuros
A abordagem utilizada nesse trabalho, a princípio, mostrou-se bem sucedida quando
comparada ao desempenho relatado em estudos anteriores com problemas de
classificação de fácies utilizando técnicas de Aprendizagem de Máquina. Porém, alguns
tópicos poderiam ser explorados para ter uma melhora ainda maior dos resultados
obtidos.
Diversas técnicas de Aprendizagem de Máquina – como K-vizinho mais próximo –
trabalham com medidas de distância para determinar a similaridade dos pontos. A
padronização dos dados poderia trazer benefícios a qualidade de previsão. Ou seja,
subtrair elemento a elemento a média para cada preditor e logo após fazer a divisão
pelo desvio padrão. Isso faria com que todos os preditores tivessem média zero e desvio
padrão igual a um, tornando as distâncias entre pontos para cada dimensão do espaço
característico (cada preditor) mais comparável.
A estimativa dos dados faltantes para os preditores que não temos informação em todas
as profundidades – perfil efeito fotoelétrico (PE) para os campos de Hugoton e Panoma
e perfil sônico (DT) para o campo de Namorado – poderiam ser estimados através de
técnicas de regressão, como já realizado em outros trabalhos, ou técnicas mais
avançadas para estimativas de dados faltantes. Esse procedimento também poderia
trazer um efeito benéfico, evitando a exclusão de dados como aconteceu nos testes 3,
4, 5 e 6 para ambos os experimentos realizados.
Caso fossem disponibilizados dados para novos poços, a realização de teste cego com
esses poços daria a prova final de que a validação cruzada protegeu de forma eficiente
os modelos treinados do overfitting. Como discutido na seção 5.2, esse procedimento
foi evitado já que reduziria ainda mais as massas de dados já consideradas pequenas.
93
Outra abordagem que poderia ser adotada se deve as fácies não serem completamente
discretas. Em certas profundidades ocorre uma transição entre fácies vizinhas, e nessas
profundidades é esperado que ocorra um menor índice de acerto [4]. Diversos autores
propuseram considerar como um acerto a previsão de uma face vizinha por engano.
Esse pós-tratamento dos dados produz medidas de avaliação de qualidade altas. Como
exemplo, HALL [3] obteve um F1-score de 88% quando adotou esse critério comparado
a 43% quando esse critério não foi considerado. Esse critério não foi adotado nessa
monografia.
94
9 Conclusões
Neste trabalho foi apresentada uma comparação entre 22 técnicas de Aprendizagem de
Máquina em dois experimentos. Os dois conjuntos de dados – campos de Hugoton e
Panoma e campo de Namorado – foram escolhidos devido ao grande número de
trabalhos nacionais e internacionais que os utilizaram para estudar problemas de
classificação de fácies.
O aplicativo Classification Learner em Matlab foi escolhido por permitir que um grande
número de técnicas de Aprendizagem de Máquina fosse testado sob diferentes
configurações em um curtíssimo espaço de tempo e com necessidade mínima de
escrever códigos de programação.
A abordagem permitiu que fossem descobertas as melhores técnicas de Aprendizagem
de Máquina para lidar com os dois experimentos, o efeito positivo do uso da informação
de profundidade como indicador de posição dentro do poço e de que forma a exclusão
de amostras de dados e preditores afetam o desempenho dos classificadores.
Houve uma melhora significativa na qualidade da previsão de fácies quando comparada
a estudos anteriores. A abordagem proposta se mostrou bem sucedida para a análise
de duas massas de dados consideradas pequenas, porém pode se tornar inviável para
análise de um volume grande de dados devido ao tempo computacional requerido.
95
10 Bibliografia
[1] DUBOIS, M., BOHLING, G., CHAKRABARTI, S. “Comparison Of Four Approaches
To A Rock Facies Classification Problem”, Computers & Geosciences v. 33, n. 5, pp.
599-617, 2007.
[2] BESTAGINI, P., LIPARI, V., TUBARO, S., “A Machine Learning Approach To Facies
Classification Using Well Logs”. 2017 SEG International Exposition and Annual
Meeting, Houston, Estados Unidos, 24-29 Setembro 2017.
[3] HALL, B. “Facies Classification Using Machine Learning”, The Leading Edge v. 35,
n. 10, pp. 906–909, 2016.
[4] HALL, M., HALL, B. “Distributed Collaborative Prediction: Results Of The Machine
Learning Contest”, The Leading Edge v. 36, n. 3, pp. 267–269, 2017.
[5] BATEMAN, R., Openhole Log Analysis and Formation Evaluation. 2 ed.
Richardson, SPE, 2012.
[6] ELLIS, D., SINGER, J., Well logging for Earth Scientists. 2 ed. Dordrecht, Springer,
2007.
[7] SCHLUMBERGER OILFIELD GLOSSARY. PEF. Schlumberger Oilfield Glossary,
2019. Disponível em: <https://www.glossary.oilfield.slb.com/en/Terms/p/pef.aspx>.
Acesso em: 28 jul. 2019.
[8] SHASHANK, S., MAHAPATRA, P., “Boosting Rock Facies Prediction: Weighted
Ensemble of Machine Learning Classifiers”. Abu Dhabi International Petroleum
Exhibition & Conference, Abu Dhabi, Emirados Árabes, 12-15 Novembro 2018.
[9] THE MATHWORKS, INC., Statistics and Machine Learning Toolbox™ User’s
Guide, Natick, The MathWorks, Inc., 2016.
96
[10] WIKIPEDIA. Precision and Recall. Wikipedia, 2019. Disponível em:
<https://en.wikipedia.org/wiki/Precision_and_recall>. Acesso em: 28 jul. 2019.
[11] MITCHELL, T., Machine Learning, 1 ed. Boston, McGraw-Hill, 1997.
[12] MACHINE LEARNING MASTERY. Classification And Regression Trees For
Machine Learning. Blog Machine Learning Mastery, 2016. Disponível em:
<https://machinelearningmastery.com/classification-and-regression-trees-for-machine-
learning/>. Acesso em: 28 jul. 2019.
[13] WIKIPEDIA. Covariance. Wikipedia, 2019. Disponível em:
<https://en.wikipedia.org/wiki/Covariance>. Acesso em: 28 jul. 2019.
[14] MACHINE LEARNING MASTERY. Support Vector Machines For Machine Learning.
Blog Machine Learning Mastery, 2016. Disponível em:
<https://machinelearningmastery.com/support-vector-machines-for-machine-learning/>.
Acessado em: 28 jul.2019.
[15] LORENA, A., CARVALHO, A. “Uma Introdução às Support Vector Machines”,
Revista de Informática Teórica e Aplicada (UFRGS) v. 14, n. 2, pp. 43-67, 2007.
[16] MACHINE LEARNING MASTERY. K-Nearest Neighbors for Machine Learning. Blog
Machine Learning Mastery, 2016. Disponível em:
<https://machinelearningmastery.com/k-nearest-neighbors-for-machine-learning/>.
Acesso em: 28 jul. 2019.
[17] MACHINE LEARNING MASTERY. Bagging and Random Forest Ensemble
Algorithms for Machine Learning. Blog Machine Learning Mastery, 2016. Disponível em:
<https://machinelearningmastery.com/bagging-and-random-forest-ensemble-
algorithms-for-machine-learning/>. Acesso em: 28 jul. 2019.
97
[18] MACHINE LEARNING MASTERY. Boosting and AdaBoost For Machine Learning.
Blog Machine Learning Mastery, 2016. Disponível em:
<https://machinelearningmastery.com/boosting-and-adaboost-for-machine-learning/>
Acesso em: 28 jul. 2019.
[19] NOSHI, I., SCHUBERT, J., “The Role of Machine Learning in Drilling Operations; A
Review”. SPE/AAPG Eastern Regional Meeting, Pittsburgh, Estados Unidos, 7-11
Outubro 2018.
[20] MANIAR, H., RYALI, S., KULKARNI, S. et al. “Machine-Learning Methods In
Geoscience”. 2018 SEG International Exposition and Annual Meeting, Anaheim,
Estados Unidos, 14-19 Novembro 2018.
[21] BANDURA, L., HALPERT, D., ZHANG, Z., “Machine learning in the interpreter’s
toolbox: Unsupervised, supervised, and deep-learning applications”. 2018 SEG
International Exposition and Annual Meeting, Anaheim, Estados Unidos, 14-19
Novembro 2018.
[22] SNEED, J. “Predicting ESP Lifespan With Machine Learning”. SPE/AAPG/SEG
Unconventional Resources Technology Conference, Austin, Estados Unidos, 24-26
Julho 2017
[23] BERTRAM, J., FAN, Y., RAFFELT, D. et al., “An Applied Machine Learning
Approach To Subsea Asset Inspection”. Abu Dhabi International Petroleum
Exhibition & Conference, Abu Dhabi, Emirados Árabes, 12-15 Novembro 2018.
[24] XU, C., MISRA, S., SRINIVASAN, P. et al., “When Petrophysics Meets Big Data:
What can Machine Do?”. SPE Middle East Oil and Gas Show and Conference,
Manama, Bahrain, 18-21 Março 2019.
98
[25] BIZE-FOREST, N., LIMA, L., BAINES, V. et al., “Using Machine-Learning for
Depositional Facies Prediction in a Complex Carbonate Reservoir”. SPWLA 59th Annual
Logging Symposium, Londres, Reino Unido, 2-6 Junho 2018.
[26] ZIMMERMANN, T., LIANG, L., ZEROUG, S. “Machine-Learning-Based Automatic
Well-Log Depth Matching”, Petrophysics v. 59, n. 06, pp. 863-872, Dez. 2018.
[27] HAYUM, L., RIOS, E., COUTO, P., “Correlação rocha-perfil para o campo de
Namorado”. 9o Congresso Brasileiro de Pesquisa e Desenvolvimento em Petróleo
e Gás, Maceió, AL, Brasil, 9-11 Novembro 2017.
[28] DOCPLAYER. Overview of the Hugoton Asset Management Project (HAMP)
Southwest Kansas and Oklahoma Panhandle. Midcontinent AAPG, 2005. Disponível
em: <https://docplayer.net/14681006-Overview-of-the-hugoton-asset-management-
project-hamp-southwest-kansas-and-oklahoma-panhandle.html>. Acesso em: 28 jul.
2019.
[29] BARBOZA, E., Análise Estratigráfica do Campo de Namorado (Bacia de
Campos) com Base na Interpretação Sísmica Tridimensional. Tese de D.Sc.,
UFRGS, Porto Alegre, RS, Brasil, 2005.
[30] CARVALHO, L., SANTOS, L., MEDEIROS, L., et al., “Prediction of depositional
facies using data mining on well logs from Namorado oil field, offshore Brazil”. 37o
Congresso Íbero Latino-Americano de Métodos Computacionais em Engenharia,
Florianópolis, SC, Brasil, 5-8 Novembro 2017.
[31] CARVALHO, L., Previsão de Fácies Deposicionais Usando Perfis de Poço do
Campo de Namorado. Tese de B.Sc., UFRJ, Rio de Janeiro, RJ, Brasil, 2017.
[32] FLEXA, R., ANDRADE, A., CARRASQUILLA, A. “Identificação de Litotipos nos
Perfis de Poço do Campo de Namorado (Bacia de Campos, Brasil) e do Lago Maracaibo
99
(Venezuela) Aplicando Estatística Multivariada”, Revista Brasileira de Geociências v.
34, n. 04, pp. 571-578, Dez. 2004.
[33] CUNHA, E., Identificação de Litofácies de Poços de Petróleo Utilizando um
Método Baseado em Redes Neurais Artificiais. Tese de M.Sc., UFCG, Campina
Grande, PB, Brasil, 2002.
[34] NINCI, B., Aplicação da Lógica Nebulosa na Determinação de Fácies do
Campo de Namorado. Tese de M.Sc., Unicamp, Campinas, SP, Brasil, 2008.