anÁlise de dados de bases de honeypots: estatÍstica...

105
UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA Pedro Henrique Matheus da Costa Ferreira ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA DESCRITIVA E REGRAS DE IDS São Paulo 2015

Upload: others

Post on 12-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE

PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

Pedro Henrique Matheus da Costa Ferreira

ANÁLISE DE DADOS DE BASES DE HONEYPOTS:

ESTATÍSTICA DESCRITIVA E REGRAS DE IDS

São Paulo

2015

Page 2: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE

PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

Pedro Henrique Matheus da Costa Ferreira

ANÁLISE DE DADOS DE BASES DE HONEYPOTS:

ESTATÍSTICA DESCRITIVA E REGRAS DE IDS

Dissertação de Mestrado apresentada ao

Programa de Pós-Graduação em Enge-

nharia Elétrica e de Computação da Uni-

versidade Presbiteriana Mackenzie, como

requisito parcial para a obtenção do título

de Mestre em Engenharia de Computa-

ção.

Orientador: Prof. Dr. Leandro Nunes de Castro

São Paulo

2015

Page 3: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

F383a

Ferreira, Pedro Henrique Matheus da Costa

Análise de dados de bases de Honeypots: estatística descritiva e

regras de IDS. / Pedro Henrique Matheus da Costa Ferreira – São

Paulo, 2015.

110 f.: il.; 30 cm

Dissertação (Programa de Pós-Graduação (Stricto Sensu) em

Engenharia Elétrica) - Universidade Presbiteriana Mackenzie - São

Paulo, 2015.

Orientador: Leandro Nunes de Castro

Bibliografia: f. 94-96

1. Honeypot. 2. Dionaea. 3. Data mining. 4. IDS. 5. Árvores de de-

cisão. I.Título.

CDD 006.3

Page 4: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

I

Page 5: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

II

AGRADECIMENTOS

Em primeiro lugar gostaria de agradecer a Deus pelos problemas e dificuldades que encontrei

pelo caminho da minha vida. Sem esses problemas e dificuldades eu não teria saído da minha

zona de conforto para buscar soluções e novos desafios. Tampouco teria conhecido pessoas

maravilhosas como a equipe da Divisão de Segurança de Sistemas de Informação (DSSI) do

Centro de Tecnologia Renato Archer (CTI), pessoas essas que apresentaram um mundo com-

pletamente desconhecido para mim, o mundo acadêmico. Devo meu agradecimento especial ao

Ferrucio de Franco Rosa por ter me convidado a me juntar à equipe do DSSI, ao Antonio Mon-

tes Filho por ter me apresentado ao mundo dos honeypots e ao Amandio Ferreira Balcão Filho

por ter sido um chefe de divisão exemplar. Ao Luís Otavio Duarte e ao Fausto de Almeida Filho

por serem ótimos colegas de trabalho e me incentivarem a fazer e concluir o mestrado sempre

dando suporte e auxílio quando necessário.

Em segundo lugar gostaria de agradecer a todos os membros do Laboratório de Com-

putação Natural (LCoN), em especial a Ana Carolina Lima, ao Daniel Gomes Ferrari e ao Da-

nilo Cunha, que me receberam de braços abertos e acabaram se tornando uma segunda família,

uma família acadêmica. Gostaria de ressaltar que o ambiente proporcionado pelo LCoN foi para

mim muito produtivo, pois pude trocar ideias e receber sugestões e dicas para a execução dessa

pesquisa.

Em terceiro lugar gostaria de agradecer a meus familiares, principalmente a minha mãe

querida Sra. Noemy Matheus, por ter me amparado e dado suporte em minhas decisões sem

nunca me criticar. Aproveito para agradecer também aos meus irmãos Patrícia Paula Matheus

Corujas e Hernani Adriano Matheus Corujas, que tiveram a paciência de me receber diversas

vezes em suas residências já em horário avançado da noite, me cedendo abrigo, uma cama

quente e uma refeição farta.

Por último, mas não menos importante, meu agradecimento especial ao meu orientador

o Professor Dr. Leandro Nunes de Castro, por ter me orientado e me auxiliado não só no âmbito

acadêmico, mas em minha vida, seus conselhos serão lembrados e utilizados ao longo de minha

jornada. O senhor me ajudou a ser um Mestre e, acima de tudo, a ser uma pessoa melhor.

Aproveito para agradecer as agências de fomento CAPES, MackPesquisa e FAPESP

por terem fomentado essa pesquisa, fornecendo subsídio financeiro ou tecnológico, juntamente

a todo corpo docente do Programa de Pós Graduação em Engenharia Elétrica e de Computação

da Universidade Presbiteriana Mackenzie.

Page 6: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

III

RESUMO

Um honeypot é um sistema computacional de segurança dedicado a ser sondado, atacado ou

comprometido. As informações coletadas auxiliam na identificação de ameaças computacio-

nais aos ativos de rede. Ao ser sondado, atacado e comprometido o honeypot recebe uma se-

quência de comandos que têm como principal objetivo explorar uma vulnerabilidade dos siste-

mas emulados. Este trabalho faz uso dos dados coletados por honeypots para a criação de regras

e assinaturas para sistemas de detecção de intrusão. As regras são extraídas de árvores de deci-

são construídas a partir dos conjuntos de dados de um honeypot real. Os resultados dos experi-

mentos realizados com quatro bases de dados, duas públicas e duas privadas, mostraram que é

possível a extração de regras para um sistema de detecção de intrusão utilizando técnicas de

mineração de dados, em particular as árvores de decisão. A técnica empregada apontou simila-

ridades entre os conjuntos de dados, mesmo a coleta ocorrendo em locais e períodos de tempos

distintos. Além das regras obtidas, a técnica permite ao analista identificar problemas existentes

de forma rápida e visual, facilitando o processo de análise.

Palavras-chave: Honeypot, Dionaea, Mineração de Dados, IDS, Árvores de Decisão.

Page 7: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

IV

ABSTRACT

A honeypot is a computer security system dedicated to being probed, attacked or compromised.

The information collected help in the identification of threats to computer network assets. When

probed, attacked and compromised the honeypot receives a sequence of commands that are

mainly intended to exploit a vulnerability of the emulated systems. This work uses data col-

lected by honeypots to create rules and signatures for intrusion detection systems. The rules are

extracted from decision trees constructed from the data sets of real honeypots. The results of

experiments performed with four databases, both public and private, showed that the extraction

of rules for an intrusion detection system is possible using data mining techniques, particularly

decision trees. The technique pointed out similarities between the data sets, even the collection

occurring in places and periods of different times. In addition to the rules obtained, the tech-

nique allows the analyst to identify problems quickly and visually, facilitating the analysis pro-

cess.

Palavras-chave: Honeypot, Dionaea, Data Mining, IDS, Decision Trees.

Page 8: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

V

Índice de Tabelas

Tabela 1: Matriz de confusão utilizada para avaliar o desempenho de classificadores binários.

.................................................................................................................................................. 15

Tabela 2: Informações sobre os dados coletados. ................................................................... 20

Tabela 3: Atributos que compõem a base de dados. ............................................................... 23

Tabela 4: Justificativa para a escolha dos atributos ................................................................ 24

Tabela 5: Resumo dos conjuntos de dados estudados ............................................................. 25

Tabela 6: Análise de frequência dos atributos do conjunto de dados Paris. Frequência (F),

Frequência Relativa (FR). (a) Tabela referente ao atributo connection_protocol, (b) Tabela

referente ao atributo dcerpcservice_name, (c) Tabela referente ao atributo

dcerpcserviceop_name, (d) Tabela referente ao atributo dcerpcbind_uuid, (e) Tabela referente

ao atributo dcerpcbind_transfersyntax, (f) Tabela referente ao atributo dcerpcserviceop_vuln,

(g) Tabela referente ao atributo local_port, (h) Tabela referente ao atributo connection_date e

(i) Tabela referente ao atributo connection_time. .................................................................... 26

Tabela 7: Resumo do domínio dos atributos selecionados do conjunto Paris......................... 28

Tabela 8: Análise de frequencia dos atributos do conjunto de dados Berlin. Frequência (F),

Frequência Relativa (FR). (a) Tabela referente ao atributo connection_protocol, (b) Tabela

referente ao atributo dcerpcservice_name, (c) Tabela referente ao atributo

dcerpcserviceop_name, (d) Tabela referente ao atributo dcerpcbind_uuid, (e) Tabela referente

ao atributo dcerpcbind_transfersyntax, (f) Tabela referente ao atributo dcerpcserviceop_vuln,

(g) Tabela referente ao atributo local_port, (h) Tabela referente ao atributo connection_date e

(i) Tabela referente ao atributo connection_time. .................................................................... 29

Tabela 9: Resumo do domínio dos atributos selecionados do conjunto Berlin....................... 31

Tabela 10: Análise de frequencia dos atributos do conjunto de dados Jacareí. Frequência (F),

Frequência Relativa (FR). (a) Tabela referente ao atributo connection_protocol, (b) Tabela

referente ao atributo dcerpcservice_name, (c) Tabela referente ao atributo

dcerpcserviceop_name, (d) Tabela referente ao atributo dcerpcbind_uuid, (e) Tabela referente

ao atributo dcerpcbind_transfersyntax, (f) Tabela referente ao atributo dcerpcserviceop_vuln,

(g) Tabela referente ao atributo local_port, (h) Tabela referente ao atributo connection_date e

(i) Tabela referente ao atributo connection_time ..................................................................... 33

Tabela 11: Resumo do domínio dos atributos selecionados do conjunto Jacareí. .................. 35

Tabela 12: Análise de frequencia dos atributos do conjunto de dados Campinas. Frequência

(F), Frequência Relativa (FR). (a) Tabela referente ao atributo connection_protocol, (b) Tabela

Page 9: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

VI

referente ao atributo dcerpcservice_name, (c) Tabela referente ao atributo

dcerpcserviceop_name, (d) Tabela referente ao atributo dcerpcbind_uuid, (e) Tabela referente

ao atributo dcerpcbind_transfersyntax, (f) Tabela referente ao atributo dcerpcserviceop_vuln,

(g) Tabela referente ao atributo local_port, (h) Tabela referente ao atributo connection_date e

(i) Tabela referente ao atributo connection_time ..................................................................... 36

Tabela 13: Resumo do domínio dos atributos selecionados do conjunto Campinas. ............. 38

Tabela 14: Matrizes de confusão das árvores geradas pelos subconjuntos da base de dados

Paris. (a) Matriz de confusão do primeiro dia, (b) Matriz de confusão do segundo dia, (c) Matriz

de confusão do terceiro dia, (d) Matriz de confusão do quarto dia, (e) Matriz de confusão do

quinto dia, (f) Matriz de confusão do sexto dia, (g) Matriz de confusão do sétimo dia, (h) Matriz

de confusão do oitavo dia. ........................................................................................................ 46

Tabela 15: Tabela Resumo do Desempenho das árvores do Conjunto Paris. ......................... 48

Tabela 16: Média do desempenho das árvores do conjunto Paris. .......................................... 48

Tabela 17: Matrizes de confusão dos subconjuntos da base de dados Berlin. (a) Matriz de

confusão da primeira semana, (b) Matriz de confusão da segunda semana, (c) Matriz de

confusão da terceira semana. .................................................................................................... 51

Tabela 18: Tabela Resumo do Desempenho das Arvores do Conjunto Berlin ....................... 52

Tabela 19: Média do desempenho das árvores do conjunto Berlin ......................................... 52

Tabela 20: Matrizes de Confusão dos subconjuntos da base de dados Jacareí. (a) Matriz de

confusão da primeira semana, (b) Matriz de confusão da segunda semana, (c) Matriz de

confusão da terceira semana, (d) Matriz de confusão da quarta semana, (e) Matriz de confusão

da quinta semana. ..................................................................................................................... 58

Tabela 21: Tabela Resumo do Desempenho das Arvores do Conjunto Jacareí ...................... 59

Tabela 22: Média do desempenho das árvores do conjunto Jacareí........................................ 59

Tabela 23: Matrizes de confusão das árvores geradas pelos subconjuntos do conjunto de dados

Campinas. (a) Matriz referente a primeira semana, (b) Matriz referente a segunda semana, (c)

Matriz referente a terceira semana, (d) Matriz referente a quarta semana, (e) Matriz referente a

quinta semana, (f) Matriz referente a sexta semana, (g) Matriz referente a sétima semana, (h)

Matriz refernte a oitava semana, (i) Matriz referente a nona semana, (k) Matriz referente a

décima primeira semana, (l) Matriz referente a décima segunda semana, (m) Matriz referente a

decima terceira semana. ............................................................................................................ 62

Tabela 24: Tabela resumo do desempenho das árvores do conjunto Campinas ..................... 77

Tabela 25: Média do desempenho das árvores do conjunto Campinas ................................... 77

Page 10: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

VII

Índice de Figuras Figura 1: Classificação dos honeypots segundo (Seifert, Welch, & Komisarczuk, 2006) ....... 7

Figura 2: Fluxo de um ataque e de um processo de armazenamento das informações. ............ 9

Figura 3: Algoritmo C4.5 traduzido do original (Quinlan, 1993) ........................................... 13

Figura 4: Modelo de entidade e relacionamento da base de dados do Honeypot ................... 21

Figura 5: Árvores obtidas utilizando os subconjuntos de Paris .............................................. 43

Figura 6: Árvores obtidas utilizando os subconjuntos de Berlin ............................................ 55

Figura 7: Árvores obtidas utilizando os subconjuntos de Jacareí ........................................... 57

Figura 8: Árvores obtidas utilizando os subconjuntos de Campinas. ..................................... 80

Figura 9: Árvore exemplo, obtida por meio das árvores geradas nos quatro conjuntos de dados.

.................................................................................................................................................. 81

Page 11: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

VIII

GLOSSÁRIO

SIGLA DESCRIÇÃO

Antivirus É um programa de computador que detecta, evita e atua na neutralização

ou remoção de programas maliciosos, como vírus e worms.

APT Advanced Persistent Threat

Artefato

Malicioso

Todo software, arquivo, aplicativo, ou dado que, ao ser armazenado,

pode ser utilizado para causar qualquer tipo de dano ou obter qualquer

tipo de informação do equipamento ou de seu usuário.

Ataque Tentativa, bem ou mal sucedida, de acesso ou uso não autorizado a um

programa ou computador. Também são considerados ataques as tentati-

vas de negação de serviço.

BGP O Border Gateway Protocol (Protocolo de roteamento de borda) é o pro-

tocolo de roteamento exterior utilizado atualmente na Internet.

BitStream Local onde são armazenados os fluxos de um ataque para que seja pos-

sível repeti-lo em um estudo.

Botnet Computadores infectados com artefatos maliciosos de softwares utiliza-

dos para controlar remotamente o equipamento, direcionando os ataques

a um ponto único.

DCERPC Distributed Computing Environment / Remote Procedure Call

Dionaea Honeypot de média interatividade.

DoS Denial of Service.

EPMAPPER Microsoft RPC End Point Mapper.

Ethereal Ethereal atualmente chamado de WireShark - http://www.wi-

reshark.org/. É uma ferramenta de análise e captura de tráfego de rede.

Page 12: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

IX

Fluxo Malicioso Tráfego de rede proveniente de um ataque.

Fluxo Normal Tráfego de rede não proveniente de um ataque.

HoneyD Honeypot de baixa interatividade.

HTTPD Hyper Text Tranfer Protocol Daemon.

LOG Registro de atividade ou desempenho regular de um programa ou sis-

tema, o LOG pode ser armazenado em arquivos texto ou em bases de

dados.

Malware Software destinado a infiltrar-se em um sistema de computador alheio

de forma ilícita, com o intuito de causar alguns danos, alterações ou

roubo de informações (confidenciais ou não).

MS08-67 Boletim de segurança da Microsoft, composto por MS+ "o ano do bole-

tim" + "-" + "o número do boletim de segurança".

MSSQLD Microsoft SQL Server Daemon.

Nepenthes Honeypot de Média Interatividade.

Nmap Network Mapper disponível em: http://nmap.org/.

OSI Open System Interconect - Modelo de 7 camadas utilizado para comu-

nicação de rede.

RIP Protocolo de roteamento de redes IP baseado em troca de mensagens

entre os roteadores que utilizam o protocolo RIP. Cada mensagem do

RIP contém uma série de informações sobre as rotas que o roteador co-

nhece (com base na sua tabela de roteamento atual) e a distância do ro-

teador para cada uma das rotas. O roteador que recebe as mensagens,

com base na sua distância para o roteador que enviou a mensagem, cal-

cula a distância para as demais redes e grava estas informações em sua

tabela de roteamento. É importante salientar que distância significa

Page 13: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

X

hope, ou melhor, o número de roteadores existentes em um determinado

caminho, em uma determinada rota.

OSPF Protocolo de roteamento de rede Open Shortest Path First é a alternativa

para redes de grande porte, onde o protocolo RIP não pode ser utilizado

devido a suas características e limitações.

Payload Conteúdo da conexão ou os comandos utilizados para explorar uma fa-

lha.

Python Linguagem de programação de alto nível muito usada no Linux e em

outros sistemas Unix por ser de fácil aprendizagem, mesmo para quem

não possui experiência anterior com programação. A sintaxe é bastante

organizada e a linguagem inclui suporte a objetos.

RapidMiner Ferramenta desenvolvida em Java para mineração de dados.

RPC Remote Procedure Call é uma tecnologia de comunicação entre proces-

sos que permite um programa de computador chamar um procedimento

em outro espaço de endereçamento (geralmente em outro computador,

conectado por uma rede). O programador não se preocupa com detalhes

de implementação dessa interação remota, pois sob o ponto de vista do

código, a chamada se assemelha a chamadas de procedimentos locais.

SandBox Equipamento ou sistema preparado para executar um aplicativo de

forma a restringir seu funcionamento e monitorar seu comportamento.

ShellCode Sequência de código de máquina, ou instruções executáveis, que é inje-

tada na memória de um computador com a intenção de assumir o con-

trole de um programa em execução.

SIP Session Initiation Protocol, é utilizado em comunicação VoIP (Voz so-

bre IP).

SMBD Server Message Block Daemon.

Page 14: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

XI

SQL Linguagem de programação de consulta baseada em script (Structured

Query Language).

SRVSVC Server Service.

SurfIDS Ferramenta criada e mantida pela SURFNet, uma organização sem fins

lucrativos ligada a SURF que reúne as unidades de ensino superior e

pesquisas da Holanda - http://ids.surfnet.nl/wiki/doku.php.

TCP Protocolo de Controle de Transmissão (Transmission Control Protocol).

TLS Protocolo criptográfico (Transport Layer Security) cuja função é confe-

rir segurança para a comunicação na Internet para serviços como e-mail,

navegação por páginas web e outros tipos de transferência de dados.

UDP O User Datagram Protocol fornece um serviço de datagrama sem cone-

xão que oferece entrega com esforço otimizado, ou seja, ele não garante

a entrega ou verifica o sequenciamento de qualquer datagrama. O UDP

é usado por alguns programas em vez do TCP para o transporte rápido,

leve e não-confiável de dados entre hosts TCP/IP.

VirusTotals VirusTotals http://www.virustotals.com.

VoIP Voz Sobre IP.

Worms Tipo de artefato malicioso que utiliza vulnerabilidades do sistema para

se espalhar.

XMPP Extensible Messaging and Presence Protocol.

Page 15: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

XII

SUMÁRIO

1 INTRODUÇÃO ................................................................................................................ 1

1.1 OBJETIVOS ....................................................................................................................... 1

1.2 ORGANIZAÇÃO DO DOCUMENTO ..................................................................................... 2

2 REFERENCIAL TEÓRICO ........................................................................................... 3

2.1 HONEYPOTS ..................................................................................................................... 3

2.1.1 Dionaea .................................................................................................................. 8

2.1.2 Fluxo de um Ataque ................................................................................................ 8

2.2 ANÁLISE DESCRITIVA DE DADOS .................................................................................... 9

2.2.1 Distribuição de Frequência .................................................................................. 10

2.2.2 Medidas Resumo ................................................................................................... 11

2.3 ÁRVORES DE DECISÃO ................................................................................................... 12

2.3.1 Construção de Árvores de Decisão ...................................................................... 13

2.3.2 Cálculo da Informação ......................................................................................... 14

2.4 TRABALHOS RELACIONADOS ......................................................................................... 16

3 BASES DE ANÁLISE E RESULTADOS .................................................................... 20

3.1 CARACTERIZAÇÃO DAS BASES ...................................................................................... 20

3.2 ANÁLISE DESCRITIVA DAS BASES ................................................................................. 25

3.2.1 Paris ..................................................................................................................... 26

Tabela 7: Resumo do domínio dos atributos selecionados do conjunto Paris. ............... 28

3.2.2 Berlin .................................................................................................................... 29

3.2.3 Jacareí .................................................................................................................. 31

3.2.4 Campinas .............................................................................................................. 35

3.3 CONSTRUÇÃO DE ÁRVORES DE DECISÃO PARA EXTRAÇÃO DE REGRAS DE IDS ............ 39

3.3.1 Paris ..................................................................................................................... 41

3.3.2 Berlin .................................................................................................................... 49

3.3.3 Jacareí .................................................................................................................. 56

3.3.4 Campinas .............................................................................................................. 60

3.4 EXTRAÇÃO DE REGRAS DE IDS ..................................................................................... 81

4 CONCLUSÕES E TRABALHOS FUTUROS ............................................................. 85

Page 16: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

1

1 INTRODUÇÃO

Desde o ano 2000 tem havido um aumento exponencial de dispositivos conectados à Internet

(Cisco Systems, 2013), o que promoveu o surgimento de um novo e fértil campo para os crimi-

nosos eletrônicos. Eles veem nas falhas de sistemas, na falta de capacitação técnica dos admi-

nistradores de rede e na falta de visão das empresas de que a segurança da informação é uma

área vital para a saúde dos negócios (Kaspersky Lab, 2013), a oportunidade perfeita de obter

vantagens explorando essas falhas.

Uma das principais dificuldades de um administrador de rede é manter a rede segura contra

ataques externos. Segundo o (Ponemon Institute, 2012) os ataques reportados pelas empresas

nos últimos dois anos estão divididos da seguinte maneira: 43% são ataques de injeção de código

malicioso por meio de SQL, os outros 19,95% são ataques direcionados exclusivamente a em-

presas ou serviços providos pelas empresas (APT); Botnet’s representam 18,81% e, por último,

os ataques de negação de serviço (DoS) chegam a 18,24%.

Ainda segundo esse estudo, as organizações enfrentam uma média de 66 ataques cibernéti-

cos semanais que causam algum tipo de prejuízo aos negócios. Organizações na Alemanha e

nos EUA experimentam a maior taxa média de ataques semanais, 82 e 79 ataques, respectiva-

mente. Brasil e Hong Kong têm a menor frequência média, totalizando 47 e 54 ataques por

semana, respectivamente.

Esse tipo de cenário motivou o desenvolvimento de alguns estudos como o de (Denning,

1987), que propôs o primeiro sistema de detecção de intrusão e o trabalho de (Cohen, 1998),

que lançou o primeiro honeypot, e o de (Provos, 2004), que propôs a criação de honeypots vir-

tuais. Esses trabalhos buscam criar ferramentas para auxiliar a defesa dos ativos computacionais

detectando intrusos ou criando armadilhas para monitorar as atividades maliciosas.

1.1 Objetivos

Nesse contexto a presente dissertação propõe o uso de técnicas de mineração de dados para a

análise de artefatos maliciosos, tendo como base os trabalhos propostos por (Cukier, Berthier,

Panjwani, & Tan, 2006), (Grégio, Santos, & Montes, 2007) e (Dionaea Catch Bugs, 2013). Se-

rão feitas análises descritivas e preditivas de duas bases de dados públicas e duas bases privadas

de honeypots.

Page 17: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

2

1.2 Organização do Documento

O primeiro capítulo apresenta uma introdução sobre o tema e o cenário das ameaças cibernéti-

cas. O segundo capítulo revisa conceitos básicos sobre honeypots, estatística descritiva e árvores

de decisão, juntamente com uma breve revisão de trabalhos que realizam análises de dados de

honeypots. O terceiro capítulo faz uma descrição dos conjuntos de dados utilizados, efetuando

uma análise descritiva de cada conjunto juntamente com a apresentação dos experimentos rea-

lizados e dos resultados obtidos. O quarto capítulo discorre sobre as conclusões obtidas e as

possibilidades de trabalhos futuros.

Page 18: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

3

2 REFERENCIAL TEÓRICO

Este capítulo faz uma revisão dos principais conceitos abordados na pesquisa, o que inclui uma

descrição do que são honeypots, uma breve revisão histórica da área e sua classificação segundo

(Seifert, Welch, & Komisarczuk, 2006). Em seguida são vistos conceitos sobre o Dionaea e

como é tratado o fluxo de um ataque. Por fim, são revisados trabalhos que utilizam dados pro-

venientes de honeypots ou do fluxo TCP/IP direcionado a honeypots, com o objetivo de extrair

informações utilizando técnicas de mineração de dados.

2.1 Honeypots

O primeiro modelo de detecção de intrusão de sistemas foi elaborado por (Denning, 1987), que

tinha como objetivo analisar dados em tempo real com o fim de detectar quebra de segurança,

invasões e outras formas de abuso do acesso ao computador. Seu modelo era baseado na hipó-

tese de que violações de segurança poderiam ser detectadas por meio dos logs de auditoria do

sistema, efetuando busca de anomalias nos padrões de utilização. Outra característica de seu

modelo era o fato de ser independente de um sistema, vulnerabilidade ou tipo de invasão. Esse

modelo forneceu uma metodologia de propósito geral para os sistemas de detecção de intrusão.

Baseado nas premissas usadas por Denning de auditar os logs surgiram os primeiros ho-

neypots. O honeypot é um sistema computacional de segurança dedicado a ser sondado, atacado

ou comprometido (Provos & Holz, 2007). O primeiro honeypot disponível foi criado em 1998

por (Cohen, 1998) e tinha como objetivo simular um sistema com vulnerabilidades.

No início dos anos 2000 os worms começaram a se proliferar, tornando necessária a coleta

desses artefatos para análise e posterior criação de vacinas para os sistemas de antivírus. Tendo

identificado essa necessidade, (Provos, 2004) propôs a criação de honeypots virtuais em que um

único equipamento pode executar vários honeypots. Baseado nessa proposta foi criado o projeto

Honeyd (Provos & Holz, 2007), que emula em um único equipamento físico vários sistemas

operacionais diferentes e múltiplos hosts em uma rede. Esse sistema tem a capacidade de emular

toda a pilha TCP/IP permitindo que, mesmo ferramentas de análise de rede sofisticadas como o

nmap, sejam enganadas. Em um ataque o Honeyd tenta, de forma passiva, identificar o host

remoto, coletando informações do tráfego de rede e da pilha TCP/IP.

Após a proposta de Provos começaram a surgir diversos honeypots para emular sistemas

operacionais complexos, seus serviços de rede e serviços específicos independentes de um sis-

tema operacional. Com essa nova leva se tornou necessário classificar os tipos de honeypots e,

para isso, (Seifert, Welch, & Komisarczuk, 2006) propõem seis categorias:

Page 19: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

4

1. Nível de Interação: descreve como as funções expostas do honeypot são limitadas de

alguma maneira, por exemplo, não contendo todas as funções disponíveis em um serviço

ou não permitindo que complete uma ação solicitada. (Seifert, Welch, & Komisarczuk,

2006) propõem inicialmente duas categorias, que são a de baixa interatividade e a de alta

interatividade. Posteriormente, (Wicherski, 2006) propôs uma nova categoria, a de média

interatividade. As características de cada nível de interatividade podem ser vistas a seguir:

• Honeypots de Baixa Interatividade: são caracterizados por sistemas computacio-

nais emulados através de programas computacionais que contêm regras mínimas

de funcionamento do serviço a ser monitorado. Junto a essas regras as vulnerabili-

dades conhecidas são programadas para serem atacadas (Provos & Holz, 2007).

• Honeypots de Alta Interatividade: são caracterizados por sistemas reais com fa-

lhas conhecidas e não corrigidas propositalmente, para que sejam atacados e com-

prometidos ( The Honeynet Project, 2004). No honeypot de alta interatividade é

possível que o atacante comprometa o sistema e avance em seu ataque, obtendo o

controle do sistema para instalar artefatos de software que o auxiliarão no intuito

de manter o acesso posterior e concluir a atividade maliciosa.

• Honeypots de Média Interatividade: são aqueles que buscam combinar as abor-

dagens do honeypot de alta interatividade com o de baixa interatividade. A principal

característica dele é a virtualização da camada de aplicação onde o ambiente do

sistema operacional e os protocolos de comunicação são emulados, de maneira a

fornecer respostas suficientes para enganar o atacante e obter o payload (Wicherski,

2006).

2. Tipos de Dados Capturados: descreve quais tipos de dados o honeypot está apto a cole-

tar. Não está relacionado aos aspectos técnicos do tipo de dado a ser coletado, por exem-

plo, fluxo TCP/IP, logs, etc., mas aos tipos de dados provenientes do ponto de vista do

ataque, por exemplo, malware, payloads, shellcodes, etc. (Seifert, Welch, &

Komisarczuk, 2006) propõem quatro itens para essa categoria:

• Eventos: o honeypot coleta dados sobre o que ocorreu, por exemplo, mudança no

estado do serviço ou arquivos;

• Ataques: são coletados dados de atividades maliciosas que ameaçam a política de

segurança, por exemplo, a falha de um serviço ou aplicativo devido a atividades

maliciosas;

Page 20: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

5

• Invasões: o honeypot coleta dados sobre as ameaças que violam a política de segu-

rança ocasionando uma falha no sistema ou um comprometimento;

• Nenhum: não são coletadas informações sobre eventos, ataques ou invasões.

3. Tipo de Confinamento: os ataques direcionados a um honeypot podem se espalhar para

outros sistemas. Para evitar que isso ocorra é necessária a utilização de medidas de defesa.

São propostas quatro abordagens para essa classe:

• Bloqueio: as ações do atacante são identificadas e bloqueadas. O atacante não ob-

tém acesso ao alvo;

• Desarme: as ações do atacante são permitidas, mas são modificadas de modo a

tornar o ataque não efetivo contra os alvos;

• Redução da velocidade: é reduzida a velocidade com que o atacante ataca outros

sistemas, reduzindo a velocidade de propagação do ataque;

• Nenhuma: nenhuma ação é tomada com o objetivo de limitar a propagação do

ataque para outros sistemas.

4. Aparência da Distribuição: descreve como o sistema que implementa o honeypot é apre-

sentado, se está confinado em um único sistema, se utiliza diversos sistemas ou utiliza

técnicas de computação distribuída. Outra forma de descrever é a capacidade do honeypot

simular um único sistema ou serviço, ou simular diversos servidores e serviços como se

fosse uma rede completa. A essa classe podem ser atribuídos dois tipos:

• Distribuído: o honeypot é composto por diversos sistemas, ou simula diversos sis-

temas ou uma rede completa;

• Autônomo: o honeypot é composto por um único sistema, ou simula um único

sistema ou serviço.

5. Interfaces de Comunicação: essa classe descreve as interfaces de comunicação do ho-

neypot com o sistema ou com a rede, podendo ser classificadas de três formas:

• Interface de rede: o honeypot se comunica diretamente através da interface de rede

física do host;

• Interfaces de hardware não baseadas em rede: são caracterizadas por qualquer

interface física que pode ser utilizada pelo honeypot, tais como, interfaces USB,

CD-ROM, portas de comunicação serial e paralela;

Page 21: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

6

• API de Software o honeypot utiliza interfaces virtuais através de programação para

interagir com o atacante.

6. Papel na arquitetura multi-tier: essa classe descreve os dois papeis que podem ser atri-

buídos ao honeypot na arquitetura multi-tier, são eles:

• Cliente: o honeypot vai atuar de forma ativa, iniciando as requisições para os ser-

viços ou servidores;

• Servidor: o honeypot vai atuar de forma passiva, aguardando as requisições inici-

adas por clientes ou outros servidores.

A Figura 1 apresenta um organograma da classificação dos honeypots segundo (Seifert,

Welch, & Komisarczuk, 2006), onde estão destacadas em cinza as classificações nas quais o

honeypot utilizado nesse trabalho é enquadrado. Essa classificação pode ser lida da seguinte

maneira: quanto à interatividade é considerado de média interatividade; quanto aos dados cole-

tados ele captura eventos, ataques e invasões; quanto ao tipo de confinamento ele se enquadra

na categoria nenhum; quanto à aparência da distribuição ele se enquadra na categoria distribu-

ído; quanto à interface de comunicação ele se enquadra na categoria de interface de rede e API

de software e; quanto à classificação do papel na arquitetura multi-tier ele pode ser classificado

como cliente e como servidor.

Page 22: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

7

Figura 1: Classificação dos honeypots segundo (Seifert, Welch, & Komisarczuk, 2006)

Page 23: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

8

2.1.1 Dionaea

O Dionaea foi o honeypot escolhido para essa pesquisa devido as suas características de arma-

zenamento e organização dos dados coletados e sua capacidade de captura de artefatos malici-

osos. Os dados coletados podem ser utilizados para comparar as técnicas empregadas nesse tra-

balho com os trabalhos da literatura e os artefatos maliciosos capturados serão utilizados, jun-

tamente com os dados coletados, no processo de extração de atributos do conjunto de dados.

O (Dionaea Catch Bugs, 2013) é um honeypot de média interatividade que teve como obje-

tivo substituir seu precursor o Nepentes (Provos & Holz, 2007). As grandes contribuições que

o Dionaea trouxe ao Nepentes foram a separação do núcleo do sistema desenvolvido em C++,

a inclusão do suporte à Python (Van Rossum & others, 2007), como linguagem script, a utiliza-

ção da biblioteca libemu para detecção de shellcodes e o suporte nativo a IPv6 (Deering, 1998)e

TLS (Dierks, 2008).

A linguagem de programação Python é utilizada para o desenvolvimento das vulnerabilida-

des e dos módulos suportados, juntamente com as funções de armazenamento e transmissão das

informações coletadas. Essa inclusão trouxe alguns benefícios indiretos ao honeypot, como a

possibilidade de incluir outros tipos de serviços não planejados inicialmente, por exemplo, as

vulnerabilidades do banco de dados Microsoft SQL Server (Buffington, 2010) e Session Initia-

tion Protocol (Rosenberg, et al., 2002), que é utilizado no controle de sessões de comunicação

multimídia, entre outros.

O Dionaea foi um dos primeiros honeypots a acrescentar o suporte ao protocolo IPv6, per-

mitindo analisar as vulnerabilidades que estão sendo exploradas nesse novo protocolo de comu-

nicação que substituirá o IPv4.

2.1.2 Fluxo de um Ataque

Um ataque ocorre no momento em que um atacante se conecta ao honeypot para sondá-lo ou

explorar uma vulnerabilidade. A partir desse momento, toda informação da conexão e da ativi-

dade do atacante é monitorada e registrada em uma base de dados. Caso o atacante tenha sucesso

em explorar uma vulnerabilidade ele começa a enviar comandos que podem desde abrir uma

porta até iniciar o download de um arquivo. Essa ação tem o objetivo de manter o controle do

equipamento mesmo que a vulnerabilidade seja corrigida.

Quando o atacante solicita o download de um arquivo e esse é concluído com sucesso, o

mesmo é gravado no sistema de arquivos do hospedeiro e os comandos e endereços utilizados

Page 24: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

9

pelo atacante são armazenados na base de dados. Em paralelo é armazenado todo o Fluxo

TCP/IP do ataque no sistema de arquivos do hospedeiro em um formato chamado de BitStream.

Na Figura 2 é possível observar o fluxo de um ataque. O atacante acessa o honeypot (1), que

armazena as informações do ataque e do atacante na base de dados (2). Quando o atacante inicia

o envio de comandos ao honeypot para baixar um artefato malicioso, esse artefato é armazenado

em um sistema de arquivos do hospedeiro (3), (4). Ao final do ataque o honeypot armazena as

informações da pilha TCP/IP em um arquivo chamado BitStream (5), (6).

Figura 2: Fluxo de um ataque e de um processo de armazenamento das informações.

As informações armazenadas pelo honeypot podem ser extraídas a partir do fluxo TCP/IP,

bastando que o analista ordene os pacotes relacionando aqueles enviados e recebidos durante o

ataque e separando o fluxo normal do fluxo malicioso. Uma vez que o fluxo foi ordenado e

separado ele deve ser pré-processado para a extração dos dados e dos payloads utilizados para

explorar as vulnerabilidades, assim como os comandos enviados para o honeypot juntamente

com os arquivos transferidos durante o ataque.

2.2 Análise Descritiva de Dados

A análise descritiva é um ramo da estatística que utiliza técnicas para descrever, organizar e

sumarizar um conjunto de dados, fornecendo resumos simples sobre a amostra e sobre as obser-

vações que foram feitas, podendo os resumos ser quantitativos ou visuais. Os resultados obtidos

podem vir a formar a base da descrição inicial dos dados como parte de uma análise estatística

mais extensa (Triola, 2005).

Para avaliar os resumos obtidos, algumas medidas são normalmente utilizadas, por exem-

plo, as medidas de tendência central (média, mediana e moda) e as medidas de dispersão (desvio

Page 25: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

10

padrão e coeficiente de variação). Outras medidas são também utilizadas, como os valores má-

ximos e mínimos, obliquidade, curtose e a distribuição de frequência (Han & Kamber, 2011).

A análise descritiva pode ser dividida em univariada e multivariada. A univariada envolve

descrever a distribuição de uma única variável e suas medidas centrais e de dispersão. A multi-

variada consiste na descrição de um grupo de variáveis, onde é medido o relacionamento entre

os pares de variáveis através de tabelas cruzadas, medidas quantitativas de dependência e dis-

tribuições condicionais (Triola, 2005)

Neste trabalho serão utilizadas as medidas de tendência central, de dispersão e de distri-

buição de frequências para analisar as bases de dados de honeypots.

2.2.1 Distribuição de Frequência

A distribuição de frequências é um tipo de sumarização que permite a compreensão da natureza

dos dados. Uma vez que os dados estão distribuídos em frequências é possível a construção de

histogramas, gráficos de barras, gráficos de dispersão, gráficos de caixa, entre outros. Junto com

esses gráficos são geradas tabelas com medidas resumo que fornecem um auxílio visual e esta-

tístico na compreensão dos dados. (Triola, 2005) fornece algumas definições:

• Classes: grupos ou intervalos nos quais se deseja dividir os valores dos atributos;

• Frequência Absoluta (FA): de uma classe é o número de vezes que ela ocorre;

• Frequência Relativa (FR): de uma classe da distribuição corresponde a quanto ela

ocorre em relação a toda a distribuição de frequências;

• Frequência Acumulada (FAc): total de uma frequência e todas as anteriores na distri-

buição de frequências.

As tabelas de distribuição de frequência podem ser construídas da seguinte forma (Triola, 2005):

1. Escolha o número de classes desejado (para atributos nominais o número de classe é o

domínio do atributo).

2. Calcule a amplitude de classe: que é igual ao maior valor menor valor dividido pelo

número de classes.

3. Ponto inicial: escolha um valor para o limite inferior da primeira classe.

4. Usando o limite inferior da primeira classe e a amplitude de classe, calcule os outros

limites inferiores de classe.

Page 26: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

11

5. Liste os limites inferiores de classe em uma coluna vertical e prossiga para preencher

os limites superiores de classe.

6. Percorra o conjunto de dados colocando um rótulo apropriado de classe em cada valor

do atributo (para atributos nominais o rótulo é o valor do atributo).

Duas variações importantes da distribuição de frequência são a frequência relativa, que é

encontrada dividindo-se cada frequência de classe pelo total de todas as frequências, e a fre-

quência acumulada, que corresponde à soma da frequência da classe com a frequência de todas

as classes anteriores.

2.2.2 Medidas Resumo

Diversas medidas podem ser utilizadas para resumir a informação de uma base de dados. Apesar

disso, três medidas são importantes: tendência central; dispersão; e forma da distribuição

(Nisbet, Elder, & Miner, 2009).

As medidas de tendência central correspondem a um valor central ou um valor comum de

um atributo. É um valor que tenta descrever um conjunto de dados por meio da identificação de

sua posição central. São elas: a média; a moda; e a mediana. A média é obtida pela soma do

valor de todos os objetos do conjunto de dados dividida pela quantidade total de objetos do

conjunto; é também chamada de média aritmética. A moda é o valor mais frequente entre os

valores do atributo que está sendo analisado. Caso exista mais de um valor com mesma frequên-

cia, o atributo é considerado multimodal. A mediana é o valor central, ou seja, o valor que separa

a amostra em duas metades. Caso a amostra tenha uma quantidade de objetos ímpar a mediana

é o valor central. Caso a amostra tenha um número de objetos par, a mediana é a média dos dois

valores centrais. Nos dois casos é necessário ordenar os valores para obtenção da mediana.

As medidas de dispersão expressam quantitativamente a variabilidade, ou dispersão, dos

dados. Em outras palavras, as medidas de dispersão representam o quanto uma distribuição está

compacta ou alongada.

O conceito de variação é um conceito importante da estatística, pois permite avaliar o

quanto os objetos variam entre si. As medidas mais comuns são a variância e o desvio padrão

(Triola, 2005). A variância mede a dispersão de um conjunto de valores e é sempre positiva.

Uma variância pequena indica que os dados tendem a estarem mais próximos da média e con-

sequentemente mais próximos uns dos outros. Valores elevados indicam que os dados estão

Page 27: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

12

dispersos, ou seja, distantes da média e uns dos outros. O desvio padrão é uma medida de vari-

ação e fornece o valor de variação dos objetos em relação à média, ou seja é um desvio médio

dos valores em relação à média.

2.3 Árvores de Decisão

As árvores de decisão são ferramentas de apoio à decisão que utilizam um gráfico do tipo árvore

para representar um processo de tomada de decisão, por exemplo, uma classificação. Na árvore

de decisão, cada nó interno representa um teste de um atributo da base, cada ramo representa

um resultado do teste, e os nós folhas representam classes ou distribuições de classes (Han &

Kamber, 2011).

Durante o final da década de 70 e início da década de 80, J. Ross Quinlan desenvolveu

um algoritmo para gerar árvores de decisão conhecido como ID3. Posteriormente, Quinlan apre-

sentou o algoritmo C4.5, sucessor do ID3 (Quinlan, 1993). Os algoritmos C4.5 e ID3 adotam

uma abordagem gulosa, por meio da qual as árvores de decisão são construídas utilizando uma

abordagem recursiva de dividir para conquistar. Eles começam com um conjunto de treinamento

contendo os rótulos de classes e vão dividindo esse conjunto em subconjuntos menores con-

forme a árvore vai sendo construída.

A Figura 3 apresenta o pseudocódigo do algoritmo C4.5. Em linhas gerais o algoritmo

recebe o valor de um atributo de um conjunto de dados D, verifica se o valor do atributo é puro

ou se outro critério de parada foi atingido. Caso seja verdadeiro ele finaliza a execução do algo-

ritmo, caso negativo ele percorre todos os valores de todos os atributos α pertencentes a D e

calcula o valor da informação de α. O melhor α será utilizado para a adição de um nó na árvore.

Em seguida o algoritmo cria um subconjunto Dv, contento o subconjunto de dados baseado no

melhor α. Após a identificação do melhor α e da criação dos subconjuntos, todos os elementos

de Dv são testados recursivamente, incluindo os nós e as folhas, até que o critério de parada seja

atingido.

Page 28: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

13

Figura 3: Algoritmo C4.5 traduzido do original (Quinlan, 1993).

O cálculo da informação e a construção da árvore de decisão estão descritos nas subseções

a seguir.

As diferenças entre os vários algoritmos de árvore de decisão incluem como os atributos

são selecionados no processo de criação da árvore e o mecanismo utilizado para a poda dos

ramos. O algoritmo básico de indução da árvore de decisão necessita uma passagem por cada

objeto do conjunto em cada nível da árvore (Janert, 2010).

2.3.1 Construção de Árvores de Decisão

Para a construção de árvores de decisão pode-se usar uma abordagem do tipo dividir para con-

quistar, utilizando-se um conjunto de amostras independentes. Para a criação de nós normal-

mente é efetuada a comparação de um teste do valor de um determinado atributo com uma

constante, embora alguns algoritmos comparem dois atributos entre si ou utilizem uma função

de um ou mais atributos.

Para classificar um objeto são utilizados os nós folhas que fornecem um conjunto de clas-

sificações ou a distribuição de uma determinada probabilidade sobre todas as possíveis classifi-

cações. Para isso basta confrontar uma amostra com o modelo gerado percorrendo do nó raiz

até a folha, que dirá qual a classificação do objeto em análise.

Se um determinado valor testado é nominal, a quantidade de nós filhos normalmente é

igual ao número de possíveis valores do atributo. Se o atributo é numérico, então o teste em um

nó determina se o valor é maior ou menor que uma constante pré-definida.

Page 29: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

14

Uma árvore de decisão pode ser obtida aplicando os passos abaixo recursivamente:

Passo 1: Selecione um atributo, coloque-o na raiz da árvore e faça uma ramificação

para cada valor possível, o que divide a base de dados em subconjuntos (um para cada

valor do atributo);

Passo 2: Repita o processo recursivamente para cada ramo, usando somente aqueles

objetos que alcançaram o ramo;

Passo 3: Se todas os objetos em um nó possuem a mesma classificação, pare de de-

senvolver essa parte da árvore.

A escolha de um atributo para a expansão de um determinado nó deve ser efetuada com

base em uma medida de informação, devendo ser ramificado o nó com filhos que possuam o

maior valor da informação.

2.3.2 Cálculo da Informação

Uma das medidas utilizadas para a escolha de um nó a ser expandido é o ganho de informação,

que pode ser obtido calculando o valor da informação e da entropia da seguinte maneira. Seja S

o conjunto de s objetos. Suponha que o rótulo do atributo de classe tenha m valores distintos

que definem m classes distintas, Ci, i = 1, ... , m. Seja si a quantidade de objetos de S na classe

Ci. A informação esperada necessária para classificar um dado objeto é apresentada na Equação

(1), onde pi é a probabilidade de que um objeto qualquer pertença à classe Ci, estimada como

sendo si/s (Han & Kamber, 2011):

𝐼(𝑠1, 𝑠2, … , 𝑠𝑚) = − ∑ 𝑝𝑖𝑙𝑜𝑔2(𝑝𝑖)

𝑚

𝑖=1

(1)

Assuma que o atributo A tenha v valores distintos, a1, a2, ... , av. Ele pode ser usado para

particionar S em v subconjuntos s1, s2, ... , sv, onde sj contém aqueles objetos em S que assumem

o valor aj de A.

Se A fosse selecionado como o atributo teste, ou seja, o melhor atributo (nó) a ser ex-

pandido, então estes subconjuntos corresponderiam aos ramos que partem do nó contendo o

conjunto S.

Seja sij a quantidade de objetos da classe Ci em um subconjunto sj. A entropia ou infor-

mação esperada é dada por:

Page 30: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

15

𝐸(𝐴) = ∑𝑠1𝑗 + ⋯ + 𝑠𝑚𝑗

𝑠

𝑣

𝑗=1

𝐼(𝑠1𝑗, … , 𝑠𝑚𝑗) (2)

O termo que multiplica a informação atua como um peso para o j-ésimo subconjunto e é o

número de objetos no subconjunto dividido pelo número total de objetos em S:

𝐺𝑎𝑖𝑛(𝐴) = 𝐼(𝑠1, 𝑠2, … , 𝑠𝑚) − 𝐸(𝐴) (3)

Em outras palavras, o ganho Gain(A) é a redução esperada na entropia quando se co-

nhece o valor do atributo A.

Medidas de avaliação de desempenho são utilizadas para comparar soluções diferentes

para a resolução de um problema. No caso de problemas de classificação é possível contabilizar

o que foi detectado corretamente (True Positive - TP), o que não foi detectado (True Negative -

TN), o que foi detectado incorretamente (False Positive - FP) e o que não foi detectado e deveria

ter sido (False Negative - FN) (de Castro, 2006). Esses dados são obtidos por meio da matriz de

confusão apresentada na Tabela 1, onde tem-se a classe correta, ou seja, como os dados devem

ser identificados pelo modelo e a classe predita, ou seja, como os dados foram identificados pelo

modelo.

Tabela 1: Matriz de confusão utilizada para avaliar o desempenho de classificadores binários.

Classe Predita

Positivo Negativo

Classe Correta

Positivo TP FN

Negativo FP TN

Uma vez calculada a matriz de confusão é possível determianr a taxa de alarmes falsos

(do inglês false alarm rate – FAR), a taxa de falsos positivos (do inglês false positive rate FPR),

a taxa de falsos negativos (do inglês false negative rate – FNR) e a acurácia (ACC) (de Castro,

2006).

A acurácia (ACC) é obtida através da função:

𝐴𝐶𝐶 =𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁 (4)

onde TP são os verdadeiros positivos, ou seja, os objetos que o algoritmo classificou correta-

mente como pertencentes à classe alvo; TN são os verdadeiros negativos, ou seja, os objetos

Page 31: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

16

que o algoritmo classificou corretamente como não sendo da classe alvo; FP são os falsos posi-

tivos, ou seja, os objetos que o algoritmo classificou erroneamente como pertencentes à classe

alvo; e FN são os falsos negativos, ou seja, os objetos que o algoritmo classificou incorretamente

como não sendo da classe alvo.

A taxa de falsos negativos (FNR) é calculada pela divisão entre os falsos negativos (FN)

e a soma dos verdadeiros positivos (TP) com os falsos negativos (Equação 5). O FNR é um erro

de classificação que mede a proporção de objetos positivos classificados como negativos:

𝐹𝑁𝑅 =𝐹𝑁

𝑇𝑃 + 𝐹𝑁 (5)

A taxa de falsos positivos é calculada pela divisão dos falsos positivos (FP) pela soma dos

falsos positivos (FP) com os verdadeiros negativos (TN) (Equação 6). O FPR é um erro de

classificação que mede a proporção de objetos negativos classificados como positivos:

𝐹𝑃𝑅 =𝐹𝑃

𝐹𝑃 + 𝑇𝑁 (6)

2.4 Trabalhos Relacionados

Apesar dos honeypots terem sido criados inicialmente para coleta de dados e artefatos malicio-

sos, a simulação de sistemas e de suas falhas tem permitido que pouca informação seja extraída

de seus extensos logs e dos dados armazenados. Apenas nos últimos cinco anos houve um cres-

cente interesse em utilizar os dados coletados a fim de extrair informações relevantes para de-

tecção de intrusão. Muitas vezes são criadas ferramentas, como o SurfIDS, que agregam dados

de honeypots, Antivírus, SandBoxes e de outras fontes na busca de criar um sistema de aviso

antecipado que permita ao administrador correlacionar ataques conhecidos e desconhecidos pro-

vendo alertas sobre as ameaças existentes.

Esse tipo de ferramenta é baseado na análise dos dados coletados. A compreensão das ame-

aças depende da perícia e experiência de cada analista. Por esse motivo, foram iniciadas pesqui-

sas que incluem a aplicação de técnicas de mineração de dados para análise dos dados coletados,

fornecendo ao analista um maior subsídio para a tomada de decisão sobre as ameaças que afetam

sua rede. Essa seção faz uma breve revisão das principais técnicas aplicadas aos dados coletados

por meio do fluxo TCP/IP ou do próprio honeypot.

(Thakar, Varma, & Ramani, 2005) propuseram a criação de uma ferramenta para extrair

assinaturas para um sistema de detecção de intrusão de forma semiautomática baseado nas in-

formações de um honeypot de baixa interatividade (Honeyd), juntamente com informações ob-

tidas do fluxo de rede. Foi desenvolvida uma aplicação para extração das características dos

Page 32: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

17

logs do honeypot e do fluxo de rede. Essas características foram armazenadas em uma base de

dados relacional para a geração de estatísticas usando uma interface web na qual estava dispo-

nível para o analista o algoritmo Longest Common Substring (LCS). Na interface web o analista

podia selecionar as características e os períodos para que o LCS extraia as assinaturas do sistema

de detecção de intrusão. A combinação da seleção de características do analista junto com o

algoritmo LCS, gerou assinaturas que resultaram em um menor número de falsos positivos e

falsos negativos, melhorando a taxa de detecção do sistema de detecção de intrusão.

(Cukier, Berthier, Panjwani, & Tan, 2006) buscaram encontrar características que pudessem

ser utilizadas de forma eficiente para separar os ataques coletados por dois honeypots de alta

interatividade, onde todo o tráfego de rede era armazenado. Para isso foram definidos quatro

tipos de ataques a serem analisados, caracterizados da seguinte maneira:

• Scan de portas: é definido por conexões com uma quantidade inferior a cinco pacotes

trocados entre atacante e honeypot;

• Scan de vulnerabilidades: é definido quando existem entre cinco e vinte pacotes troca-

dos entre o atacante e o honeypot;

• Ataques: são definidos quando existem acima de vinte conexões trocadas entre o atacante

e o honeypot;

• Scans de ICMP: são identificados pelo protocolo utilizado na comunicação entre o ata-

cante e o honeypot.

Após uma análise dos dados coletados utilizando a ferramenta Ethereal foi verificado que

78.1% dos dados coletados estavam direcionados à porta 445, fazendo com que os autores se

concentrassem nesses ataques. Para isso as conexões da porta 445 foram separadas e analisadas,

extraindo-se novas características das mensagens trocadas entre o atacante e o honeypot. Essas

características são: o tempo de duração do ataque; a quantidade de pacotes trocados no ataque;

a quantidade de bytes por ataque; e o tamanho em bytes da mensagem trocada durante o ataque.

Os autores utilizaram o algoritmo k-médias (Jain, 2010) para separar os ataques em três grupos

e os resultados obtidos mostraram que um critério simples como o número de bytes é eficiente

para separar os ataques iniciais e que a média da distribuição em função do tempo para pacotes,

bytes e tamanho das mensagens é ineficiente para separar os ataques. Em contrapartida, a média

da distribuição em função dos pacotes para bytes e tamanho das mensagens é um critério efici-

ente para separar os ataques.

(Grégio, Santos, & Montes, 2007) efetuaram um estudo sobre a aplicação de diferentes téc-

nicas de mineração de dados em um fluxo de rede, buscando encontrar a melhor técnica para a

Page 33: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

18

detecção de ataques. Os dados do tráfego de rede foram coletados por um honeypot instalado na

rede dos servidores do Instituto Nacional de Pesquisas Espaciais (INPE). Todo o tráfego legí-

timo e malicioso foi capturado, sendo necessária a separação dos dois. Para isso foram aplicados

três algoritmos de mineração de dados: o k-vizinhos mais próximos (do inglês k-nearest neigh-

bors, KNN); uma rede neural (Haykin, 2004)); e uma árvore de decisão (Quinlan, 1993). Para

essa tarefa foram selecionados sete atributos do fluxo TCP/IP: tempo de duração da sessão;

porta do servidor; número de pacotes enviados pelo servidor; quantidade de bytes enviada pelo

servidor; número de pacotes enviados pelo cliente; quantidade de bytes enviados pelo cliente; e

um atributo de classe identificando o fluxo como normal ou suspeito. O tráfego TCP/IP foi

dividido em dois conjuntos de dados, o direcionado aos servidores do instituto foram classifica-

dos como normal e os direcionados ao honeypot foram classificados como suspeitos. As árvores

de decisão apresentaram o melhor desempenho para separar o fluxo suspeito do fluxo normal.

(Tang, 2010) utilizou um honeypot de baixa interatividade (Honeyd) para coletar informa-

ções de rede utilizando a biblioteca libpcap com o objetivo de criar um sistema automático para

a geração de regras para um sistema de detecção de intrusão. O conjunto de dados foi composto

por dados de rede da camada dois e três do modelo OSI, onde foram analisados os cabeçalhos

dos protocolos IP, TCP e UDP. As características utilizadas foram as definidas nos cabeçalhos

dos pacotes, como porta de origem, porta de destino, endereço de origem, endereço de destino,

número do pacote, fragmentação, etc. Para gerar a regra foi utilizada a técnica do Longest Com-

mon Subsequence (LCS) para encontrar a string comum mais longa sendo definida como o nú-

cleo da regra. Uma vez identificado um ataque no honeypot, uma regra é gerada e essa regra é

comparada com o arquivo de regras do sistema de detecção de intrusão. Se não fosse encontrada

uma regra compatível a nova regra era adicionada a base, mas se uma regra compatível fosse

encontrada, a regra da base era atualizada. Os experimentos efetuados mostraram que a utiliza-

ção do sistema reduziu os falsos positivos da detecção de intrusão e que ele pode ser utilizado

em um ambiente de produção.

(Ghourabi, Abbes, & Bouhoula, 2010) utilizaram uma solução de honeypot como roteador

de rede, capturando informações sobre o tráfego que passa pelo honeypot, incluindo o TCP/IP

e outros protocolos como OSPF, RIP e BGP. Os dados capturados foram armazenados em ar-

quivos de texto gerando grandes quantidades de dados, se tornando difícil a análise de todos os

dados por um analista. Para auxiliá-lo nessa tarefa foi proposta a utilização de técnicas de mi-

neração de dados capazes de separar o tráfego normal do tráfego malicioso, reduzindo signifi-

cativamente a quantidade de dados a serem analisados. Para essa separação foram utilizados os

algoritmos DBSCAN, k-médias e o CobWeb. As características utilizadas nos algoritmos foram

Page 34: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

19

obtidas por meio dos cabeçalhos dos pacotes trafegados e são: endereço IP de origem; endereço

IP de destino; protocolo; Time To Live (TTL); tamanho do pacote; e o tipo de pacote. Os resul-

tados dos experimentos mostraram que o algoritmo DBSCAN teve o melhor resultado retor-

nando um menor número de falsos positivos após a análise e classificação do analista.

Devido aos falsos positivos identificados pelas ferramentas de detecção de intrusão, (Song,

Takakura, Okabe, & Kwon, 2011) utilizaram duas fontes de dados em seus experimentos: uma

proveniente do sistema de detecção de intrusão; e outra de honeypots. Para correlacionar essas

duas fontes de dados e identificar ataques ele utiliza uma Support Vector Machine (SVM) de

uma classe focando na análise da detecção não supervisionada de anomalias. Do conjunto de

dados proveniente dos honeypots são extraídas quatorze características do fluxo TCP/IP e do

conjunto de dados proveniente do sistema de detecção de intrusão são extraídas sete caracterís-

ticas dos alertas gerados. Ao aplicar a SVM a cada conjunto de dados foram gerados dois mo-

delos de detecção de intrusão que foram analisados e correlacionados. A correlação mostrou

que o modelo gerado a partir da extração de características apenas dos alertas do sistema de

detecção de intrusão não foi suficiente para identificar os ataques reais, tornando-se necessário

a inclusão das características extraídas dos pacotes do fluxo TCP/IP que geraram o alerta.

(Matheus & de Castro, 2014) utilizaram os dados coletados por Honeypots para a criação de

regras para sistemas de detecção de intrusão. As regras foram extraídas a partir de árvores de

decisão construídas com base nos dados de um honeypot real instalado em uma conexão com a

internet sem nenhum tipo de filtro. Os resultado dos experimentos realizados mostraram que é

possível a extração de regras para um sistema de detecção de intrusão utilizando técnicas de

mineração de dados, em particular o algoritmo de árvore de decisão C4.5 (Quinlan, 1993). Os

estudos focaram em um conjunto de dados proveniente de um honeypot de média interatividade.

O que a maioria desses trabalhos têm em comum é a utilização dos dados de rede nas análi-

ses. A possível hipótese para essa abordagem é a facilidade de se obter as informações do fluxo

TCP/IP uma vez que os pacotes TCP/IP fornecem uma fonte rica e padronizada de informações

para a análise independentemente do tipo de honeypot instalado. Essa abordagem, apesar de

efetiva, carrega algumas limitações e dificuldades que podem ser evitadas ao se utilizar as in-

formações já classificadas pelo honeypot. Alguns exemplos são: a união e organização de todos

os pacotes trocados em um único ataque; a separação do que realmente é um ataque do que é

um fluxo legítimo de rede; a extração dos comandos enviados pelo atacante durante o ataque

(payload ou shellcode); e a extração de arquivos enviados e recebidos pelo honeypot.

Page 35: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

20

3 BASES DE ANÁLISE E RESULTADOS

Este capítulo apresenta a estrutura das bases de dados utilizadas no honeypot, apresenta uma

análise descritiva dessas bases e, em seguida, usa árvores de decisão para extrair regras de IDS.

3.1 Caracterização das Bases

Neste trabalho serão utilizados quatro conjuntos de dados distintos, sendo dois deles disponibi-

lizados pelo projeto Dionaea obtidos de honeypots internacionais (públicos) e outros dois pro-

venientes de honeypots instalados no Brasil (privados). Os conjuntos de dados disponibilizados

pelo projeto Dionaea são Berlin e Paris, cujos nomes se referem aos projetos para as bases de

dados e não às cidades europeias Berlim na Alemanha e Paris na França. Esses conjuntos de

dados podem ser encontradas no site do projeto Dionaea (Dionaea Catch Bugs, 2015). Os dados

coletados se referem aos últimos meses do ano 2009 e as bases de dados têm perfis de ataques

distintos. O terceiro conjunto de dados, denominado Campinas, foi obtido usando um honeypot

instalado no Centro de Tecnologia da Informação Renato Archer, na cidade de Campinas, SP.

O quarto conjunto de dados, denominado Jacareí, foi obtido por um honeypot instalado em uma

residência na cidade de Jacareí com um link de internet banda larga. A Tabela 2 mostra as datas

de início e fim da coleta de dados, assim como a quantidade de ataques recebidos pelo honeypot

e a quantidade de arquivos (malwares) que foram obtidos por ele.

Tabela 2: Informações sobre os dados coletados.

Base Data de início Data final Qtde de Qtde de

de Dados da coleta da coleta ataques malwares

Berlin 05/11/2009 07/12/2009 604.201 2.726

Campinas 20/07/2011 15/10/2011 3.754.124 165.088

Jacarei 28/04/2010 20/05/2010 44.883 13.605

Paris 30/11/2009 07/12/2009 7.822.148 749.518

O Dionaea armazena as informações em uma base de dados relacional, visando facilitar a

consulta e a extração de informações. Para armazenar seus dados é utilizado o SQLite. O SQLite

é uma biblioteca de software que implementa um serviço autônomo de base de dados transaci-

onal, sem necessidade de servidores ou de configuração. Por não necessitar de servidores ou

processos separados a biblioteca lê e grava diretamente no disco as informações (SQLite, 2013).

Os dados coletados dos ataques são armazenados em tabelas de acordo com o tipo de dado

Page 36: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

21

coletado e tipo de ataque. As tabelas podem sofrer alterações conforme a necessidade do utili-

zador e da instalação do honeypot. Inicialmente as bases de dados são divididas em dezesseis

tabelas, conforme mostrado na Figura 4.

Figura 4: Modelo de entidade e relacionamento da base de dados do Honeypot

A descrição de cada tabela é apresentada abaixo:

• connections: registra os dados da conexão realizada pelo atacante, como, por exemplo, o

endereço IP de origem, o endereço IP de destino, a data e hora do ataque, as portas local

e remota, o protocolo, etc.;

• downloads e offers: armazena os dados referentes aos arquivos obtidos durante o ataque

ou que são solicitados pelo atacante;

• dcerpcserviceops, dcerpcrequests, dcerpcservices e dcerpcbinds: se referem a ataques

que exploram vulnerabilidades do sistema operacional Windows juntamente com seus

serviços;

• mssql_commands, mssql_fingerprints e logins: se referem aos ataques direcionados ao

módulo do serviço Microsoft SQL Server;

Page 37: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

22

• virustotals e virustotalscans: armazenam dados obtidos por um serviço externo chamado

VirusTotals. Esses dados são o resultado de escaneamentos dos arquivos pelos antivírus

disponíveis na ferramenta;

• p0fs e resolves: armazenam os dados obtidos de forma passiva sobre o sistema operacio-

nal do atacante e seu endereço IP. As tabelas emu_profiles e emu_services armazenam os

comandos enviados pelo atacante.

As bases de dados têm um total de 54 atributos divididos entre as dezesseis tabelas. O tipo

e a descrição de cada atributo pode ser observado na Tabela 3. Dos 54 atributos, somente 39

atributos são utilizáveis, pois 15 deles são atributos de ligação e relacionamento entre as tabelas.

Os 39 atributos possíveis de serem analisados estão divididos em dois grupos, sendo 29 atributos

nominais e 10 atributos numéricos.

A base de dados se divide em cinco conjuntos que armazenam diferentes informações sobre

os ataques direcionados a determinados serviços. Esse trabalho aborda três dos cinco conjuntos

de informações que são definidos pelas tabelas connections, dcerpcbinds, dcerpcserviceops,

dcerpcservices, downloads e offers.

O conjunto de tabelas foi escolhido por representar os ataques a equipamentos com sistema

operacional Microsoft Windows. Esse conjunto de tabelas, após a exclusão dos atributos de

ligação e de índice das tabelas, forneceu 11 atributos que foram utilizados em uma análise des-

critiva em cada conjunto de dados, como será visto a seguir. A motivação para a escolha desses

11 atributos está descrita na Tabela 4.

Page 38: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

23

Tabela 3: Descrição dos atributos que compõem a base de dados categorizados por tipo.

Nº Atributo Tipo Descrição

1 Connection Inteiro Índice da Tabela Connections

2 Connection_Type Nominal Tipo de Conexão (Listen, Accept, Connect)

3 Connection_Transport Nominal Tipo de Transport (TCP, UDP, TLS)

4 Connection_Protocol Nominal Protocolo utilizado na conexão

5 Connection_Timestamp Inteiro Data e Horário em que ocorreu o ataque

6 Connection_root Inteiro Referente a conexão inicial

7 Connection_parent Inteiro Ramificações da mesma conexão

8 Local_Host Nominal Endereço IP do Honeypot

9 Local_Port Inteiro Porta local do Honeypot (de 0 a 65535)

10 Remote_Host Nominal Endereço IP do atacante

11 Remote_HostName Texto Resolução de nome do endereço IP do atacante

12 Remote_Port Inteiro Porta remota do atacante (de 0 a 65535)

13 DceRpcBind Inteiro Índice da tabela DceRpcBind

14 DceRpcBind_UUID Nominal Hash da assinatura de RPC

15 DceRpcBind_TransferSyntax Nominal Hash da assinatura para transferência de RPC

16 DceRpcRequest Inteiro Índice da tabela DceRpcRequest

17 DceRpcRequest_UUID Nominal Hash da assinatura da Requisição de RPC

18 DceRpcRequest_opnum Inteiro Índice de Ligação com a tabela DceRpcServiceop_opnum

19 DceRpcService Inteiro Índice da tabela DceRpcService

20 DceRpcService_UUID Nominal Hash da assinatura do Serviço de RPC

21 DceRpcService_Name Nominal Nome do serviço requisitado via RPC

22 DceRpcServiceop Inteiro Indice da tabela DceRpcServiceOP

23 DceRpcServiceop_opnum Inteiro Índice dos serviços RCP

24 DceRpcServiceop_name Nominal Nome do Serviço RPC

25 DceRpcServiceop_vuln Nominal Nome da Vulnerabilidade explorada

26 Download Inteiro Índice da tabela Downloads

27 Download_URL Texto URL de download do artefato malicioso

28 Download_MD5_Hash Texto Hash MD5 do artefato malicioso

29 Offer Inteiro Índice da tabela offers

30 Offer_URL Texto URL de onde estaria armazenado o artefato malicioso

31 VirusTotal Inteiro Índice da tabela VirusTotal

32 VirusTotal_MD5_Hash Texto Hash MD5 do artefato malicioso

33 VirusTotal_TimeStamp Inteiro Data e Hora de submissão para o site

34 VirusTotal_permalink Texto URL permanente do artefato malicioso

35 VirusTotalScan Inteiro Índice da tabela VirusTotalScans

36 VirusTotalScan_Scanner Nominal Nome e versão do Antivirus utilizado

37 VirusTotalScan_Result Nominal Resultado obtido com o Antivirus

38 Resolve Inteiro Índice da tabela resolves

39 Resolve_Hostname Texto Resolução do endereço IP do atacante

40 Resolve_Type Texto Tipo de resolução utilizada

41 Resolve_Result Texto Resultado da resolução

42 Emu_Profile Inteiro Índice da tabela emu_profiles

43 Emu_Profile_JSON Texto Sequencia de comandos enviadas pelo atacante para o Honeypot

44 Emu_Service Inteiro Índice da tabela emu_service

45 Emu_Service_URL Texto URL do serviço iniciado pelo atacante

46 p0f Inteiro Índice da tabela p0fs

47 p0f_genre Texto Sistema operacional

48 p0f_link Texto Tipo de conexão com a Internet

49 p0f_detail Texto Versão so sistema operacional

50 p0f_uptime Inteiro Tempo que o host remoto se encontra on-line

51 p0f_tos Texto Tipo de Serviço

52 p0f_dist Inteiro Distancia em saltos do atacante

53 p0f_nat Inteiro Se o p0f está atrás de um NAT

54 p0f_fw Inteiro Se o p0f está atrás de um firewall

Page 39: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

24

Tabela 4: Justificativa para a escolha dos atributos

Nº Atributo Tabela Motivo

1 Connection Connections Esse atributo foi inserido para que seja possível a ligação

do objeto com outras informações do ataque

4 Connection_Protocol Connections

Esse atributo contém as informações dos protocolos para

comunicação entre o atacante e o honeypot, e está relaci-

onado ao serviço que o atacante explorou.

5 Connection_Timestamp Connections

Esse atributo foi dividido em dois novos atributos e repre-

senta a data e a hora em que os ataques ocorreram. A data

e a hora em que o ataque ocorreu são importantes para

determinar o período de tempo entre os ataques ou o

tempo que um atacante despendeu no ataque (Esse atri-

buto não será utilizado na análise, ele será utilizado para

dar origem aos atributos 5A e 5B)

5A Data

Sub-atributo que representa a Data em que o ataque ocor-

reu sendo obtido a partir da decodificação do atributo

Connection Timestamp

5B Hora

Sub-atributo que representa a hora que o ataque ocorreu

ele foi obtido a partir da decodificação do atributo Con-

nection_Timestamp

9 Local_Port Connections

Esse atributo foi selecionado por conter a informação da

porta que o atacante utilizou para acessar o honeypot, isso

pode nós informar qual serviço foi explorado pelo ata-

cante, essa informação é amplamente utilizada na litera-

tura.

10 Remote_Host Connections

Esse atributo foi escolhido por conter o endereço IP do

atacante, na análise da base de dados Jacareí é um atributo

interessante a de valor, pois pode determinar quantos ata-

ques vieram de um mesmo endereço, nas bases de dados

Berlin e Paris esse atributo foi sanitizado se tornando in-

valida as análises sobre ele realizadas.

14 DCERPCBind_UUID Dcerpcbinds

HASH da chamada DCERPC, esse HASH informa qual

foi a chamada de procedimento remota utilizada pelo ata-

cante.

15 DCERPCBind_

TransferSyntax Dcerpcbinds

HASH da chamada DCERPC, esse HASH contém infor-

mações sobre a sintaxe de transferência entre o atacante e

o honeypot.

21 DcerpcService_Name Dcerpcservices

Esse atributo contém o nome do serviço DECRPC explo-

rado pelo atacante durante o ataque, esse atributo é impor-

tante para identificar a o tipo de vulnerabilidade explorada

a partir do serviço.

24 DcerpcServiceop_name Dcerpcserviceops

Esse atributo contém o nome da chamada DCERPC utili-

zada na exploração do serviço DCERPC. Esse atributo

pode ajudar a identificar os tipos de ataques e quais as

implicações na utilização dos serviços DCERPC.

25 DcerpcServiceop_vuln Dcerpcserviceops Esse atributo contém o nome da vulnerabilidade explo-

rada conforme os boletins de segurança da Microsoft.

Page 40: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

25

3.2 Análise Descritiva das Bases

A análise descritiva das bases de dados é utilizada para descrever, simplificar ou sumarizar as

principais características de uma base de dados, formando o princípio para qualquer análise

quantitativa dos dados. São apresentadas as classes e as frequências de cada classe dos atributos

selecionados. Essa etapa é importante para a compreensão dos dados e a identificação de pro-

blemas ou tendências nos conjuntos de dados.

As quatro bases de dados têm as seguintes características:

• Número de ataques: Ao se analisar os dados contidos na Tabela 5, nota-se que a quan-

tidade de ataques é diferente da quantidade de objetos estudados para cada conjunto. Isso

ocorre, pois aos ataques utilizam uma única conexão para explorar mais de uma vulnera-

bilidade, permitindo que um registro na tabela connections tenha mais de um registro nas

outras tabelas.

• Período da coleta: A Tabela 5 apresenta a data inicial e final de cada conjunto de dados.

Ao se analisar os dados da Tabela 5 verifica-se que o os dados coletados foram de dife-

rentes períodos de tempo, entre os anos 2009 e 2011.

• Número de atributos: Em todos os conjuntos de dados foram selecionados 11 atributos,

sendo 1 atributo numérico, 1 atributo do tipo Data, 1 atributo do tipo Hora, e 8 atributos

nominais.

• Informações adicionais: os atributos não estão normalizados e aqueles que têm objetos

com valores ausentes foram preenchidos com a palavra VAZIO.

Tabela 5: Resumo dos conjuntos de dados estudados.

Base de

Dados

Dt. Inicio

da Coleta

Dt. Final

da Coleta

Qtde de

ataques

Qtde de

objetos

Berlin 05/11/2009 07/12/2009 604.201 635.836

Campinas 20/07/2011 15/10/2011 3.754.124 11.162.100

Jacareí 28/06/2010 20/05/2010 44.883 191.764

Paris 30/11/2009 07/12/2009 7.822.148 19.755.323

Page 41: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

26

3.2.1 Paris

Uma análise inicial dos atributos selecionados revelou que esse conjunto de dados é composto

por 93,99% de ataques ao protocolo SMBD (Tabela 6.a), tendo sido o serviço SRVSVC o

mais explorado pelos atacantes com um total de 67,71% dos ataques (Tabela 6.b). A vulne-

rabilidade mais explorada foi a MS08-67 (Tabela 6..g) com 45,14% dos ataques registra-

dos. Isso mostra que os ataques registrados pelo honeypot buscavam explorar vulnerabilida-

des de sistemas operacionais Microsoft Windows, mais especificamente de seu protocolo

de chamada de procedimento remoto (RPC), que é utilizado para a execução remota de co-

mandos nos equipamentos.

Um dado interessante observado durante a análise estatística é que as chamadas de

procedimento remoto foram concentradas em três funções do serviço RPC, a NetCompare

(22,57%), a NetPathCanonicalize (22,57%) e a NetShareEnumAll (22,57%) (Tabela 6.d),

que somadas representam um total de 67,71% das chamadas realizadas durante os ataques.

A frequência de ataques é a mesma registrada pelo honeypot ao serviço SRVSVC, e a

mesma frequência é encontrada quando se analisa o atributo dcerpcbind_uuid, que é res-

ponsável pela interface utilizada nas chamadas RPC. Nesse atributo existe uma classe deno-

minada 4b324fc8-1670-01d3-1278-5a47bf6ee188 que tem a frequência relativa de 67,71%

(Tabela 6.e). Essa informação sugere que esses atributos estão intimamente relacionados,

juntamente com o boletim de segurança MS08-67 disponibilizado pela Microsoft, identifi-

cado em 45,14% dos ataques ao honeypot (Tabela 6.g). Isso mostra que 22,57% dos ata-

ques que utilizaram a interface 4b324fc8-1670-01d3-1278-5a47bf6ee188 fizeram uso de

uma variação do ataque descrito na vulnerabilidade MS08-67, o que impediu o honeypot de

relacionar esses ataques com a vulnerabilidade MS08-67.

Tabela 6: Análise de frequência dos atributos do conjunto de dados Paris. Frequência (F), Frequência Relativa

(FR). (a) Atributo connection_protocol, (b) Atributo dcerpcservice_name, (c) Atributo dcerpcserviceop_name,

(d) Atributo dcerpcbind_uuid, (e) Atributo dcerpcbind_transfersyntax, (f) Atributo dcerpcserviceop_vuln, (g)

Atributo local_port, (h) Atributo connection_date e (i) Atributo connection_time.

connection_protocol F FR

smbd 18567380 93,99

httpd 877879 4,44

epmapper 186660 0,94

TftpClient 86686 0,44

TftpServerHandler 24139 0,12

emulation 9126 0,05

ftpd 1396 0,01

remoteshell 1255 0,01

ftpctrl 436 0

ftpdata 366 0

Total 19755323 100

dcerpcser-

vice_name F FR

SRVSVC 13375959 67,71

VAZIO 6317245 31,98

ISystemActivator 45601 0,23

DCOM 12673 0,06

samr 1905 0,01

DSSETUP 1407 0,01

IOXIDResolver 426 0

WKSSVC 56 0

SVCCTL 45 0

epmp 6 0

Total 19755323 100

Page 42: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

27

(a) (b)

dcerpcserviceop_name F FR

VAZIO 6319627 31,99

NetCompare 4458653 22,57

NetPathCanonicalize 4458653 22,57

NetShareEnumAll 4458653 22,57

RemoteCreateInstance 45601 0,23

RemoteActivation 12673 0,06

DsRolerUpgradeDownlevelServer 1407 0,01

NetAddAlternateComputerName 56 0

Total

1975532

3 100

dcerpcbind_uuid F FR

4b324fc8-1670-01d3-

1278-5a47bf6ee188 13375959 67,71

VAZIO 5516680 27,93

Classes com Frequên-

cia relativa inferior a

0,5%

862684 4,36

Total 19755323 100

(c) (d)

dcerpcbind_transfersyntax F FR

8a885d04-1ceb-11c9-9fe8-

08002b104860 14003100 70,88

VAZIO 5516680 27,93

6cb71c2c-9812-4540-0100-

000000000000 215921 1,09

90909090-9090-9090-9090-

909090909090 1464 0,01

Classes com frequência rela-

tiva inferior a 0,5% 19622 0,09

Total 19755323 100

dcerpcserviceop_vuln F FR

MS08-67 8917306 45,14

VAZIO 6319627 31,99

Não Identificados 4458653 22,57

MS04-12 45601 0,23

MS03-26 12673 0,06

MS04-11 1463 0,01

Total 19755323 100

(e) (f)

local_port F FR

445 18567380 93,99

80 877879 4,44

135 186660 0,94

Portas acima

de 50000 11299 0,56

0 9477 0,05

21 1396 0,01

1130 630 0

1957 379 0

4444 223 0

Total 19755323 100

Connection_Date F FR

Segunda 3375265 17,09

Sábado 2856508 14,46

Domingo 2798861 14,17

Terça 2779615 14,07

Sexta 2703104 13,68

Quarta 2674536 13,54

Quinta 2567434 13,00

Total 19755323 100

(g) (h)

connection_time F FR

7 936425 4,74

5 926668 4,69

6 917777 4,65

4 912704 4,62

8 898268 4,55

3 866114 4,38

12 842851 4,27

15 825150 4,18

14 823284 4,17

16 811249 4,11

19 805305 4,08

13 805053 4,08

11 803539 4,07

18 799982 4,05

10 796508 4,03

9 794075 4,02

20 792609 4,01

Page 43: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

28

17 781690 3,96

2 779526 3,95

22 773655 3,92

1 772541 3,91

23 769681 3,9

21 768271 3,89

0 752398 3,81

Total 19755323 100

(i)

Ao separar o atributo timestamp em connection_date e connection_time tornou-se possível ob-

servar que os ataques estão distribuídos uniformemente entre os dias da semana e os horá-

rios do dia (Tabela 6.i e j), tendo a distribuição dos ataques durante os dias da semana apre-

sentado uma variação de 1,5% com um desvio padrão de 1,22%. Já a distribuição dos ata-

ques durante as horas do dia apresenta uma variação de 0,07% com um desvio padrão de

0,27%. Ao se analisar o dia da semana e o horário em que ocorreram os ataques, pode-se

afirmar que os ataques à rede onde estava instalado o honeypot são mais frequentes às se-

gundas feiras das 03 às 08 da manhã. O domínio de cada atributo selecionado pode ser ob-

servado na Tabela 7.

Tabela 7: Resumo do domínio dos atributos selecionados do conjunto Paris.

Nº Atributo Tipo Domínio

1 Connection Discreto (In-

teiro) [0,]

2 Connection_Protocol Discreto smbd, httpd, epmapper, TftpClient, TftpServerHandler, emulation,

ftpd, remoteshell, ftpctrl, ftpdata

3 Data 30/11/2009 a 07/12/2009

4 Hora 00:00:00 horas a 23:59:59 horas

5 Local_Port Discreto (In-

teiro)

[0, 65535]

6 Remote_Host Nominal Endereço IP do atacante de 001.000.000.000 a 254.255.255.255.

7 DCERPCBind_UUID Nominal 94 valores distintos no range de 00000000-0000-0000-0000-

000000000000 a ffffffff-ffff-ffff-ffff-ffffffffffff mais a classe VA-

ZIO

8 DCERPCBind_Trans-

ferSyntax

Nominal 43 valores distintos no range de 00000000-0000-0000-0000-

000000000000 a ffffffff-ffff-ffff-ffff-ffffffffffff mais a classe VA-

ZIO

9 DcerpcService_Name Nominal SRVSVC, VAZIO, ISystemActivator, DCOM, samr, DSSETUP,

IOXIDResolver, WKSSVC, SVCCTL, epmp

10 DcerpcServiceop_name Nominal VAZIO, NetCompare, NetPathCanonicalize, NetShareEnumAll,

RemoteCreateInstance, RemoteActivation, DsRolerUp-

gradeDownlevelServer, NetAddAlternateComputerName

11 DcerpcServiceop_vuln Nominal MS08-67, VAZIO, Não Identificados, MS04-12, MS03-26,

MS04-11

Page 44: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

29

3.2.2 Berlin

O conjunto de dados Berlin tem características diferentes dos outros conjuntos estudados, a co-

meçar pelo protocolo mais frequentemente atacado, enquanto nos outros conjuntos é o SMBD,

no conjunto Berlin é o EPMAPPER com 62,20% do total de ataques (Tabela 8.a). O protocolo

EPMAPPER é utilizado para mapear os serviços RPC a portas TCP. Em uma situação normal

o cliente efetua uma conexão na porta 135 para efetuar uma consulta sobre em qual porta o

serviço RPC está alocado. Ao encerrar essa conexão o cliente abre uma nova conexão na porta

informada pelo serviço EPMAPPER (Microsoft Corporation, 2003).

Essa característica é confirmada quando é analisado o atributo local_port o qual tem

como principal porta de ataques registrados a porta 135 com 62,21% e em seguida a porta 445

com 21,11% (Tabela 8.g).

Outra característica identificada na análise é que a 90,88% dos ataques não utilizaram

um serviço RPC (Tabela 8.b), Isso levanta a hipótese de que o honeypot que registrou os ataques

do conjunto de dados Berlin não foi alvo de ataques que exploram vulnerabilidades nos serviços

RPC, ou existia algum tipo de bloqueio entre o honeypot e o atacante que não permitia ao ata-

cante continuar a explorar as vulnerabilidades existentes. Essa hipótese se confirma ao se cons-

tatar que a classe VAZIO é predominante nos atributos dcerpcbind_uuid 88,86% (Tabela 8.d),

dcerpcbind_TransferSyntax 88,86% (Tabela 8.e), dcerpcserviceop_name 97,29% (Tabela 8.c)

e dcerpserviceop_vuln 97,29% (Tabela 8.f).

Ao se analisar os atributos connection_date e connection_time foi possível identificar

que os ataques ocorrem, em sua maioria (75,11%, Tabela 8.h e i) entre quinta e sábado entre o

meio dia e a meia noite.

Tabela 8: Análise de frequencia dos atributos do conjunto de dados Berlin. Frequência (F), Frequência Relativa

(FR). (a) Atributo connection_protocol, (b) Atributo dcerpcservice_name, (c) Atributo dcerpcserviceop_name,

(d) Atributo dcerpcbind_uuid, (e) Atributo dcerpcbind_transfersyntax, (f) Atributo dcerpcserviceop_vuln, (g)

Atributo local_port, (h) Atributo connection_date e (i) Atributo connection_time.

connection_protocol F FR

Epmapper 395511 62,20

Smbd 134230 21,11

Pcap 72625 11,42

Httpd 22121 3,47

TftpClient 3679 0,57

remoteshell 2447 0,38

Ftpdata 1820 0,28

Ftpctrl 1193 0,18

Ftpd 734 0,11

emulation 733 0,11

TftpServerHandler 551 0,08

ftpdatalisten 94 0,01

Mirrorc 49 0,00

dcerpcservice_name F FR

VAZIO 577830 90,88

samr 26216 4,12

DSSETUP 12398 1,95

SVCCTL 8639 1,36

IOXIDResolver 5811 0,91

SRVSVC 3366 0,53

ISystemActivator 1221 0,19

DCOM 218 0,03

PNP 53 0,01

epmp 52 0,01

lsarpc 32 0,01

Total 635836 100,00

Page 45: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

30

Mirrord 49 0,00

Total 635836 100

(a) (b)

dcerpcserviceop_name F FR

VAZIO 618580 97,29

DsRolerUpgradeDownlevel-

Server 12398 1,95

RemoteCreateInstance 1221 0,19

NetCompare 1122 0,18

NetPathCanonicalize 1122 0,18

NetShareEnumAll 1122 0,18

RemoteActivation 218 0,03

PNP_QueryResConfList 53 0,01

Total 635836 100,00

dcerpcbind_uuid F FR

VAZIO 564981 88,86

12345778-1234-abcd-

ef00-0123456789ac 26216 4,12

3919286a-b10c-11d0-

9ba8-00c04fd92ef5 12398 1,95

367abb81-9844-35f1-

ad32-98f038001003 8639 1,36

99fcfec4-5260-101b-

bbcb-00aa0021347a 5811 0,91

4b324fc8-1670-01d3-

1278-5a47bf6ee188 3366 0,53

Classes com Frequência

relativa inferior a 0,5% 14425 2,27

Total 635836 100,00

(c) (d)

dcerpcbind_transfersyntax F FR

VAZIO 564981 88,86

8a885d04-1ceb-11c9-9fe8-

08002b104860 57662 9,07

6cb71c2c-9812-4540-0100-

000000000000 11701 1,84

Classes com Frequência rela-

tiva inferior a 0,5% 1492 0,23

Total 635836 100,00

dcerpcserviceop_vuln F FR

VAZIO 618580 97,29

MS04-11 12398 1,95

MS08-67 2244 0,35

MS04-12 1221 0,19

Não Identificado 1122 0,18

MS03-26 218 0,03

MS05-39 53 0,01

Total 635836 100,00

(e) (f)

local_port F FR

135 395545 62,21

445 134230 21,11

Portas com frequência rela-

tiva inferior a 0,5% 35344 5,56

139 24694 3,88

80 22121 3,48

1433 7573 1,19

8080 6847 1,08

22 6171 0,97

2967 3311 0,52

Total 635836 100,00

connection_date F FR

Sexta 195347 30,72

Quinta 182233 28,66

Sábado 100025 15,73

Segunda 41465 6,52

Terça 39301 6,18

Domingo 39005 6,13

Quarta 38460 6,05

Total 635836 100,00

(g) (h)

connection_time F FR

18 37845 5,95

14 36689 5,77

12 35345 5,56

11 35286 5,55

13 35191 5,53

19 33986 5,35

17 33927 5,34

20 32978 5,19

21 32967 5,18

23 32776 5,15

0 31739 4,99

2 30740 4,83

1 29838 4,69

22 29576 4,65

Page 46: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

31

10 26631 4,19

9 23856 3,75

8 22442 3,53

16 17681 2,78

7 16270 2,56

15 14174 2,23

6 13902 2,19

5 12350 1,94

3 11531 1,81

4 8116 1,28

Total 635836 100,00

(i)

A análise permitiu estudar o domínio de cada atributo selecionado, que pode ser obser-

vado na Tabela 9.

Tabela 9: Resumo do domínio dos atributos selecionados do conjunto Berlin.

Nº Atributo Tipo Domínio

1 Connection Discreto (In-

teiro) [0, ]

2 Connection_Protocol Discreto epmapper, smbd, pcap, httpd, TftpClient, remoteshell, ftpdata,

ftpctrl, ftpd, emulation, TftpServerHandler, ftpdatalisten, mirrorc,

mirrord.

3 Data 05/11/2009 a 07/12/2009

4 Hora 00:00:00 horas a 23:59:59 horas

5 Local_Port Discreto (In-

teiro)

[0, 65535]

6 Remote_Host Nominal Endereço IP do atacante de 001.000.000.000 a 254.255.255.255.

7 DCERPCBind_UUID Nominal 57 valores distintos no range de 00000000-0000-0000-0000-

000000000000 a ffffffff-ffff-ffff-ffff-ffffffffffff mais a classe VA-

ZIO

8 DCERPCBind_Trans-

ferSyntax

Nominal 42 valores distintos no range de 00000000-0000-0000-0000-

000000000000 a ffffffff-ffff-ffff-ffff-ffffffffffff mais a classe VA-

ZIO

9 DcerpcService_Name Nominal VAZIO, samr, DSSETUP, SVCCTL, IOXIDResolver, SRVSVC,

ISystemActivator, DCOM, PNP, epmp, lsarpc

10 DcerpcServiceop_name Nominal VAZIO, DsRolerUpgradeDownlevelServer, RemoteCreateIn-

stance, NetCompare, NetPathCanonicalize, NetShareEnumAll,

RemoteActivation, PNP_QueryResConfList

11 DcerpcServiceop_vuln Nominal VAZIO, MS04-11, MS08-67, MS04-12, Não Identificado,

MS03-26, MS05-39

3.2.3 Jacareí

O conjunto de dados Jacareí tem uma característica bem definida, sendo composto por 99,96%

dos ataques ao protocolo SMBD (Tabela 10.a), e 90,43% dos ataques utilizaram o serviço RPC

SRVSVC (Tabela 10.b). Assim como o conjunto de dados Paris, aqui observamos o mesmo

comportamento do atributo dcerpcserviceop_name onde a soma das três classes NetPathCano-

nicalize (30,14%), NetPathCompare (30,14%) e NetShareEnum (30,14%) (Tabela 10.c), tem o

mesmo valor da classe SRVSVC do atributo dcerpcservice_name (Tabela 10.b). Esse compor-

tamento se repete na análise de frequência do atributo dcerpcbind_uuid onde a classe 4b324fc8-

1670-01d3-1278-5a47bf6ee188 representa 90,43% dos ataques registrados (Tabela 10.d).

Page 47: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

32

A análise do atributo dcerpcbind_uuid mostra outra característica peculiar: a maioria das classes

tem a mesma frequência (205 e 2), o que sugere que o atacante estava buscando vulnerabilidades

com outras interfaces DCERPC, muito provavelmente em uma variação do ataque original ex-

plorado por meio da vulnerabilidade MS08-68 que representou 60,28% dos ataques registrados,

seguido pelos ataques Não Identificados pelo honeypot (Tabela 10.f)

Page 48: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

33

Tabela 10: Análise de frequência dos atributos do conjunto de dados Jacareí. Frequência (F), Frequência Rela-

tiva (FR). (a) Atributo connection_protocol, (b) Atributo dcerpcservice_name, (c) Atributo dcerpcservi-

ceop_name, (d) Atributo dcerpcbind_uuid, (e) Atributo dcerpcbind_transfersyntax, (f) Atributo dcerpcservi-

ceop_vuln, (g) Atributo local_port, (h) Atributo connection_date e (i) Atributo connection_time.

connection_protocol F FR

smbd 191689 99,96

ftpctrl 33 0,017

ftpdata 32 0,016

remoteshell 10 0,005

Total 191764 100

dcerpcservice_name F FR

SRVSVC 173421 90,43

VAZIO 18338 9,56

DSSETUP 5 0,00

Total 191764 100

(a) (b)

dcerpcserviceop_name F FR

NetPathCanonicalize 57807 30,14

NetPathCompare 57807 30,14

NetShareEnum 57807 30,14

VAZIO 18338 9,56

DsRolerUpgradeDownle-

velServer 5 0,00

Total 191764 100

dcerpcbind_uuid F FR

4b324fc8-1670-01d3-

1278-5a47bf6ee188 173421 90,43

VAZIO 16210 8,45

7d705026-884d-af82-

7b3d-961deaeb179a 205 0,11

7f4fdfe9-2be7-4d6b-

a5d4-aa3c831503a1 205 0,11

8b52c8fd-cc85-3a74-

8b15-29e030cdac16 205 0,11

9acbde5b-25e1-7283-

1f10-a3a292e73676 205 0,11

9f7e2197-9e40-bec9-

d7eb-a4b0f137fe95 205 0,11

a71e0ebe-6154-e021-

9104-5ae423e682d0 205 0,11

b3332384-081f-0e95-

2c4a-302cc3080783 205 0,11

c0cdf474-2d09-f37f-

beb8-73350c065268 205 0,11

d89a50ad-b919-f35c-

1c99-4153ad1e6075 205 0,11

ea256ce5-8ae1-c21b-

4a17-568829eec306 205 0,11

00000010-0048-0000-

0100-0000b810b810 64 0,03

3919286a-b10c-11d0-

9ba8-00c04fd92ef5 5 0,00

00000000-0001-0000-

0000-0100c84f324b 2 0,00

00000003-5d04-8a88-

eb1c-c9119fe80800 2 0,00

00000010-0048-0000-

0200-0000b810b810 2 0,00

00000010-0048-0000-

0300-0000b810b810 2 0,00

00000010-0048-0000-

1000-0000b810b810 2 0,00

00000010-0048-0000-

2b00-0000b810b810 2 0,00

00000010-0048-0000-

3b00-0000b810b810 2 0,00

Total 191764 100

(c) (d)

Page 49: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

34

dcerpcbind_transfersyntax F FR

8a885d04-1ceb-11c9-9fe8-

08002b104860 175476 91,50

VAZIO 16210 8,45

00000001-0000-0001-c84f-

324b7016d301 74 0,03

00000002-0005-030b-1000-

000048000000 2 0,00

475a7812-6ebf-88e1-0300-

0000045d888a 2 0,00

Total 191764 100

dcerpcserviceop_vuln F FR

MS08-67 115614 60,28

Não Identificado 57807 30,14

VAZIO 18338 9,56

MS04-11 5 0,00

Total 191764 100,00

(e) (f)

local_port F FR

445 191689 99,96

Portas com frequência re-

lativa inferior a 0,5% 75 0,04

Total 191764 100,00

Connection_Date F FR

Sábado 31215 16,28

Sexta 30483 15,90

Quinta 29271 15,26

Domingo 28442 14,83

Segunda 26998 14,08

Quarta 26049 13,58

Terça 19306 10,07

Total 191764 100,00

(g) (h)

connection_time F FR

15 12228 6,38

18 12187 6,36

20 12065 6,29

16 11990 6,25

19 11785 6,15

17 11357 5,92

14 11114 5,80

2 10780 5,62

13 10641 5,55

22 10500 5,48

21 9848 5,14

23 9775 5,10

1 9722 5,07

0 9473 4,94

12 8552 4,46

3 7973 4,16

4 6583 3,43

5 4673 2,44

11 2677 1,40

6 2588 1,35

7 1780 0,93

10 1310 0,68

8 1198 0,62

9 965 0,50

Total 191764 100,00

(i)

Ao se analisar os atributos connection_date e connection_time verifica-se que a maioria dos

ataques ocorreram no período da tarde e noite (entre as 13 e 00 horas) durante todos os dias da

semana, mas com menor intensidade as terças-feiras. (Tabela 10.h e i).

Page 50: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

35

A análise permitiu estudar o domínio de cada atributo selecionado, que pode ser obser-

vado na Tabela 11.

Tabela 11: Resumo do domínio dos atributos selecionados do conjunto Jacareí.

Nº Atributo Tipo Domínio

1 Connection Discreto

(Inteiro) [0, ]

2 Connection_Protocol Discreto

epmapper, smbd, pcap, httpd, TftpClient, remoteshell,

ftpdata, ftpctrl, ftpd, emulation, TftpServerHandler, ftpdatal-

isten, mirrorc, mirrord

3 Data 05/11/2009 a 07/12/2009

4 Hora 00:00:00 horas a 23:59:59 horas

5 Local_Port Discreto

(Inteiro) [0, 65535]

6 Remote_Host Nominal Endereço IP do atacante de 001.000.000.000 a

254.255.255.255.

7 DCERPCBind_UUID Nominal

57 valores distintos no range de 00000000-0000-0000-0000-

000000000000 a ffffffff-ffff-ffff-ffff-ffffffffffff mais a classe

VAZIO

8 DCERPCBind_TransferSyntax Nominal

42 valores distintos no range de 00000000-0000-0000-0000-

000000000000 a ffffffff-ffff-ffff-ffff-ffffffffffff mais a classe

VAZIO

9 DcerpcService_Name Nominal VAZIO, samr, DSSETUP, SVCCTL, IOXIDResolver,

SRVSVC, ISystemActivator, DCOM, PNP, epmp, lsarpc

10 DcerpcServiceop_name Nominal

VAZIO, DsRolerUpgradeDownlevelServer, RemoteCre-

ateInstance, NetCompare, NetPathCanonicalize, Net-

ShareEnumAll, RemoteActivation, PNP_QueryResCon-

fList

11 DcerpcServiceop_vuln Nominal VAZIO, MS04-11, MS08-67, MS04-12, Não Identificado,

MS03-26, MS05-39

3.2.4 Campinas

O conjunto de dados Campinas contém a maior diversidade de ataques registrados, não em

quantidade, mas em variedade de ataques, o honeypot registrou ataques não somente ao serviço

SMBD 94,40% como os outros, mas registrou ataques a diferentes serviços, como o MSSQLD

3,69% (Microsoft SQL Server), HTTPD 0,96% (Servidor de páginas WEB), XMPPCLIENT

0,23% (Serviço de troca de mensagens) e SIPSESSION 0,10% (Serviço de VoIP) ver Tabela

12.a. Esse honeypot registrou os ataques no terceiro trimestre de 2011, enquanto os outros con-

juntos registraram os ataques no final de 2009 e começo de 2010. Fica claro nesse estudo o

início de uma mudança no comportamento dos ataques registrados. Anteriormente os ataques

eram direcionados exclusivamente a explorar vulnerabilidades das chamadas de procedimento

remoto de maquinas Windows, ao se analisar o conjunto Campinas percebe-se que os atacantes

continuam explorando essas vulnerabilidades, porem começam a explorar outros vetores de ata-

que como o serviço de Banco de Dados da Microsoft e sistemas de telefonia sobre IP.

Ao se analisar os atributos dcerpcservice_name (Tabela 12.b), dcerpcserviceop_name

(Tabela 12.c), dcerpcbind_uuid (Tabela 12.d), dcerpcbind_transfersyntax (Tabela 12.e) e

Page 51: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

36

dcerpcserviceop_vuln (Tabela 12.f), observa-se que a classe com maior frequencia é a VAZIO,

onde o honeypot não foi capaz de tratar as requisições geradas pelo atacante, isso se confirma

quando se estuda a frequência do atributo dcerpcserviceop_name (Tabela 12.c) o qual registrou

37 chamadas diferentes das já estudadas e observadas nos outros conjuntos de dados

(NetPathCanonicalize, NetPathCompare e NetShareEnum).

Um fator a ser observado é que o honeypot em 91,41% dos casos não foi capaz de tratar

e ou associar a um boletim de segurança da Microsoft (Tabela 10.f) e diferente dos outros con-

juntos nesse a vulnerabilidade explorada no boletim de segurança MS08-67 representa apenas

5,92% dos ataques (Tabela 10.f). Uma hipótese para a baixa quantidade de ataques explorando

a vulnerabilidade MS08-67 é que essa vulnerabilidade foi postada pela Microsoft em 23 de

outubro de 2008, e como o periodo de coleta do honeypot foi o terceiro trimestre de 2011, os

atacantes já não buscam explorar essa vulnerabilidade pelo fato da mesma já ter sido corrigida

e o numero de sistemas que ainda não instalaram a correção é pequeno, justificando concentrar

os esforços em novas frentes e novos tipos de ataques como pode ser observado nessa análise.

Tabela 12: Análise de frequencia dos atributos do conjunto de dados Campinas. Frequência (F), Frequência

Relativa (FR). (a) Atributo connection_protocol, (b) Atributo dcerpcservice_name, (c) Atributo dcerpcservi-

ceop_name, (d) Atributo dcerpcbind_uuid, (e) Atributo dcerpcbind_transfersyntax, (f) Atributo dcerpcservi-

ceop_vuln, (g) Atributo local_port, (h) Atributo connection_date e (i) Atributo connection_time.

connection_protocol F FR

smbd 10537412 94,40

mssqld 412100 3,69

httpd 107698 0,96

epmapper 38297 0,34

xmppclient 25942 0,23

emulation 16693 0,15

SipSession 11222 0,10

ftpd 6383 0,06

remoteshell 2040 0,02

ftpdata 2036 0,02

ftpctrl 1367 0,01

TftpClient 688 0,01

ftpdatalisten 178 0,00

mirrorc 13 0,00

mirrord 13 0,00

TftpServerHandler 12 0,00

ftpdataconnect 6 0,00

Total 11162100 100,00

dcerpcservice_name F FR

VAZIO 5519117 49,45

samr 2688380 24,08

SRVSVC 2311540 20,71

DSSETUP 343587 3,08

SVCCTL 123951 1,11

MGMT 94775 0,85

ATSVC 33644 0,30

IOXIDResolver 28046 0,25

lsarpc 8112 0,07

ISystemActivator 5859 0,05

PNP 5041 0,05

epmp 38 0,00

spoolss 6 0,00

WKSSVC 4 0,00

Total 11162100 100,00

(a) (b)

dcerpcserviceop_name F FR

VAZIO 5519155 49,45

DsRolerUpgradeDownlevel-

Server 343587 3,08

NetNameCanonicalize 330220 2,96

NetPathCanonicalize 330220 2,96

dcerpcbind_uuid F FR

VAZIO 2914671 26,11

12345778-1234-abcd-

ef00-0123456789ac 2688380 24,08

4b324fc8-1670-01d3-

1278-5a47bf6ee188 2311540 20,71

Page 52: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

37

NetPathCompare 330220 2,96

NetShareAdd 330220 2,96

NetShareEnum 330220 2,96

NetrRemoteTOD 330220 2,96

NetrShareGetInfo 330220 2,96

Close 270866 2,43

Connect4 268838 2,41

Connect5 268838 2,41

EnumDomainUsers 268838 2,41

EnumDomains 268838 2,41

EnumerateAliasesInDomain 268838 2,41

LookupDomain 268838 2,41

OpenDomain 268838 2,41

QueryDisplayInformation 268838 2,41

QueryInformationDomain2 268838 2,41

CloseServiceHandle 41317 0,37

CreateServiceA 41317 0,37

OpenSCManagerA 41317 0,37

NetrJobEnum 33644 0,30

ServerAlive2 28046 0,25

inq_if_ids 18955 0,17

inq_princ_name 18955 0,17

inq_stats 18955 0,17

is_server_listening 18955 0,17

stop_server_listening 18955 0,17

RemoteCreateInstance 5859 0,05

PNP_QueryResConfList 5041 0,05

LookupNames2 2028 0,02

LookupSids2 2028 0,02

OpenPolicy 2028 0,02

NetAddAlternateComputer-

Name 4 0,00

ClosePrinter 1 0,00

EndDocPrinter 1 0,00

EnumPrinters 1 0,00

OpenPrinter 1 0,00

StartDocPrinter 1 0,00

WritePrinter 1 0,00

Total 11162100 100,00

3919286a-b10c-11d0-

9ba8-00c04fd92ef5 343587 3,08

b3332384-081f-0e95-

2c4a-302cc3080783 260750 2,34

a71e0ebe-6154-e021-

9104-5ae423e682d0 260684 2,34

7f4fdfe9-2be7-4d6b-

a5d4-aa3c831503a1 260631 2,33

d89a50ad-b919-f35c-

1c99-4153ad1e6075 260555 2,33

9f7e2197-9e40-bec9-

d7eb-a4b0f137fe95 260477 2,33

8b52c8fd-cc85-3a74-

8b15-29e030cdac16 260400 2,33

9acbde5b-25e1-7283-

1f10-a3a292e73676 260319 2,33

c0cdf474-2d09-f37f-

beb8-73350c065268 260256 2,33

ea256ce5-8ae1-c21b-

4a17-568829eec306 260190 2,33

7d705026-884d-af82-

7b3d-961deaeb179a 260114 2,33

367abb81-9844-35f1-

ad32-98f038001003 123951 1,11

afa8bd80-7d8a-11c9-

bef4-08002b102989 94775 0,85

Classes com Frequên-

cia relativa inferior a

0,5%

80820 0,72

Total 11162100 100,00

(c) (d)

dcerpcbind_transfersyntax F FR

8a885d04-1ceb-11c9-9fe8-

08002b104860 7001066 62,72

VAZIO 2914671 26,11

6cb71c2c-9812-4540-0100-

000000000000 1224046 10,97

6cb71c2c-9812-4540-0300-

000000000000 22317 0,20

Total

1116210

0 100,00

dcerpcserviceop_vuln F FR

VAZIO 5519155 49,45

Não Identificado 4628014 41,46

MS08-67 660440 5,92

MS04-11 343587 3,08

MS04-12 5859 0,05

MS05-39 5041 0,05

MS03-39 4 0,00

Total

1116210

0 100,00

(e) (f)

local_port F FR

445 10537412 94,40

1433 412100 3,69

80 107698 0,96

Portas com frequência re-

lativa inferior a 0,5% 104890 0,94

Connection_Date F FR

Terça 2026649 18,16

Sexta 2020172 18,10

Quarta 1878820 16,83

Sábado 1494728 13,39

Quinta 1374762 12,32

Page 53: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

38

Total 11162100 100,00

Segunda 1367893 12,25

Domingo 999076 8,95

Total 11162100 100,00

(g) (h)

connection_time F FR

11 543045 4,87

15 541348 4,85

13 526221 4,71

14 512990 4,60

12 510503 4,57

16 508172 4,55

5 494959 4,43

17 493950 4,43

9 490227 4,39

7 486244 4,36

4 479587 4,30

3 479272 4,29

6 471002 4,22

20 461960 4,14

18 455380 4,08

8 454611 4,07

10 449490 4,03

2 424829 3,81

21 416379 3,73

19 408948 3,66

23 398665 3,57

1 397106 3,56

22 388632 3,48

0 368580 3,30

Total 11162100 100,00

(i)

Ao se analisar os dias da semana em que os ataques ocorreram, nota-se que esses ataques tem

uma frequência menor aos dias de domingo, registrando 8,95% (Tabela 10.h), em compensação,

os ataques se distribuíram equilibradamente durante as horas do dia com máxima de 4,87% ás

11 horas da manhã e mínima de 3,30% a meia noite (Tabela 10.i). Os ataques tiveram uma

variação de 0,19% e um desvio padrão de 0,43% ao longo das horas do dia.

A análise permitiu estudar o domínio de cada atributo selecionado, que pode ser obser-

vado na Tabela 13 .

Tabela 13: Resumo do domínio dos atributos selecionados do conjunto Campinas.

Nº Atributo Tipo Domínio

1 Connection Discreto (In-

teiro) [0, ]

2 Connection_Protocol Discreto epmapper, smbd, pcap, httpd, TftpClient, remoteshell, ftpdata,

ftpctrl, ftpd, emulation, TftpServerHandler, ftpdatalisten, mirrorc,

mirrord

3 Data 20/07/2011 a 15/10/2011

4 Hora 00:00:00 horas a 23:59:59 horas

5 Local_Port Discreto (In-

teiro)

0 a 65535

6 Remote_Host Nominal Endereço IP do atacante de 001.000.000.000 a 254.255.255.255.

Page 54: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

39

7 DCERPCBind_UUID Nominal 92 valores distintos no range de 00000000-0000-0000-0000-

000000000000 a ffffffff-ffff-ffff-ffff-ffffffffffff mais a classe VA-

ZIO

8 DCERPCBind_Trans-

ferSyntax

Nominal 03 valores distintos no range de 00000000-0000-0000-0000-

000000000000 a ffffffff-ffff-ffff-ffff-ffffffffffff mais a classe VA-

ZIO

9 DcerpcService_Name Nominal VAZIO, samr, SRVSVC, DSSETUP, SVCCTL, MGMT, ATSVC,

IOXIDResolver, lsarpc, ISystemActivator, PNP, epmp, spoolss,

WKSSVC

10 DcerpcServi-

ceop_name

Nominal VAZIO, DsRolerUpgradeDownlevelServer, NetNameCanonical-

ize, NetPathCanonicalize, NetPathCompare, NetShareAdd, Net-

ShareEnum, NetrRemoteTOD, NetrShareGetInfo, Close, Con-

nect4, Connect5, EnumDomainUsers, EnumDomains, Enumer-

ateAliasesInDomain, LookupDomain, OpenDomain, QueryDis-

playInformation, QueryInformationDomain2, CloseServiceHandle,

CreateServiceA, OpenSCManagerA, NetrJobEnum, ServerAlive2,

inq_if_ids, inq_princ_name, inq_stats, is_server_listening,

stop_server_listening, RemoteCreateInstance, PNP_QueryResCon-

fList, LookupNames2, LookupSids2, OpenPolicy, NetAddAlter-

nateComputerName, ClosePrinter, EndDocPrinter, EnumPrinters,

OpenPrinter, StartDocPrinter, WritePrinter

11 DcerpcServiceop_vuln Nominal VAZIO, Não Identificado, MS08-67, MS04-11, MS04-12, MS05-

39, MS03-39

Após efetuar um estudo de frequência sobre os quatro conjuntos de dados, observou-se um pa-

drão nos ataques em sua maioria exploram a vulnerabilidade MS08-67, apresentando compor-

tamento semelhante nos conjuntos Paris e Jacareí, e em menor quantidade no conjunto Campi-

nas. Já o conjunto Campinas e Berlim tem características semelhantes, pois ambos tem como

classe predominante nos atributos ligados as chamadas RPC (dcerpcbind_uuid,

dcerpcbind_transfersyntax, dcerpcserviceop_name e dcerpcserviceop_vuln) a classe VAZIO.

Em Berlin isso se deve aos ataques não conseguirem completar as chamadas ao serviço RPC,

ficando apenas na consulta ao serviço EPMAPPER. Já em Campinas os atacantes deixaram de

atacar as vulnerabilidades do serviço RPC e passaram a explorar outras frentes em busca de

novos sistemas e serviços com novas vulnerabilidades.

3.3 Construção de Árvores de Decisão para Extração de Regras

de IDS

O uso das árvores de decisão como modelo de classificação de atividade maliciosa é interessante

devido tanto a seu desempenho de classificação, quanto à possibilidade de extrair regras claras

que identifiquem cada tipo de ataque. Além disso, uma vez gerada a árvore de decisão ela pode

ser usada na identificação de novas atividades maliciosas (Grégio, Santos, & Montes, 2007).

Segundo Markey e Atlasis (Markey & Atlasis, 2011) árvores de decisão são técnicas

capazes de auxiliar a análise de grandes conjuntos de dados para detecção de intrusão, sendo

Page 55: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

40

capazes de responder questões como: “Quais regras devem ser utilizadas para diferenciar o trá-

fego malicioso do legítimo?” e “Quais são as características mais comuns de uma atividade de

escaneamento quando comparada a outros tráfegos de dados?”.

Nos experimentos realizados nesse pesquisa, escolheu-se para a execução do algoritmo

de árvore de decisão o software RapidMiner (Mierswa, Wurst, Klinkenberg, Scholz, & Euler,

2006). Para avaliar os atributos selecionados e a árvore de decisão foi definido como classe o

atributo DceRPCServiceop_Name, pois a Microsoft libera em sua biblioteca digital o docu-

mento Remote Procedure Call Protocol Extension (Microsoft Corporation, 2013), que indica

quais chamadas e quais assinaturas levam aos procedimentos remotos (atributo DceRPCSer-

vice_name).

Foi utilizada uma validação cruzada do tipo k-pastas, com k = 10, para estimar o desempe-

nho de classificação das árvores de decisão. A primeira dificuldade encontrada na execução do

algoritmo foi a quantidade de objetos existentes nas bases de dados Paris e Campinas. Mesmo

executando os experimentos em um computador com 32Gb de memória RAM e 128Gb de

Swap, a máquina não conseguiu tratar todos os dados. Diante dessa dificuldade se optou por

amostrar as bases de dados em períodos de tempo. Inicialmente se pensou em amostrar as bases

em períodos de meses, mas três dos quatro conjuntos correspondem a períodos iguais ou inferi-

ores a um mês. Em seguida se propôs amostrar os conjuntos em períodos de semanas. Três dos

quatro conjuntos permitiram essa amostragem, com exceção do conjunto Paris, que foi amos-

trado em períodos equivalentes a um dia.

Sendo assim, o conjunto de dados Paris foi o que teve o menor número de amostras, totali-

zando 8 subconjuntos de dados amostrados a partir do conjunto total. O conjunto Berlin ficou

ativo por cinco semanas e, por isso, obtiveram-se 5 amostras, cada uma referente a uma semana

de atividade do honeypot. Para o conjunto Jacareí ocorreu o mesmo, pois o honeypot ficou ativo

por cinco semanas e se obtiveram 5 amostras. O conjunto Campinas corresponde a um período

de tempo de treze semanas, sendo assim se obtiveram 13 amostras do conjunto original.

Após a obtenção de todas as amostras criou-se 31 amostras a serem estudadas e submetidas

ao algoritmo C4.5 de indução de árvore de decisão (Quinlan, 1993).

3.3.1 Paris

Ao se analisar as árvores geradas para cada amostra da base Paris notou-se que foram criadas

três diferentes árvores, que podem ser visualizadas na Figura 5. A Figura 5.a representa a árvore

gerada pelo conjunto amostral do primeiro dia, A Figura 5.b representa a árvore gerada pelos

Page 56: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

41

conjuntos dos dias 2,4,5,6,7 e 8 e, por fim, a Figura 5.c representa a árvore gerada pelo conjunto

do dia 3.

(a) – Árvore obtida para o conjunto amostral do dia 1.

Page 57: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

42

(b) – Árvore obtida pelos conjuntos dos dias 2,4,5,6,7,8.

Page 58: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

43

(c) – Árvore obtida pelo conjunto amostral do dia 3.

Figura 5: Árvores obtidas utilizando os subconjuntos de Paris

Para a análise das árvores de decisão deve-se percorrer o caminho entre o nó raiz da

árvore e os nós folhas. Cada caminho entre a raiz e uma folha gera uma regra de decisão. Para

a árvore da Figura 5.a, partindo do atributo dcerpcserviceop_vuln com o valor de MS04-11, o

atributo connection_protocol tem valor SMBD, o connection_transport tem valor TCP, o

dcerpcbind_uuid tem valor Não_Identificado e o atributo dcerpcbind_transfersyntax se divide

em dois, um com valor Não_Identificado e outro com valor 8a885d04-1ceb-11c9-9fe8-

08002b104860.

Se percorrermos à esquerda o valor da folha é NetAddAlternateComputerName. Essa

regra pode ser interpretada da seguinte forma: uma conexão que explora a vulnerabilidade des-

crita no relatório MS04-11 utilizou o protocolo SMBD em uma conexão TCP não teve uma

Page 59: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

44

interface DCERPC identificada e nem uma sintaxe de transferência identificada, tentando exe-

cutar uma chamada para adicionar um nome alternativo do computador. A regra resultante pelo

lado direito pode ser interpretada como: uma conexão que explora a vulnerabilidade descrita no

relatório MS04-11 utilizou o protocolo SMBD em uma conexão TCP, não teve uma interface

DCERPC identificada, a sintaxe de transferência identificada foi 8a885d04-1ceb-11c9-9fe8-

08002b104860, tentando executar uma chamada para alterar uma permissão de um servidor de

domínio. Nos dois casos o relatório da Microsoft informa que é uma vulnerabilidade de Buffer

Overflow, permitindo a execução remota de comandos arbitrários.

Os ramos da direita levam ao cenário de exploração das vulnerabilidades descritas no

MS08-67 e podem ser interpretados da seguinte maneira: um atacante explorando as vulnerabi-

lidades descritas no MS08-67 utilizou o protocolo SMBD em uma conexão TCP com uma in-

terface DCERPC 4b324fc8-1670-01d3-1278-5a47bf6ee188 e uma sintaxe de transferência

8a885d04-1ceb-11c9-9fe8-08002b104860 utilizando o serviço SRVSVC tentou executar a cha-

mada NetPathCanonicalize para converter um caminho em um nome canônico.

Cada uma das árvores de decisão geradas para cada um dos oito subconjuntos de dados

foi avaliada com uma validação cruzada do tipo k-pastas, com k = 10. Após a avaliação, foi

calculada a acurácia percentual para cada subconjunto, a taxa de falsos positivos (FPR) e a taxa

de falsos negativos (FNR). Os valores apresentados na Tabela 15 correspondem ao resultado de

cada avaliação em k-pastas do modelo gerado por cada subconjunto. A média das k-pastas do

teste pode ser observado na Tabela 16.

Os resultados de cada subconjunto apresentaram valores médios de acurácia superiores

a 75%, FPR médio em torno de 3% e FNR médio em torno de 14%. Apenas um conjunto teve

um resultado inferior com um valor de acurácia de 45%, FPR igual a 9,74% e FNR de 71,42%.

Ao se analisar individualmente o resultado da avaliação em k-pastas dos dados amostra-

dos, verifica-se que o subconjunto 3 obteve o pior desempenho. Para entender esse comporta-

mento foi avaliada a matriz de confusão gerada pelo modelo. Na Tabela14.c observa-se que

houve uma grande confusão entre as classes e algumas não foram mapeadas pelas regras de

decisão da árvore. Por exemplo, as classes Vazio, RemoteCreateInstance, RemoteActivation e

NetAddAlternateComputerName não foram cobertas pelas regras.

Além da matriz de confusão, foi feita também uma investigação sobre a distribuição dos

objetos do subconjunto 3. A partir dessa análise foi possível perceber que: 1) as classes Net-

Compare, NetPathCanonicalize e NetShareEnumAll têm a mesma quantidade de objetos; 2) o

Page 60: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

45

modelo não foi capaz de separar adequadamente os objetos em suas referidas classes; e 3) ao se

analisar individualmente os objetos de cada classe verifica-se que eles têm características idên-

ticas em classes diferentes, o que torna impossível para o algoritmo separá-los adequadamente.

Apesar do modelo gerado pelo subconjunto 3 não ter um desempenho satisfatório na

classificação dos objetos ele mostra uma característica interessante dos ataques registrados no

dia. Ao percorrer os nós da árvore é possível constatar que o algoritmo foi capaz de identificar

que os ataques ao protocolo SMBD ocorreram em portas não padronizadas (portas > 290 e

290). Essa característica levanta a hipótese de que os atacantes estavam buscando comprometer

outros sistemas existentes ou um sistema configurado para não utilizar as portas padrões do

serviço SMB. Isso pode indicar que os atacantes têm um conhecimento da estrutura da rede na

qual o honeypot estava instalado.

Um fato a ser ressaltado durante a análise das matrizes de confusão geradas pelos con-

juntos amostrados é que em todas as matrizes o modelo tem dificuldade em separar adequada-

mente os objetos das classes NetPathCanonicalize, NetCompare o modelo tem dificuldade em

separar adequadamente os objetos dessas duas classes. Ao se analisar os objetos marcados nes-

sas duas classes verifica-se que eles têm os mesmos valores definidos em classes diferentes, o

que torna impossível o modelo separar adequadamente essas classes. Para aumentar a acurácia

do classificador seria necessário inserir novos atributos que possam diferenciar os objetos dessas

duas classes.

Page 61: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

46

Tabela 14: Matrizes de confusão das árvores geradas pelos subconjuntos da base de dados Paris. (a) Primeiro dia, (b) Segundo dia, (c) Terceiro dia, (d) Quarto dia, (e) Quinto

dia, (f) Sexto dia, (g) Sétimo dia, (h) Oitavo dia.

VAZIO

NetShare-

EnumAll

NetPath-Ca-

nonicalize NetCompare

DsRole-

rUpgrade-Down-

levelServer

RemoteCre-

ate- Instance

NetAddAlter-

nate- Computer-

Name

Remote-Acti-

vation

VAZIO 776352 0 0 0 1381 0 12 0

NetShareEnumAll 0 537400 0 0 0 0 0 0

NetPathCanonicalize 0 0 483660 483660 0 0 0 0

NetCompare 0 0 53740 53740 0 0 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 0 0 0 0

RemoteCreateInstance 0 0 0 0 0 5698 0 0

NetAddAlternateComputerName 0 0 0 0 0 0 0 0

RemoteActivation 0 0 0 0 0 0 0 2330

(a)

VAZIO

NetShare-

EnumAll

NetPath-Cano-

nicalize

NetCom-

pare

Remote-Crea-

teInstance

DsRolerUpgrade-Downle-

velServer

Remote-Acti-

vation

VAZIO 830377 0 0 0 0 0 0

NetShareEnumAll 0 647076 0 0 0 0 0

NetPathCanonicalize 0 0 388244 388248 0 0 0

NetCompare 0 0 258832 258828 0 0 0

RemoteCreateInstance 0 0 0 0 6047 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 0 26 0

RemoteActivation 0 0 0 0 0 0 1937

(b)

NetShare-

EnumAll

NetPath-Cano-

nicalize

NetCom-

pare

VA-

ZIO

Remote-Crea-

teInstance

Remote-Acti-

vation

NetAddAlternate-Com-

puterName

NetShareEnumAll 607351 0 0 844406 6046 2027 4

NetPathCanonicalize 0 485880 485881 0 0 0 0

NetCompare 0 121471 121470 0 0 0 0

VAZIO 0 0 0 0 0 0 0

RemoteCreateInstance 0 0 0 0 0 0 0

RemoteActivation 0 0 0 0 0 0 0

NetAddAlternateComputer-

Name 0 0 0 0 0 0 0

(c)

Page 62: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

47

VA-

ZIO

NetShare-

EnumAll

NetPath-Canoni-

calize

NetCom-

pare

Remote-CreateIns-

tance

Remote-Acti-

vation

NetAddAlternate-Compu-

terName

VAZIO 844767 0 0 0 0 0 0

NetShareEnumAll 0 571704 0 0 0 0 0

NetPathCanonicalize 0 0 343020 343024 0 0 0

NetCompare 0 0 228684 228680 0 0 0

RemoteCreateInstance 0 0 0 0 6225 0 0

RemoteActivation 0 0 0 0 0 1322 0

NetAddAlternateComputerName 0 0 0 0 0 0 8

(d)

VA-

ZIO

NetShare-

EnumAll

NetPath-Cano-

nicalize

NetCom-

pare

Remote-Crea-

teInstance

NetAddAlternate-Com-

puterName

Remote-Acti-

vation

VAZIO 891636 0 0 0 0 0 0

NetShareEnumAll 0 601372 0 0 0 0 0

NetPathCanonicalize 0 0 420959 420961 0 0 0

NetCompare 0 0 180413 180411 0 0 0

RemoteCreateInstance 0 0 0 0 6045 0 0

NetAddAlternateComputerName 0 0 0 0 0 12 0

RemoteActivation 0 0 0 0 0 0 1295

(e)

VA-

ZIO

NetShare-

EnumAll

NetPath-Cano-

nicalize

NetCom-

pare

Remote-Crea-

teInstance

Remote-Acti-

vation

NetAddAlternate-Com-

puterName

VAZIO 924521 0 0 0 0 0 0

NetShareEnumAll 0 640968 0 0 0 0 0

NetPathCanonicalize 0 0 448677 448679 0 0 0

NetCompare 0 0 192291 192289 0 0 0

RemoteCreateInstance 0 0 0 0 6997 0 0

RemoteActivation 0 0 0 0 0 2074 0

NetAddAlternateComputerName 0 0 0 0 0 0 12

(f)

Page 63: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

48

VA-

ZIO

NetShare-

EnumAll

NetPath-Cano-

nicalize

NetCom-

pare

Remote-Crea-

teInstance

NetAddAlternate-Com-

puterName

Remote-Acti-

vation

VAZIO 955042 0 0 0 0 0 0

NetShareEnumAll 0 611495 0 0 0 0 0

NetPathCanonicalize 0 0 305745 305750 0 0 0

NetCompare 0 0 305750 305745 0 0 0

RemoteCreateInstance 0 0 0 0 7660 0 0

NetAddAlternateComputerName 0 0 0 0 0 8 0

RemoteActivation 0 0 0 0 0 0 1666

(g)

VA-

ZIO

NetShare-Enu-

mAll

NetPath-Canonica-

lize

NetCom-

pare

Remote-CreateIns-

tance

Remote-Activa-

tion

VAZIO 252526 0 0 0 0 0

NetShareEnumAll 0 241287 0 0 0 0

NetPathCanonicalize 0 0 144771 144774 0 0

NetCompare 0 0 96516 96513 0 0

RemoteCreateInstance 0 0 0 0 883 0

RemoteActivation 0 0 0 0 0 22

(h)

Tabela 15: Resumo do desempenho das árvores para o conjunto Paris.

(a) (b) (c) (d) (e) (f) (g) (h)

Acurácia 77.53% 76.72% 45.42% 77.73% 77.75% 77.56% 78.15% 75.31%

FPR 0,0281 0,0385 0,0974 0,0318 0,0317 0,0320 0,0312 0,0472

FNR 0,3750 0,1428 0,7142 0,1428 0,1428 0,1428 0,1428 0,1666

Tabela 16: Média do desempenho das árvores do conjunto Paris.

Média Mediana Desvio Padrão Coeficiente de Variação

Acurácia 73,2713% 77,5450% 11,2885% 0,1541%

FPR 0,0422 0,0319 0,0215 0,5110

FNR 0,2462 0,1428 0,1921 0,7804

Page 64: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

49

3.3.2 Berlin

Ao submeter os subconjuntos amostrados da base de dados Berlin verificou-se que os dois pri-

meiros subconjuntos referentes às duas primeiras semanas retornavam um erro do algoritmo.

Ao analisar as amostras verificou-se que o atributo alvo continha apenas uma classe (VAZIO) e

que os atributos dcerpcbind_uuid, dcerpbind_transfersyntax, dcerpcservoce_name, dcerpcser-

viceop_name e dcerpcserviceop_vuln contêm uma única classe (VAZIO). As amostras referentes

a primeira e segunda semana têm um total de 71,53% e 54,14% dos ataques direcionados ao

protocolo SMBD, respectivamente. Isso reforça a hipótese de que existia um bloqueio entre o

atacante e o honeypot que impedia a continuidade do ataque, tornando o honeypot alvo apenas

de scan de portas.

Devido a essa característica só foi possível gerar árvores das amostras da terceira, quarta

e quinta semana. Ao se analisar as árvores geradas notou-se que foram criadas três diferentes

árvores, sendo uma para cada amostra. As árvores obtidas podem ser visualizadas na Figura 6.

A Figura 6.a, representa a árvore gerada pelo conjunto amostral da terceira semana. A Figura

6.b representa a árvore gerada pela amostra da quarta semana e, por fim, a Figura 6.c representa

a árvore gerada pelo conjunto da quinta semana.

Ao percorrer a árvore obtida na amostra da terceira semana (Figura 6.a) verifica-se que

a maior parte da informação é direcionada à classe VAZIO, onde o honeypot não foi capaz de

obter informações a respeito do ataque. Infelizmente a amostra da terceira semana não trouxe

informações que pudessem ser utilizadas para auxiliar o administrador de rede a proteger seus

ativos. Ao se analisar o conjunto gerado pela terceira semana verifica-se que a classe VAZIO foi

predominante nos atributos dcerpcbind_uuid (96,80%), dcerpbind_transfersyntax (96,80%),

dcerpcservice_name (97,40%), dcerpcserviceop_name (99,15%) e dcerpcserviceop_vuln

(99,15%), comprometendo a criação do modelo.

Ao analisar a árvore gerada pela amostra da quarta semana (Figura 6.b) verifica-se uma

característica interessante, a árvore tem como nó central o atributo dcerpcbind_transfersyntax

com o valor de 8a885d04-1ceb-11c9-9fe8-08002b104860, logo em seguida o modelo divide o

atributo em EPMAPPER e SMBD. A partir dessa ramificação o honeypot não é mais capaz de

identificar os métodos utilizados pelo atacante, apenas que ao utilizar o protocolo SMBD a cha-

mada do serviço utilizado é a NetShareEnumAll, mas o honeypot não é capaz de identificar a

qual relatório de segurança essa chamada está associada. Pode-se levantar duas hipóteses a res-

peito desse comportamento: a primeira é a respeito de uma variação ou mesmo um novo tipo de

Page 65: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

50

ataque que o honeypot não estava programado para suportar; e a segunda, e mais provável hi-

pótese, de que existia algum tipo de bloqueio na comunicação do honeypot com o atacante que

não permitiu que o atacante completasse o ataque, impedindo o honeypot de associar esse ataque

a um relatório de segurança da Microsoft.

A árvore gerada pela amostra da quinta semana (Figura 6.c) permite observar uma cadeia

de eventos que levam a exploração da vulnerabilidade MS08-67. Uma característica interessante

ao se observar essa árvore é que oito interfaces DCERPC chamaram algum tipo de serviço RPC,

mas apenas uma, a 4b324fc8-1670-01d3-1278-5a47bf6ee188, levou a ramificações no modelo

gerado. Essa interface DCERPC representa 1,76% da amostra, onde a classe com maior valor é

a VAZIO com 58,28%.

A árvore obtida a partir da amostra da quinta semana permite traçar dois perfis de ata-

ques que podem ajudar o administrador a proteger seus ativos. O primeiro perfil pode ser lido

como: o atacante utilizou uma conexão TCP com o protocolo SMBD em uma interface DCERPC

4b324fc8-1670-01d3-1278-5a47bf6ee188 utilizando o serviço SRVSVC da interface de transfe-

rência 8a885d04-1ceb-11c9-9fe8-08002b104860 com a chamada NetPathCanonicalize para ex-

plorar a vulnerabilidade MS08-67. O segundo perfil tem as mesmas características, mudando

apenas a chamada para NetShareEnumAll onde o honeypot não foi capaz de associar a um bo-

letim de segurança da Microsoft.

Cada uma das árvores de decisão geradas para cada um dos cinco subconjuntos de dados

foi avaliada com uma validação cruzada do tipo k-pastas, com k = 10. Após a avaliação foi

calculada a acurácia percentual para cada subconjunto, a taxa de falsos positivos e falsos nega-

tivos. Os valores apresentados nas Tabela 18a,b e c, correspondem ao resultado de cada avalia-

ção em k-pastas do modelo gerado para cada subconjunto. A média das k-pastas do teste pode

ser observada na Tabela 19. Os resultados de cada subconjunto apresentaram valores médios de

acurácia superiores a 99,53%, FPR médio em torno de 0,06% e FNR médio em torno de 16,28%.

Assim como feito para as amostras do conjunto Paris, a análise das matrizes de confusão

geradas pelos subconjuntos amostrados revelou que o modelo tem dificuldade em separar as

classes NetPathCanonicalize, NetCompare. Ao se analisar o objeto marcado nessas duas classes

verifica-se, assim como nos subconjuntos da base Paris, que eles têm os mesmos valores defi-

nidos em classes diferentes, o que torna impossível para o modelo separar adequadamente essas

classes.

Page 66: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

51

Tabela 17: Matrizes de confusão dos subconjuntos da base de dados Berlin. (a) Primeira semana, (b) Segunda semana, (c) Terceira semana.

VAZIO

NetShare-

EnumAll

NetPath-Ca-

nonicalize NetCompare

DsRole-

rUpgrade-

Downle-

velServer

Remote-Crea-

teInstance

PNP_Query-

ResConfList

Remote-

Activation

VAZIO 421984 0 0 0 0 0 0 0

NetShareEnumAll 0 224 0 0 0 0 0 0

NetPathCanonicalize 0 0 132 136 0 0 0 0

NetCompare 0 0 92 88 0 0 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 2537 0 0 0

RemoteCreateInstance 0 0 0 0 0 330 0 0

PNP_QueryResConfList 0 0 0 0 0 0 4 0

RemoteActivation 0 0 0 0 0 0 0 49

(a)

VA-

ZIO

NetShare-

EnumAll

NetPath-Ca-

nonicalize

Net-

Com-

pare

DsRolerUpgrade-

DownlevelServer

Remote-Crea-

teInstance

Remote-Ac-

tivation

PNP_Query-

ResConfList

VAZIO 73472 0 0 0 0 0 0 0

NetShareEnumAll 0 620 0 0 0 0 0 0

NetPathCanonicalize 0 0 558 558 0 0 0 0

NetCompare 0 0 62 62 0 0 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 6896 0 0 0

RemoteCreateInstance 0 0 0 0 0 521 0 0

RemoteActivation 0 0 0 0 0 0 116 0

PNP_QueryResConfList 0 0 0 0 0 0 0 28

(b)

VA-

ZIO

PNP_Query-

ResConfList

NetShare-

EnumAll

NetPath-Ca-

nonicalize

NetCom-

pare

DsRolerUpgrade-

DownlevelServer

Remote-Crea-

teInstance

Remote-Ac-

tivation

VAZIO 43088 0 0 0 0 0 0 0

PNP_QueryResConfList 0 21 0 0 0 0 0 0

NetShareEnumAll 0 0 278 0 0 0 0 0

NetPathCanonicalize 0 0 0 222 224 0 0 0

NetCompare 0 0 0 56 54 0 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 0 2965 0 0

RemoteCreateInstance 0 0 0 0 0 0 370 0

RemoteActivation 0 0 0 0 0 0 0 53

Page 67: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

52

(c)

Tabela 18: Tabela Resumo do Desempenho das Arvores do Conjunto Berlin

(a) (b) (c)

Acurácia 99,9500% 99,2500% 99,4100%

FNR 13,7355% 22,5000% 12,5899%

FPR 0,0067% 0,0942% 0,0744%

Tabela 19: Média do desempenho das árvores do conjunto Berlin

Media Mediana Desvio Padrão Coeficiente de Variação

Acurácia 99,54 99,41 37% 0%

FNR 16,28% 13,74% 5,42% 33,31%

FPR 0,06% 0,07% 0,05% 78,52%

Page 68: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

53

(a)

Page 69: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

54

(b)

Page 70: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

55

(c)

Figura 6: Árvores obtidas utilizando os subconjuntos de Berlin

Page 71: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

56

3.3.3 Jacareí

Ao se analisar as árvores geradas para a base Jacareí notou-se que foram criadas três diferentes

árvores, apresentadas na Figura 7. A Figura 7.a representa a árvore gerada pelo conjunto amos-

tral da primeira semana, a Figura 7.b representa a árvore gerada pela amostra da segunda semana

e, por fim, a Figura 7.c representa a árvore gerada pelos conjuntos das terceira, quarta e quinta

semanas.

Ao analisar as árvores geradas pelas amostras da primeira, terceira, quarta e quinta se-

manas, verifica-se que são árvores simples, com um nó e três folhas (Figura 7.c) ou com um nó

e quatro folhas (Figura 7.a). Essas duas árvores geradas não são úteis para obtenção de infor-

mações, pois não têm ramificações. Em uma análise mais detalhada dos subconjuntos da pri-

meira, terceira, quarta e quinta semanas não foi possivel identificar o motivo do comportamento

do algoritmo.

A análise da árvore gerada pela amostra da segunda semana (Figura 7.b) apresentou uma

árvore muito parecida com a árvore obtida na amostra da quinta semana do conjunto Berlin

(Figura 6.c), sendo a ramificação a partir do nó dcerpcbind_uuid até as folhas NetPathCompare

e NetShareEnumAll muito parecida, variando apenas que na árvore da amostra do conjunto Ber-

lin teve a mais o atributo connection_transport e a folha do lado esquerdo foi modificada a

chamada do serviço RPC.

Cada uma das árvores de decisão geradas para cada um dos cinco subconjuntos de dados

foi avaliada com uma validação cruzada do tipo k-pastas, com k = 10. Após a avaliação, foi

calculada a acurácia percentual para cada subconjunto, a taxa de falsos positivos e falsos nega-

tivos. Os valores apresentados na Tabela 21 correspondem ao resultado de cada avaliação em

k-pastas do modelo gerado por cada subconjunto. A média das k-pastas do teste pode ser obser-

vada na Tabela 22.

Os resultados de cada subconjunto apresentaram valores médios de acurácia superiores

a 69%, FPR médio em torno de 9,95% e FNR médio em torno de 19,01%. O classificador teve

um desempenho ruim devido a quantidade de objetos registrados nas classes NetPathCanoni-

calize, NetCompare e, assim como ocorreu com as amostras do conjunto Paris, a análise das

matrizes de confusão geradas pelos subconjuntos amostrados revelou que o modelo tem dificul-

dade em separar as classes NetPathCanonicalize, NetCompare. Ao se analisar o objeto marcado

nessas duas classes verifica-se, assim como nos subconjuntos da base Paris e Berlin, que eles

Page 72: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

57

têm os mesmos valores definidos em classes diferentes, o que torna impossível para o modelo

separar adequadamente essas classes.

(a)

(b)

(c, d, e)

Figura 7: Árvores obtidas utilizando os subconjuntos de Jacareí

Page 73: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

58

Tabela 20: Matrizes de Confusão dos subconjuntos da base de dados Jacareí. (a) Primeira semana, (b) Segunda semana, (c) Terceira semana, (d) Quarta semana, (e) Quinta

semana. VAZIO NetPathCompare NetPathCanonicalize NetShareEnum DsRolerUpgradeDownlevelServer

VAZIO 3669 0 0 0 1

NetPathCompare 0 5146 5150 0 0

NetPathCanonicalize 0 5150 5146 0 0

NetShareEnum 0 0 0 10296 0

DsRolerUpgradeDownlevelServer 0 0 0 0 0

(a)

VAZIO

NetPathCom-

pare

NetPathCanonica-

lize

NetShareE-

num

DsRolerUpgradeDownlevelSer-

ver

VAZIO 4887 0 0 0 0

NetPathCompare 0 10820 10822 0 0

NetPathCanonicalize 0 4638 4636 0 0

NetShareEnum 0 0 0 15458 0

DsRolerUpgradeDownlevelServer 0 0 0 0 4

(b)

VAZIO NetPathCompare NetPathCanonicalize NetShareEnum

VAZIO 5001 0 0 0

NetPathCompare 0 12934 12936 0

NetPathCanonicalize 0 3234 3232 0

NetShareEnum 0 0 0 16168

(c)

VAZIO NetPathCompare NetPathCanonicalize NetShareEnum

VAZIO 4645 0 0 0

NetPathCompare 0 13905 13906 0

NetPathCanonicalize 0 1546 1545 0

NetShareEnum 0 0 0 15451

(d)

VAZIO NetPathCompare NetPathCanonicalize NetShareEnum

VAZIO 136 0 0 0

NetPathCompare 0 258 262 0

NetPathCanonicalize 0 176 172 0

NetShareEnum 0 0 0 434

Page 74: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

59

(e)

Tabela 21: Tabela Resumo do Desempenho das Arvores do Conjunto Jacareí

(a) (b) (c) (d) (e)

Acurácia 70,19% 69,84% 69,78% 69,70% 69,54%

FNR 40,01% 20,00% 10,00% 5,00% 20,05%

FPR 8,49% 8,64% 10,83% 10,87% 10,91%

Tabela 22: Média do desempenho das árvores do conjunto Jacareí

Media Mediana Desvio Padrão Coeficiente de Variação

Acurácia 69,8100 69,7800 0,2404 0,0034

FNR 19,01% 20,00% 13,42% 70,59%

FPR 9,95% 10,83% 1,26% 12,70%

Page 75: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

60

3.3.4 Campinas

Ao submeter os 13 subconjuntos amostrados da base de dados Campinas notou-se que foram

criados três diferentes modelos de árvores, apresentados na Figura 8. A Figura 8.a apresenta a

árvore gerada pelo conjunto amostral das semanas 1, 2, 3, 4, 6, 8, 9, 11. A Figura 8.b apresenta

a árvore gerada pelas amostras das semanas 5, 7 e, por fim, a Figura 8.c apresenta a árvore

gerada pelos conjuntos das semanas 12 e 13.

Ao analisar as árvores geradas pelas amostras das semanas 1, 2, 3, 4, 6, 8, 9 e 11 verifica-

se que a árvore gerada tem nove folhas a partir do nó dcerpcbind_uuid e um nó connection_pro-

tocol. Como visto anteriormente, o conjunto de dados Campinas tem a maior quantidade de

interfaces DCERPC coletadas (92 interfaces), cada uma das 9 interfaces representadas na árvore

da Figura 8.a leva a uma chamada de serviço DCERPC diferente, mas o algoritmo não foi capaz

de identificar outros ramos para essas folhas. O ramo que desce na árvore informa o adminis-

trador que a interface DCERPC 4b324fc8-1670-01d3-1278-5a47bf6ee188 é utilizada por duas

sintaxes de transferência diferentes visando explorar a mesma vulnerabilidade (MS08-67 e uma

não identificada pelo honeypot). Nos conjuntos de dados anteriores somente uma sintaxe de

transferência era utilizada. Nesse caso fica explícita a variante do ataque, onde o atacante busca

explorar a mesma vulnerabilidade através de outras chamadas.

O mesmo comportamento pode ser observado nas árvores da Figura 8.b e c. Esse suporta

a hipótese levantada anteriormente de que os atacantes buscam novos vetores de ataques para

explorar novas vulnerabilidades. Essa característica se repete nas folhas dos nó

dcerpcbind_uuid, onde diferentes interfaces DCERPC utilizam outras chamadas ao serviço

RPC. Diferentemente dos conjuntos Paris, Berlin e Jacareí, que foram coletados na mesma

época, aqui se observa claramente que os atacantes estão explorando novos vetores de ataques

nos quais o honeypot não está preparado para tratar.

Outra característica identificada é que assim como os conjuntos Paris, Berlin e Jacareí

as árvores geradas aqui tiveram ramificações muito parecidas com as geradas nos outros con-

juntos (Figura 5.b, Figura 6.c). As ramificações geradas pelas árvores das amostras da base de

dados Campinas têm exatamente a mesma ramificação, mudando apenas o valor do nó

dcerpcbind_transfersyntax (Figura 8.a,b e c).

Cada uma das árvores de decisão geradas para cada um dos treze subconjuntos de dados

foi avaliada com uma validação cruzada do tipo k-pastas, com k = 10. Após a avaliação, foi

Page 76: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

61

calculada a acurácia percentual para cada subconjunto, a taxa de falsos positivos e falsos nega-

tivos. Os valores apresentados na Tabela 24 correspondem ao resultado de cada avaliação em

k-pastas do modelo gerado por cada subconjunto. A média das k-pastas do teste pode ser obser-

vada na Tabela 25.

Os resultados de cada subconjunto apresentaram valores médios de acurácia superiores

a 60%, FPR médio em torno de 1,32% e FNR médio em torno de 67,05%. O classificador teve

um desempenho ruim devido à quantidade de objetos registrados em diversas classes. Assim

como ocorreu com as amostras do conjunto Paris, a análise das matrizes de confusão geradas

pelos subconjuntos amostrados revelou que o modelo tem dificuldade em separar as classes

devido a essas terem o mesmo valor dos atributos, mas pertencendo a classes diferentes.

Um erro identificado é que o conjunto amostral referente à décima semana retornava um

erro do algoritmo. Ao analisar a amostra verificou-se que o atributo alvo continha apenas uma

classe (VAZIO) e que os atributos dcerpcbind_uuid, dcerpbind_transfersyntax, dcerpcser-

voce_name, dcerpcserviceop_name e dcerpcserviceop_vuln contêm uma única classe (VAZIO).

Durante a análise verificou-se que os ataques referentes a essa semana são 100% direcionados

ao protocolo de comunicação XMPPCLIENT, o qual o honeypot não estava configurado para

tratar, apenas registrando o ataque como uma tentativa de conexão.

Page 77: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

62

Tabela 23: Matrizes de confusão das árvores geradas pelos subconjuntos do conjunto de dados Campinas. (a) Primeira semana, (b) Segunda semana, (c) Terceira semana, (d) Quarta semana,

(e) Quinta semana, (f) Sexta semana, (g) Sétima semana, (h) Oitava semana, (i) Nona semana, (k) Décima primeira semana, (l) Décima segunda semana, (m) Decima terceira semana.

VA

ZIO

NetS

hareA

dd

NetS

hare

En

um

NetrS

hareG

etInfo

NetrR

emo

teT

OD

NetP

athC

ano

nicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

Serv

erAliv

e2

Clo

se

Lo

ok

up

Do

main

En

um

Do

main

s

Op

enD

om

ain

En

um

Do

main

Users

En

um

erateA

liasesInD

om

ain

Qu

eryD

isplay

Info

rmatio

n

Qu

eryIn

form

ation

Do

main

2

Co

nn

ect4

Co

nn

ect5

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

PN

P_

Qu

ery

ResC

on

fList

Rem

oteC

reateInstan

ce

DsR

olerU

pg

radeD

ow

nlev

elSer-

ver

Op

enP

olicy

Lo

ok

up

Sid

s2

Lo

ok

up

Nam

es2

NetrJo

bE

nu

m

inq

_if_

ids

inq

_stats

is_serv

er_listen

ing

stop

_serv

er_listen

ing

inq

_p

rinc_

nam

e

VAZIO 527959 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareAdd 0 4427 4430 4436 4453 0 0 4453 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 5014 4955 5030 5032 0 0 5038 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrShareGetInfo 0 9339 9355 9286 9356 0 0 9346 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrRemoteTOD 0 9350 9368 9365 9274 0 0 9322 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanonicalize 0 0 0 0 0 27363 27464 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCompare 0 0 0 0 0 18559 18458 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCanonicalize 0 17792 17814 17805 17807 0 0 17763 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

ServerAlive2 0 0 0 0 0 0 0 0 7361 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 0 0 0 0 0 0 0 0 685 649 640 652 667 633 662 680 651 633 0 0 0 0 0 0 100 101 101 0 0 0 0 0 0

LookupDomain 0 0 0 0 0 0 0 0 0 648 614 639 672 635 660 677 653 640 635 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomains 0 0 0 0 0 0 0 0 0 241 243 234 281 269 267 259 265 269 277 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenDomain 0 0 0 0 0 0 0 0 0 1048 1041 1052 968 1032 1029 1043 1030 1048 1026 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomainUsers 0 0 0 0 0 0 0 0 0 1554 1576 1535 1591 1439 1590 1569 1520 1533 1553 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumerateAliasesInDomain 0 0 0 0 0 0 0 0 0 285 252 289 250 290 244 270 273 270 260 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryDisplayInformation 0 0 0 0 0 0 0 0 0 1282 1329 1308 1270 1369 1286 1228 1307 1298 1299 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryInformationDomain2 0 0 0 0 0 0 0 0 0 416 372 390 382 380 385 376 365 392 405 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 0 0 0 0 0 0 0 0 397 395 384 405 390 377 387 378 370 383 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

CloseServiceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1232 1291 1278 0 0 0 0 0 0 0 0 0 0 0 0

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1569 1499 1571 0 0 0 0 0 0 0 0 0 0 0 0

OpenSCManagerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1483 1494 1435 0 0 0 0 0 0 0 0 0 0 0 0

PNP_QueryResConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 592 0 0 0 0 0 0 0 0 0 0 0

RemoteCreateInstance 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 634 0 0 0 0 0 0 0 0 0 0

DsRolerUpgradeDownlevelSer-

ver 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 27791 0 0 0 0 0 0 0 0 0

OpenPolicy 0 0 0 0 0 0 0 0 0 70 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 60 61 60 0 0 0 0 0 0

LookupSids2 0 0 0 0 0 0 0 0 0 47 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 42 40 41 0 0 0 0 0 0

LookupNames2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3260 0 0 0 0 0

inq_if_ids 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 811 820 816 815 816

inq_stats 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1088 1078 1086 1088 1087

is_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 274 274 270 274 272

stop_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 542 543 541 537 542

inq_princ_name 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 3 5 4 1

(a)

Page 78: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

63

VA

ZIO

Rem

oteC

reateInstan

ce

DsR

olerU

pg

radeD

ow

nle-

velS

erver

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

Clo

se

Loo

kup

Do

main

Enu

mD

om

ains

Op

enD

om

ain

Enu

mD

om

ainU

sers

Enu

merateA

liasesInD

o-

main

Qu

eryD

isplay

Info

rmatio

n

Qu

eryIn

form

ation

Do

-

main

2

Conn

ect4

Conn

ect5

Op

enP

olicy

Loo

kup

Sid

s2

Loo

kup

Nam

es2

NetrJo

bE

nu

m

PN

P_

Qu

eryR

esCon

fList

Serv

erAliv

e2

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

inq

_if_

ids

inq

_stats

is_serv

er_listen

ing

stop_

server_

listenin

g

inq

_p

rinc_

nam

e

VAZIO 607351 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

RemoteCrea-

teInstance 0 820 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

DsRolerUpgra-

deDownlevel-

Server

0 0 35427 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareAdd 0 0 0 12923 12992 12977 12961 0 0 12995 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 0 0 12921 12867 12919 12917 0 0 12909 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrShareGe-tInfo

0 0 0 4436 4434 4414 4429 0 0 4441 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrRemote-

TOD 0 0 0 4358 4354 4365 4323 0 0 4375 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanoni-

calize 0 0 0 0 0 0 0 21784 21881 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCom-pare

0 0 0 0 0 0 0 21724 21627 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCano-

nicalize 0 0 0 8870 8861 8833 8878 0 0 8788 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 0 0 0 0 0 0 0 0 0 836 818 821 808 809 820 821 809 811 837 70 70 71 0 0 0 0 0 0 0 0 0 0 0

LookupDomain 0 0 0 0 0 0 0 0 0 0 22 16 28 24 19 23 23 20 19 25 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomains 0 0 0 0 0 0 0 0 0 0 1208 1193 1130 1220 1193 1196 1200 1195 1201 1249 0 0 0 0 0 0 0 0 0 0 0 0 0 0 OpenDomain 0 0 0 0 0 0 0 0 0 0 1393 1437 1415 1343 1396 1425 1454 1426 1398 1415 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomainU-

sers 0 0 0 0 0 0 0 0 0 0 1916 1938 1929 1895 1860 1946 1897 1952 1927 2004 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumerateAlia-

sesInDomain 0 0 0 0 0 0 0 0 0 0 28 18 19 27 24 16 24 24 30 26 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryDispla-yInformation

0 0 0 0 0 0 0 0 0 0 1415 1421 1417 1442 1434 1393 1356 1441 1441 1396 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryInformati-

onDomain2 0 0 0 0 0 0 0 0 0 0 2796 2723 2746 2794 2763 2758 2796 2653 2786 2726 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 0 0 0 0 0 0 0 0 0 1559 1576 1606 1574 1580 1589 1563 1603 1523 1572 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect5 0 0 0 0 0 0 0 0 0 0 2746 2730 2759 2743 2792 2704 2736 2747 2734 2620 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenPolicy 0 0 0 0 0 0 0 0 0 0 63 0 0 0 0 0 0 0 0 0 53 54 54 0 0 0 0 0 0 0 0 0 0 0 LookupSids2 0 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 18 17 18 0 0 0 0 0 0 0 0 0 0 0

LookupNames2 0 0 0 0 0 0 0 0 0 0 45 0 0 0 0 0 0 0 0 0 36 36 34 0 0 0 0 0 0 0 0 0 0 0

NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1905 0 0 0 0 0 0 0 0 0 0 PNP_QueryRes-

ConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 482 0 0 0 0 0 0 0 0 0

ServerAlive2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2366 0 0 0 0 0 0 0 0 CloseServi-

ceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 546 602 615 0 0 0 0 0

Page 79: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

64

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 509 455 507 0 0 0 0 0 OpenSCMana-

gerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 764 762 697 0 0 0 0 0

inq_if_ids 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 766 772 774 776 779 inq_stats 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 767 760 774 766 768

is_server_listen-

ing 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1532 1534 1515 1529 1525

stop_server_lis-

tening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 388 385 391 378 391

inq_princ_name 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 387 389 386 391 377

(b)

Page 80: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

65

VA

ZIO

DsR

olerU

pg

rade-

Do

wnlev

elServ

er

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

Serv

erAliv

e2

PN

P_

Qu

eryR

esCon

-

fList

Rem

oteC

reateInstan

ce

Clo

se

Op

enP

olicy

Loo

kup

Sid

s2

Loo

kup

Nam

es2

NetrJo

bE

nu

m

Loo

kup

Do

main

Enu

mD

om

ains

Op

enD

om

ain

Enu

mD

om

ainU

sers

Enu

merateA

liasesIn-

Do

main

Qu

eryD

isplay

Info

rma-

tion

Qu

eryIn

form

ation

Do

-

main

2

Conn

ect4

Conn

ect5

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

inq

_if_

ids

inq

_stats

is_serv

er_listen

ing

stop_

server_

listenin

g

inq

_p

rinc_

nam

e

VAZIO 307217 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

DsRolerUpgra-deDownlevel-

Server

0 20245 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareAdd 0 0 5257 5302 5313 5307 0 0 5290 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetShareEnum 0 0 3503 3475 3491 3514 0 0 3510 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrShareGe-

tInfo 0 0 3517 3503 3480 3483 0 0 3498 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrRemote-

TOD 0 0 3577 3566 3557 3538 0 0 3576 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanoni-calize

0 0 0 0 0 0 10485 10555 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCom-

pare 0 0 0 0 0 0 7163 7093 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCano-

nicalize 0 0 1794 1802 1807 1806 0 0 1774 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

ServerAlive2 0 0 0 0 0 0 0 0 0 166 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PNP_QueryRes-

ConfList 0 0 0 0 0 0 0 0 0 0 423 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

RemoteCrea-teInstance

0 0 0 0 0 0 0 0 0 0 0 212 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 0 0 0 0 0 0 0 0 0 0 0 2103 46 46 47 0 2167 2209 2236 2180 2160 2118 2193 2185 2175 0 0 0 0 0 0 0 0

OpenPolicy 0 0 0 0 0 0 0 0 0 0 0 0 33 27 27 28 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 LookupSids2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

LookupNames2 0 0 0 0 0 0 0 0 0 0 0 0 24 20 20 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1464 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 LookupDomain 0 0 0 0 0 0 0 0 0 0 0 0 588 0 0 0 0 571 619 576 581 638 599 602 588 575 0 0 0 0 0 0 0 0

EnumDomains 0 0 0 0 0 0 0 0 0 0 0 0 1206 0 0 0 0 1216 1146 1203 1210 1176 1213 1209 1229 1190 0 0 0 0 0 0 0 0

OpenDomain 0 0 0 0 0 0 0 0 0 0 0 0 2241 0 0 0 0 2184 2159 2070 2146 2187 2192 2168 2186 2191 0 0 0 0 0 0 0 0 EnumDomainU-

sers 0 0 0 0 0 0 0 0 0 0 0 0 1910 0 0 0 0 1894 1938 1924 1849 1922 1920 1925 1950 1920 0 0 0 0 0 0 0 0

EnumerateAlia-sesInDomain

0 0 0 0 0 0 0 0 0 0 0 0 2461 0 0 0 0 2531 2447 2438 2473 2357 2502 2507 2522 2518 0 0 0 0 0 0 0 0

QueryDispla-

yInformation 0 0 0 0 0 0 0 0 0 0 0 0 957 0 0 0 0 948 944 972 958 982 936 952 952 944 0 0 0 0 0 0 0 0

QueryInformati-

onDomain2 0 0 0 0 0 0 0 0 0 0 0 0 1582 0 0 0 0 1550 1593 1624 1608 1592 1543 1495 1516 1571 0 0 0 0 0 0 0 0

Connect4 0 0 0 0 0 0 0 0 0 0 0 0 1584 0 0 0 0 1543 1547 1527 1584 1554 1556 1516 1455 1531 0 0 0 0 0 0 0 0 Connect5 0 0 0 0 0 0 0 0 0 0 0 0 951 0 0 0 0 943 945 977 958 979 968 980 964 932 0 0 0 0 0 0 0 0

CloseServi-

ceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 472 512 495 0 0 0 0 0

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 379 340 376 0 0 0 0 0

Page 81: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

66

OpenSCMana-gerA

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 364 363 344 0 0 0 0 0

inq_if_ids 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 441 444 442 444 444

inq_stats 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 444 441 444 442 444 is_server_listen-

ing 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 148 148 147 148 148

stop_server_lis-tening

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 148 148 148 147 147

inq_princ_name 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 296 296 296 296 294

(c)

Page 82: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

67

VA

ZIO

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emo

teTO

D

NetP

athC

ano

nicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

Clo

se

Lo

ok

up

Do

main

En

um

Do

main

s

Op

enD

om

ain

En

um

Do

main

Users

En

um

erateAliasesIn

Do

main

Qu

eryD

isplay

Info

rmatio

n

Qu

eryIn

form

ation

Do

main

2

Connect4

Connect5

DsR

olerU

pg

radeD

ow

nlev

elServ

er

PN

P_Q

uery

ResC

onfL

ist

Rem

oteC

reateInstan

ce

NetrJo

bE

nu

m

Op

enP

olicy

Lo

ok

up

Sid

s2

Lo

ok

up

Nam

es2

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

inq_if_

ids

inq_stats

is_serv

er_listen

ing

stop_serv

er_listen

ing

inq_prin

c_nam

e

Serv

erAliv

e2

NetA

dd

Altern

ateCo

mp

uterN

ame

VAZIO 1093040 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareAdd 0 13055 13144 13157 13169 0 0 13132 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 6710 6636 6687 6713 0 0 6695 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrShareGetInfo 0 12864 12856 12769 12864 0 0 12854 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrRemoteTOD 0 13104 13100 13114 12996 0 0 13099 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanonicalize 0 0 0 0 0 26140 26362 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCompare 0 0 0 0 0 38005 37783 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCanonicalize 0 18412 18409 18418 18403 0 0 18365 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 0 0 0 0 0 0 0 32604 32509 32509 32508 32508 32509 32509 32509 32509 32508 0 0 0 0 146 147 148 0 0 0 0 0 0 0 0 0 0

LookupDomain 0 0 0 0 0 0 0 0 16278 16254 16254 16255 16255 16254 16254 16254 16254 16255 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomains 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenDomain 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomainUsers 0 0 0 0 0 0 0 0 5420 5418 5418 5418 5418 5418 5418 5418 5418 5418 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumerateAliasesInDomain 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryDisplayInformation 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryInformationDomain2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 62921 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

PNP_QueryResConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 814 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

RemoteCreateInstance 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 834 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5951 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenPolicy 0 0 0 0 0 0 0 0 85 0 0 0 0 0 0 0 0 0 0 0 0 0 74 74 74 0 0 0 0 0 0 0 0 0 0

LookupSids2 0 0 0 0 0 0 0 0 37 0 0 0 0 0 0 0 0 0 0 0 0 0 37 36 37 0 0 0 0 0 0 0 0 0 0

LookupNames2 0 0 0 0 0 0 0 0 125 0 0 0 0 0 0 0 0 0 0 0 0 0 111 111 109 0 0 0 0 0 0 0 0 0 0

CloseServiceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1497 1576 1553 0 0 0 0 0 0 0

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1845 1765 1856 0 0 0 0 0 0 0

OpenSCManagerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1222 1223 1155 0 0 0 0 0 0 0

inq_if_ids 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 671 676 675 678 679 0 0

inq_stats 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 675 669 673 674 674 0 0

is_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 338 340 336 338 337 0 0

stop_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1012 1010 1011 1005 1010 0 0

inq_princ_name 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 674 675 675 675 670 0 0

ServerAlive2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1312 0

NetAddAlternateComputerName 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4

(d)

Page 83: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

68

VA

ZIO

Clo

se

LookupD

om

ain

Enum

Dom

ains

Open

Dom

ain

Enum

Dom

ainU

sers

Enum

erateAliasesIn

Dom

ain

Query

Disp

layIn

form

ation

Query

Info

rmatio

nD

om

ain2

Connect4

Connect5

NetS

hareA

dd

NetS

hareE

num

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonicalize

NetP

athC

om

pare

NetN

ameC

anonicaliz

e

DsR

olerU

pgrad

eDow

nlev

elServ

er

Rem

oteC

reateInstan

ce

inq_if_

ids

inq_stats

is_serv

er_listen

ing

stop_serv

er_listen

ing

inq_prin

c_nam

e

PN

P_Q

uery

ResC

onfL

ist

Open

Policy

LookupS

ids2

LookupN

ames2

NetrJo

bE

num

Serv

erAliv

e2

Clo

seServ

iceHan

dle

CreateS

erviceA

Open

SC

Man

agerA

Enum

Prin

ters

StartD

ocP

rinter

WriteP

rinter

EndD

ocP

rinter

Clo

sePrin

ter

Open

Prin

ter

VAZIO

92502

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 14981 14910 14900 14955 14923 14928 14933 14953 14887 15007 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 125 126 126 0 0 0 0 0 0 0 0 0 0 0

LookupDomain 0 11715 11547 11655 11605 11686 11677 11590 11696 11663 11755 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomains 0 36 26 23 41 31 39 39 37 35 33 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenDomain 0 32 32 29 20 35 33 33 20 37 34 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomainUsers 0 6578 6663 6583 6652 6551 6593 6625 6618 6598 6572 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumerateAliasesInDomain 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryDisplayInformation 0 2399 2427 2455 2433 2428 2429 2353 2443 2407 2505 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryInformationDomain2 0 2446 2500 2479 2467 2480 2448 2505 2392 2467 2408 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 37 40 35 37 32 37 37 36 27 28 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect5 0 3463 3432 3418 3367 3411 3393 3462 3382 3456 3235 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareAdd 0 0 0 0 0 0 0 0 0 0 0 13062 13175 13250 13204 0 0 13210 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 0 0 0 0 0 0 0 0 0 0 12782 12718 12833 12852 0 0 12823 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrShareGetInfo 0 0 0 0 0 0 0 0 0 0 0 19447 19408 19237 19362 0 0 19350 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrRemoteTOD 0 0 0 0 0 0 0 0 0 0 0 13593 13579 13590 13473 0 0 13589 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanonicalize 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 32864 33197 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCompare 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 33029 32696 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCanonicalize 0 0 0 0 0 0 0 0 0 0 0 7009 7013 6983 7002 0 0 6921 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 40625 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

RemoteCreateInstance 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 527 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

inq_if_ids 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1728 1730 1729 1729 1729 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

inq_stats 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1731 1728 1730 1729 1729 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

is_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 432 433 432 433 432 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

stop_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 432 432 432 432 433 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

inq_princ_name 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

PNP_QueryResConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 525 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenPolicy 0 52 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 42 42 42 0 0 0 0 0 0 0 0 0 0 0

LookupSids2 0 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 21 20 21 0 0 0 0 0 0 0 0 0 0 0

LookupNames2 0 26 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 21 21 20 0 0 0 0 0 0 0 0 0 0 0

NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2956 0 0 0 0 0 0 0 0 0 0

ServerAlive2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2199 0 0 0 0 0 0 0 0 0

CloseServiceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2420 2492 2466 0 0 0 0 0 0

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3627 3524 3644 0 0 0 0 0 0

OpenSCManagerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1524 1555 1461 0 0 0 0 0 0

EnumPrinters 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1

StartDocPrinter 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

WritePrinter 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EndDocPrinter 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

ClosePrinter 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenPrinter 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

(e)

Page 84: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

69

VA

ZIO

Clo

se

Loo

kup

Do

main

Enu

mD

om

ains

Op

enD

om

ain

Enu

mD

om

ainU

sers

Enu

merateA

liasesInD

om

ain

Qu

eryD

isplay

Info

rmatio

n

Qu

eryIn

form

ation

Dom

ain2

Conn

ect4

Conn

ect5

Clo

seServ

iceHan

dle

CreateS

ervice

A

Op

enS

CM

anag

erA

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

PN

P_

Qu

eryR

esCon

fList

Rem

oteC

reateInstan

ce

DsR

olerU

pg

radeD

ow

nlev

el-

Serv

er

Op

enP

olicy

Loo

kup

Sid

s2

Loo

kup

Nam

es2

NetrJo

bE

nu

m

inq

_if_

ids

inq

_stats

is_serv

er_listen

ing

stop_

server_

listenin

g

inq

_p

rinc_

nam

e

Serv

erAliv

e2

VAZIO 618547 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 13832 13671 13672 13672 13672 13673 13673 13671 13671 13674 0 0 0 0 0 0 0 0 0 0 0 0 0 205 204 204 0 0 0 0 0 0 0

LookupDomain 0 9119 9114 9115 9114 9114 9115 9115 9114 9115 9115 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 EnumDomains 0 4563 4558 4557 4558 4558 4557 4557 4558 4558 4557 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenDomain 0 4557 4558 4558 4557 4557 4557 4557 4558 4558 4557 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomainU-sers 0 4558 4558 4558 4557 4557 4557 4557 4558 4558 4557 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumerateAlia-

sesInDomain 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 QueryDispla-

yInformation 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryInformati-onDomain2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 4564 4558 4557 4558 4558 4557 4557 4558 4557 4557 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Connect5 0 4563 4557 4557 4558 4558 4558 4558 4557 4557 4557 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

CloseServi-

ceHandle 0 0 0 0 0 0 0 0 0 0 0 4542 4679 4679 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 2998 2891 2964 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenSCMana-

gerA 0 0 0 0 0 0 0 0 0 0 0 4219 4189 4116 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetShareAdd 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3162 3203 3216 3230 0 0 3200 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8996 8953 9049 9008 0 0 9030 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrShareGe-tInfo 0 0 0 0 0 0 0 0 0 0 0 0 0 0 9190 9195 9095 9139 0 0 9157 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrRemote-

TOD 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5982 5959 5946 5929 0 0 5965 0 0 0 0 0 0 0 0 0 0 0 0 0 NetPathCanoni-

calize 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15365 15486 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCom-pare 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15166 15045 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCano-

nicalize 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3201 3221 3225 3225 0 0 3179 0 0 0 0 0 0 0 0 0 0 0 0 0 PNP_QueryRes-

ConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 623 0 0 0 0 0 0 0 0 0 0 0 0

RemoteCrea-teInstance 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 901 0 0 0 0 0 0 0 0 0 0 0

DsRolerUpgra-

deDownlevel-Server 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 47070 0 0 0 0 0 0 0 0 0 0

Page 85: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

70

OpenPolicy 0 72 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 58 59 59 0 0 0 0 0 0 0 LookupSids2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

LookupNames2 0 38 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 29 29 29 0 0 0 0 0 0 0

NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4373 0 0 0 0 0 0 inq_if_ids 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 184 190 190 189 190 0

inq_stats 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 757 740 752 764 764 0

is_server_listen-ing 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 193 189 185 193 188 0

stop_server_lis-

tening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 385 390 388 370 386 0 inq_princ_name 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 381 391 385 384 372 0

ServerAlive2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 473

(f)

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonica-

lize

NetP

athC

om

pare

NetN

ameC

ano

nica-

lize

VA

ZIO

Clo

se

Loo

kup

Do

main

Enu

mD

om

ains

Op

enD

om

ain

Enu

mD

om

ainU

sers

Enu

merateA

liase-

sInD

om

ain

Qu

eryD

isplay

Info

r-

matio

n

Qu

eryIn

form

ation

-

Do

main

2

Conn

ect4

Conn

ect5

DsR

olerU

pg

rade-

Do

wnlev

elServ

er

Rem

oteC

reateIns-

tance

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

Serv

erAliv

e2

PN

P_

Qu

eryR

esCon

-

fList

Op

enP

olicy

Loo

kup

Sid

s2

Loo

kup

Nam

es2

NetrJo

bE

nu

m

inq

_if_

ids

inq

_stats

is_serv

er_listen

ing

stop_

server_

listen-

ing

inq

_p

rinc_

nam

e

NetShareAdd 9898 10026 10008 10014 0 0 10097 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 2192 2113 2160 2163 0 0 2151 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrShareGe-tInfo

220 220 192 242 0 0 227 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrRemote-

TOD 2048 2036 2038 1987 0 0 2018 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanoni-

calize 0 0 0 0 8245 8374 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCom-pare

0 0 0 0 12244 12115 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCano-

nicalize 6131 6094 6091 6083 0 0 5996 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

VAZIO 0 0 0 0 0 0 0 483843 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 0 0 0 0 0 0 0 3123 3097 3145 3119 3154 3075 3108 3058 3052 3114 0 0 0 0 0 0 0 113 114 114 0 0 0 0 0 0

LookupDomain 0 0 0 0 0 0 0 0 1524 1515 1533 1541 1550 1540 1589 1546 1556 1534 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 EnumDomains 0 0 0 0 0 0 0 0 1559 1584 1523 1566 1533 1569 1577 1567 1562 1535 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenDomain 0 0 0 0 0 0 0 0 1545 1563 1546 1533 1571 1549 1559 1548 1580 1550 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomainU-sers

0 0 0 0 0 0 0 0 2479 2392 2370 2428 2331 2466 2410 2503 2410 2408 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumerateAlia-

sesInDomain 0 0 0 0 0 0 0 0 2445 2391 2422 2420 2475 2322 2522 2432 2372 2404 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryDispla-

yInformation 0 0 0 0 0 0 0 0 8232 8258 8200 8144 8140 8298 7925 8210 8270 8273 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryInformati-

onDomain2 0 0 0 0 0 0 0 0 1747 1748 1776 1768 1805 1723 1833 1691 1769 1766 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 0 0 0 0 0 0 0 891 874 888 898 864 886 878 884 855 885 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect5 0 0 0 0 0 0 0 0 857 877 896 882 876 871 898 860 873 830 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Page 86: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

71

DsRolerUpgra-deDownlevel-

Server

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 47091 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

RemoteCrea-teInstance

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 738 0 0 0 0 0 0 0 0 0 0 0 0 0 0

CloseServi-

ceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1379 1516 1462 0 0 0 0 0 0 0 0 0 0 0

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1726 1587 1705 0 0 0 0 0 0 0 0 0 0 0

OpenSCMana-

gerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1047 1049 985 0 0 0 0 0 0 0 0 0 0 0

ServerAlive2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7524 0 0 0 0 0 0 0 0 0 0

PNP_QueryRes-

ConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 541 0 0 0 0 0 0 0 0 0

OpenPolicy 0 0 0 0 0 0 0 0 50 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 45 45 46 0 0 0 0 0 0

LookupSids2 0 0 0 0 0 0 0 0 25 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 23 22 23 0 0 0 0 0 0

LookupNames2 0 0 0 0 0 0 0 0 49 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 46 46 44 0 0 0 0 0 0 NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4700 0 0 0 0 0

inq_if_ids 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 163 168 169 167 170

inq_stats 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 113 108 114 111 111 is_server_listen-

ing 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 223 223 217 221 220

stop_server_lis-tening

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

inq_princ_name 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 56 56 55 56 54

(g)

Page 87: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

72

True

VA

ZIO

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

DsR

olerU

pg

radeD

ow

nle-

velS

erver

Clo

se

Loo

kup

Do

main

Enu

mD

om

ains

Op

enD

om

ain

Enu

mD

om

ainU

sers

Enu

merateA

liasesInD

o-

main

Qu

eryD

isplay

Info

rmatio

n

Qu

eryIn

form

ation

Dom

ain2

Conn

ect4

Conn

ect5

Rem

oteC

reateInstan

ce

PN

P_

Qu

eryR

esCon

fList

Op

enP

olicy

Loo

kup

Sid

s2

Loo

kup

Nam

es2

NetrJo

bE

nu

m

inq

_if_

ids

inq

_stats

is_serv

er_listen

ing

stop_

server_

listenin

g

inq

_p

rinc_

nam

e

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

VAZIO 548665 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareAdd 0 8690 8801 8771 8777 0 0 8766 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 8841 8723 8786 8765 0 0 8797 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetrShareGetInfo 0 5918 5899 5868 5906 0 0 5890 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrRemoteTOD 0 3072 3080 3071 3046 0 0 3109 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanonicalize 0 0 0 0 0 11953 12089 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetPathCompare 0 0 0 0 0 17619 17483 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCanonicalize 0 3051 3069 3076 3078 0 0 3010 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 0 0 0 0 30421 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Close 0 0 0 0 0 0 0 0 0 7165 7186 7119 7177 7145 7100 7097 7130 7127 7130 0 0 103 103 103 0 0 0 0 0 0 0 0 0

LookupDomain 0 0 0 0 0 0 0 0 0 3031 2901 3041 2974 2993 3012 3052 3061 3021 3031 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomains 0 0 0 0 0 0 0 0 0 2991 2996 2891 3089 3023 3056 2918 3033 2988 3020 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenDomain 0 0 0 0 0 0 0 0 0 1163 1163 1194 1088 1130 1127 1199 1142 1150 1134 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomainUsers 0 0 0 0 0 0 0 0 0 1837 1878 1845 1866 1826 1832 1845 1902 1857 1874 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumerateAliasesInDomain 0 0 0 0 0 0 0 0 0 1852 1857 1921 1829 1850 1824 1912 1842 1873 1848 0 0 0 0 0 0 0 0 0 0 0 0 0 0 QueryDisplayInformation 0 0 0 0 0 0 0 0 0 4157 4140 4129 4143 4108 4093 4001 4175 4160 4183 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryInformationDomain2 0 0 0 0 0 0 0 0 0 4906 4915 4868 4897 4924 4957 4909 4753 4872 4865 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Connect5 0 0 0 0 0 0 0 0 0 3005 2983 3011 2956 3020 3018 3086 2981 2971 2934 0 0 0 0 0 0 0 0 0 0 0 0 0 0

RemoteCreateInstance 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 519 0 0 0 0 0 0 0 0 0 0 0 0 0

PNP_QueryResConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 490 0 0 0 0 0 0 0 0 0 0 0 0 OpenPolicy 0 0 0 0 0 0 0 0 0 45 0 0 0 0 0 0 0 0 0 0 0 40 40 42 0 0 0 0 0 0 0 0 0

LookupSids2 0 0 0 0 0 0 0 0 0 22 0 0 0 0 0 0 0 0 0 0 0 21 21 21 0 0 0 0 0 0 0 0 0

LookupNames2 0 0 0 0 0 0 0 0 0 51 0 0 0 0 0 0 0 0 0 0 0 42 42 40 0 0 0 0 0 0 0 0 0 NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4441 0 0 0 0 0 0 0 0

inq_if_ids 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 264 269 271 266 267 0 0 0 inq_stats 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 136 131 133 135 134 0 0 0

is_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 135 135 131 134 135 0 0 0

stop_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 67 67 67 67 67 0 0 0 inq_princ_name 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 67 67 67 67 66 0 0 0

CloseServiceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 629 682 718

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 415 366 423 OpenSCManagerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 882 878 785

(h)

Page 88: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

73

True

VA

ZIO

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

PN

P_

Qu

eryR

esCon

fList

Rem

oteC

reateInstan

ce

DsR

olerU

pg

radeD

ow

nlev

elServ

er

Clo

se

Op

enP

olicy

Loo

kup

Sid

s2

Loo

kup

Nam

es2

Loo

kup

Do

main

Enu

mD

om

ains

Op

enD

om

ain

Enu

mD

om

ainU

sers

Enu

merateA

liasesInD

om

ain

Qu

eryD

isplay

Info

rmatio

n

Qu

eryIn

form

ation

Dom

ain2

Conn

ect4

Conn

ect5

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

NetrJo

bE

nu

m

VAZIO 198983 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetShareAdd 0 1747 1876 1874 1859 0 0 1807 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 980 906 941 950 0 0 967 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrShareGetInfo 0 1570 1572 1505 1590 0 0 1602 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetrRemoteTOD 0 3018 2944 2952 2877 0 0 2996 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanonicalize 0 0 0 0 0 3243 3418 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCompare 0 0 0 0 0 4947 4772 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCanonicalize 0 875 892 918 914 0 0 818 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

PNP_QueryResConfList 0 0 0 0 0 0 0 0 263 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

RemoteCreateInstance 0 0 0 0 0 0 0 0 0 396 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 DsRolerUpgradeDownlevel-

Server 0 0 0 0 0 0 0 0 0 0 16964 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 0 0 0 0 0 0 0 0 0 0 1162 56 55 58 1134 1152 1193 1174 1163 1159 1191 1135 1150 0 0 0 0 OpenPolicy 0 0 0 0 0 0 0 0 0 0 0 20 18 20 18 0 0 0 0 0 0 0 0 0 0 0 0 0

LookupSids2 0 0 0 0 0 0 0 0 0 0 0 14 10 9 9 0 0 0 0 0 0 0 0 0 0 0 0 0

LookupNames2 0 0 0 0 0 0 0 0 0 0 0 11 10 10 9 0 0 0 0 0 0 0 0 0 0 0 0 0 LookupDomain 0 0 0 0 0 0 0 0 0 0 0 2426 0 0 0 2293 2369 2376 2402 2408 2383 2406 2429 2425 0 0 0 0

EnumDomains 0 0 0 0 0 0 0 0 0 0 0 2372 0 0 0 2363 2302 2404 2367 2389 2342 2376 2393 2398 0 0 0 0

OpenDomain 0 0 0 0 0 0 0 0 0 0 0 4668 0 0 0 4668 4673 4491 4617 4582 4652 4586 4655 4707 0 0 0 0 EnumDomainUsers 0 0 0 0 0 0 0 0 0 0 0 2257 0 0 0 2274 2220 2257 2173 2231 2238 2220 2250 2228 0 0 0 0

EnumerateAliasesInDomain 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryDisplayInformation 0 0 0 0 0 0 0 0 0 0 0 36 0 0 0 41 39 35 38 42 26 30 30 28 0 0 0 0 QueryInformationDomain2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 0 0 0 0 0 0 0 0 0 0 1862 0 0 0 1889 1889 1888 1906 1853 1839 1879 1799 1866 0 0 0 0

Connect5 0 0 0 0 0 0 0 0 0 0 0 2800 0 0 0 2872 2890 2890 2857 2866 2895 2846 2843 2732 0 0 0 0 CloseServiceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 806 870 867 0

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 655 611 664 0 OpenSCManagerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 914 894 844 0

NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2205

(i)

Page 89: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

74

VA

ZIO

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

DsR

olerU

pg

radeD

ow

nlev

el-

Serv

er

Clo

se

Loo

kup

Do

main

Enu

mD

om

ains

Op

enD

om

ain

Enu

mD

om

ainU

sers

Enu

merateA

liasesInD

om

ain

Qu

eryD

isplay

Info

rmatio

n

Qu

eryIn

form

ation

Dom

ain2

Conn

ect4

Conn

ect5

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

Rem

oteC

reateInstan

ce

PN

P_

Qu

eryR

esCon

fList

Op

enP

olicy

Loo

kup

Sid

s2

Loo

kup

Nam

es2

NetrJo

bE

nu

m

Serv

erAliv

e2

inq

_if_

ids

inq

_stats

is_serv

er_listen

ing

stop_

server_

listenin

g

inq

_p

rinc_

nam

e

VAZIO 134584 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetShareAdd 0 1000 1036 1058 1050 0 0 1045 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 159 129 131 167 0 0 146 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrShareGetInfo 0 981 973 949 970 0 0 973 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetrRemoteTOD 0 815 834 817 775 0 0 842 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanonicalize 0 0 0 0 0 1844 1931 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCompare 0 0 0 0 0 1871 1784 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetNameCanonicalize 0 760 743 760 753 0 0 709 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 0 0 0 0 10852 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 0 0 0 0 0 0 0 0 537 529 547 532 510 519 499 510 516 528 0 0 0 0 0 58 54 55 0 0 0 0 0 0 0 LookupDomain 0 0 0 0 0 0 0 0 0 558 495 541 560 539 535 557 522 537 531 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomains 0 0 0 0 0 0 0 0 0 2679 2626 2455 2545 2579 2618 2663 2604 2568 2610 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

OpenDomain 0 0 0 0 0 0 0 0 0 2039 2066 2049 1968 2026 2074 2036 2065 2060 2079 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 EnumDomainUsers 0 0 0 0 0 0 0 0 0 530 529 529 540 498 517 505 544 514 504 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumerateAliasesInDomain 0 0 0 0 0 0 0 0 0 1288 1314 1291 1357 1316 1268 1290 1291 1299 1285 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryDisplayInformation 0 0 0 0 0 0 0 0 0 1261 1286 1354 1305 1334 1298 1216 1291 1357 1344 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 QueryInformationDomain2 0 0 0 0 0 0 0 0 0 2020 2024 2093 2045 2095 2077 2077 1988 2073 2100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 0 0 0 0 0 0 0 0 792 759 752 771 763 775 796 773 737 745 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect5 0 0 0 0 0 0 0 0 0 1283 1316 1333 1321 1284 1263 1305 1356 1283 1218 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 CloseServiceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 254 308 283 0 0 0 0 0 0 0 0 0 0 0 0

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 399 328 384 0 0 0 0 0 0 0 0 0 0 0 0

OpenSCManagerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 175 192 161 0 0 0 0 0 0 0 0 0 0 0 0 RemoteCreateInstance 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 221 0 0 0 0 0 0 0 0 0 0 0

PNP_QueryResConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 228 0 0 0 0 0 0 0 0 0 0

OpenPolicy 0 0 0 0 0 0 0 0 0 45 0 0 0 0 0 0 0 0 0 0 0 0 0 0 25 40 42 0 0 0 0 0 0 0 LookupSids2 0 0 0 0 0 0 0 0 0 33 0 0 0 0 0 0 0 0 0 0 0 0 0 0 29 24 27 0 0 0 0 0 0 0

LookupNames2 0 0 0 0 0 0 0 0 0 24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 33 27 21 0 0 0 0 0 0 0

NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1809 0 0 0 0 0 0 ServerAlive2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6549 0 0 0 0 0

inq_if_ids 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 39 42 41 44 43

inq_stats 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 10 11 10 10 is_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 10 9 11 10

stop_server_listening 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 30 31 31 28 31

inq_princ_name 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 10 11 10 9

(k)

Page 90: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

75

VA

ZIO

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

Clo

se

Loo

kup

Do

main

Enu

mD

om

ains

Op

enD

om

ain

Enu

mD

om

ainU

sers

Enu

merateA

liasesInD

om

ain

Qu

eryD

isplay

Info

rmatio

n

Qu

eryIn

form

ation

Dom

ain2

Conn

ect4

Conn

ect5

PN

P_

Qu

eryR

esCon

fList

Rem

oteC

reateInstan

ce

DsR

olerU

pg

radeD

ow

nlev

elSer-

ver

Op

enP

olicy

Loo

kup

Sid

s2

Loo

kup

Nam

es2

NetrJo

bE

nu

m

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

VAZIO 11754 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareAdd 0 84 84 84 84 0 0 84 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 12 12 12 12 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetrShareGetInfo 0 12 12 12 12 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetrRemoteTOD 0 12 12 12 12 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCanonicalize 0 0 0 0 0 120 120 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetPathCompare 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCanonicalize 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Close 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 5 5 5 0 0 0 0 LookupDomain 0 0 0 0 0 0 0 0 58 57 64 64 62 59 64 74 71 65 0 0 0 0 0 0 0 0 0 0

EnumDomains 0 0 0 0 0 0 0 0 174 172 157 184 176 191 177 187 187 194 0 0 0 0 0 0 0 0 0 0

OpenDomain 0 0 0 0 0 0 0 0 186 173 176 155 173 171 181 195 200 185 0 0 0 0 0 0 0 0 0 0 EnumDomainUsers 0 0 0 0 0 0 0 0 123 129 114 124 102 112 127 139 124 118 0 0 0 0 0 0 0 0 0 0

EnumerateAliasesInDomain 0 0 0 0 0 0 0 0 64 66 75 66 67 51 65 63 61 58 0 0 0 0 0 0 0 0 0 0

QueryDisplayInformation 0 0 0 0 0 0 0 0 66 64 67 57 74 74 55 56 68 69 0 0 0 0 0 0 0 0 0 0 QueryInformationDomain2 0 0 0 0 0 0 0 0 313 307 309 309 309 308 310 254 295 302 0 0 0 0 0 0 0 0 0 0

Connect4 0 0 0 0 0 0 0 0 176 190 195 205 200 192 186 197 160 180 0 0 0 0 0 0 0 0 0 0

Connect5 0 0 0 0 0 0 0 0 65 67 68 61 62 67 60 60 59 54 0 0 0 0 0 0 0 0 0 0 PNP_QueryResConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0

RemoteCreateInstance 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 19 0 0 0 0 0 0 0 0

DsRolerUpgradeDownlevelServer 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 19 0 0 0 0 0 0 0 OpenPolicy 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 3 3 3 0 0 0 0

LookupSids2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0

LookupNames2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 517 0 0 0

CloseServiceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 105 133 135

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 105 75 101 OpenSCManagerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 86 88 60

(l)

Page 91: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

76

VA

ZIO

Clo

se

Loo

kup

Do

main

Enu

mD

om

ains

Op

enD

om

ain

Enu

mD

om

ainU

sers

Enu

merateA

liasesInD

om

ain

Qu

eryD

isplay

Info

rmatio

n

Qu

eryIn

form

ation

Dom

ain2

Conn

ect4

Conn

ect5

NetS

hareA

dd

NetS

hareE

nu

m

NetrS

hareG

etInfo

NetrR

emoteT

OD

NetP

athC

anonicalize

NetP

athC

om

pare

NetN

ameC

ano

nicalize

Clo

seServ

iceHan

dle

CreateS

erviceA

Op

enS

CM

anag

erA

DsR

olerU

pg

radeD

ow

nlev

elServ

er

Rem

oteC

reateInstan

ce

PN

P_

Qu

eryR

esCon

fList

Op

enP

olicy

Loo

kup

Sid

s2

Loo

kup

Nam

es2

NetrJo

bE

nu

m

Serv

erAliv

e2

VAZIO 59964 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Close 0 640 705 671 675 698 695 667 676 714 676 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 5 0 0

LookupDomain 0 790 728 802 799 768 791 761 807 782 795 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomains 0 217 238 193 213 213 248 223 235 225 221 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 OpenDomain 0 914 905 879 845 934 939 886 912 884 913 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumDomainUsers 0 562 551 576 599 525 540 582 549 566 536 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

EnumerateAliasesInDomain 0 890 901 910 910 889 826 895 876 899 905 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 QueryDisplayInformation 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

QueryInformationDomain2 0 458 451 438 430 462 431 462 418 459 447 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Connect4 0 901 889 895 904 894 911 897 905 830 897 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Connect5 0 225 229 233 222 214 216 224 219 238 207 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

NetShareAdd 0 0 0 0 0 0 0 0 0 0 0 145 147 147 147 0 0 146 0 0 0 0 0 0 0 0 0 0 0

NetShareEnum 0 0 0 0 0 0 0 0 0 0 0 147 144 147 144 0 0 146 0 0 0 0 0 0 0 0 0 0 0 NetrShareGetInfo 0 0 0 0 0 0 0 0 0 0 0 147 147 144 147 0 0 147 0 0 0 0 0 0 0 0 0 0 0

NetrRemoteTOD 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 NetPathCanonicalize 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 340 343 0 0 0 0 0 0 0 0 0 0 0 0

NetPathCompare 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 147 144 0 0 0 0 0 0 0 0 0 0 0 0

NetNameCanonicalize 0 0 0 0 0 0 0 0 0 0 0 48 49 49 49 0 0 48 0 0 0 0 0 0 0 0 0 0 0 CloseServiceHandle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 185 224 218 0 0 0 0 0 0 0 0

CreateServiceA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 204 170 193 0 0 0 0 0 0 0 0

OpenSCManagerA 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 139 134 117 0 0 0 0 0 0 0 0 DsRolerUpgradeDownlevelServer 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4161 0 0 0 0 0 0 0

RemoteCreateInstance 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 38 0 0 0 0 0 0

PNP_QueryResConfList 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 40 0 0 0 0 0 OpenPolicy 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0

LookupSids2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

LookupNames2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 NetrJobEnum 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 63 0

ServerAlive2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 96

(m)

Page 92: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

77

Tabela 24: Tabela resumo do desempenho das árvores do conjunto Campinas

(a) (b) (c) (d) (e) (f) (g) (h) (i) (j) (k) (l) (m)

Acurácia 68,52% 67,51% 61,67% 61,93% 61.02% 57,08% 64,76% 61,29% 55,33% N/A 55,77% 52,61% 56,65%

FNR 0,6647 0,6628 0,6654 0,6415 0,7164 0,6693 0,6656 0,6859 0,6700 N/A 0,6708 0,6727 0,6618

FPR 0,0104 0,0107 0,0128 0,0126 0,0118 0,0149 0,0106 0,0121 0,0165 N/A 0,0136 0,0177 0,0156

Tabela 25: Média do desempenho das árvores do conjunto Campinas

Media Mediana Desvio Padrão Coeficiente de Variação

Acurácia 60,3450% 61,1550% 4,9864% 0,0826%

FNR 67,0574% 66,7457% 1,7598% 2,6244%

FPR 1,3275% 1,2699% 0,2416% 18,2029%

Page 93: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

78

(a) – Árvore gerada pelos subconjuntos amostrais das semanas 1,2,3,4,5,6,8,9,11 da base de dados Campinas.

Page 94: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

79

(b) – Árvore referente aos subconjuntos amostrais das semanas 5 e 7.

Page 95: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

80

(c) – Árvore referente aos subconjuntos amostrais das semanas 11 e 12.

Figura 8: Árvores obtidas utilizando os subconjuntos de Campinas.

Page 96: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

81

3.4 Extração de Regras de IDS

Existem diversos sistemas de detecção de intrusão no mercado e cada um tem especificidades e

características para a geração de regras de IDS personalizadas. Nesta dissertação é utilizada

como exemplo a geração de regras para o sistema de detecção de intrusão Snort (Roesch, 1999).

A escolha desse sistema é devido ao fato do Snort possuir um módulo capaz de processar infor-

mações DCERPC, que são as principais informações obtidas no conjunto de dados analisados.

Isso não impede que as árvores aqui apresentadas sejam utilizadas para gerar regras para outros

sistemas, como firewalls ou um IPS.

A análise dos quatro conjuntos de dados revelou semelhanças na ramificação das árvores

de decisão da Figura 5.a, Figura 5.b, Figura 5.c, Figura 6.c, Figura 6.b, Figura 8.a, Figura 8.b e

Figura 8.c, mudando, em alguns casos, somente a classe alvo ou a folha da árvore e, em outros

casos, a interface de conexão DCERPC. Tendo sido identificada tal característica optou-se por

utilizar essa ramificação para exemplificar a extração de uma regra exemplo para o sistema de

IDS. Essa árvore exemplo pode ser observada na Figura 9.

Figura 9: Árvore exemplo, obtida por meio das árvores geradas nos quatro conjuntos de da-

dos.

Page 97: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

82

Ao se analisar a árvore modelo obtém-se a seguinte leitura: Vulnerabilidade Explorada

(atributo dcerpcserviceop_vul): MS08-67 e Não_Identificado; Protocolo utilizado: SMBD; In-

terface DCERPC (atributo dcerpcbind_uuid): 4b324fc8-1670-01d3-1278-5a47bf6ee188; Sin-

taxe de transferência (Atributo dcerpcbind_transfersyntax): 8a885d04-1ceb-11c9-9fe8-

08002b104860; Serviço Utilizado (Atributo dcerpcservice_name): SRVSVC. Chamada do ser-

viço utilizado (atributo dcerpcserviceop_name): NetPathCanonicalize e NetShareEnum.

alert tcp $EXTERNAL_NET any -> $HOME_NET [135,139,445,593,1024:] \

(msg:"Ataque da Vunerabilidade MS08-67"; flow:established,to_server; \

dce_iface: 4b324fc8-1670-01d3-1278-5a47bf6ee188; dce_opnum:32,15; dce_stub_data; \

byte_jump:4,-,relative,align,dce;byte_test:4,>,256,4,relative,dce; reference:\

bugtraq,20081026;reference: CVE,2008-4250; classtype:attempted-admin; sid:1000068;)

Regra 1: Um exemplo de regra que pode ser gerada pelo sistema de IDS Snort.

A regra gerada possui as seguintes informações obtidas através da árvore de decisão:

alert tcp: O protocolo SMBD trabalha com o protocolo TCP.

[135,139,445,593,1024:]: São as portas utilizadas pelo protocolo SMBD.

(msg:"Ataque da Vunerabilidade MS08-67"): Mensagem a ser registrada nos logs do IDS

baseada na vulnerabilidade identificada pelo Honeypot.

dce_iface: 4b324fc8-1670-01d3-1278-5a47bf6ee188: Informação obtida através do atributo

dcerpcbind_uuid.

dce_opnum: 32,15: Informação obtida depois de uma pesquisa sobre a interface dcerpc, a sin-

taxe de transferência, o serviço utilizado e a chamada do serviço utilizado. É Necessário pes-

quisar essa informação, pois cada chamada dcerpc tem um conjunto de sintaxe de transferência

e essa sintaxe de transferência tem um conjunto de chamadas e consequentemente de serviços

disponíveis, a cada serviço é dado um numero de operação (opnum) (Microsoft Corporation,

2014).

reference:bugtraq,20081026: Informação para registro nos logs oriunda do registro da vulne-

rabilidade MS08-67 no sistema BugTraq.

reference: CVE,2008-4250: Informação para registro nos logs, oriunda do registro da vulnera-

bilidade MS08-67 no sistema CVE.

Page 98: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

83

Os demais parâmetros utilizados na criação da regra são parâmetros padrões e podem ser

alterados de acordo com a necessidade do administrador de rede baseado na arquitetura de seu

sistema.

No caso do exemplo citado os únicos parâmetros que seriam alterados ao se gerar as regras

para as árvores de decisão das Figuras 4.a, 4.b, 4.c, 5.c, 6.b, 7.a, 7.b e 7.c são os parâmentros

dce_opnum e dce_iface. Essa alteração ocorre devido aos ataques registrados utilizarem outra

interface de conexão DCERPC (atributo dcerpcbind_uuid) ou a modificação da classe alvo pa-

râmetro dce_opnum (atributo dcerpcserviceop_name).

As árvores apresentadas nas Figuras 5.a e 5.b não podem ser utilizadas para extração de

regras para um sistema de IDS, pois os valores nos nós e nos ramos é VAZIO. Já as árvores

apresentadas nas Figuras 6.a e 6.c não podem ser utilizadas devido a serem árvores simples com

apenas um nó e as folhas.

Em contrapartida, as árvores apresentadas na Figura 7.a e 7.b podem gerar mais de uma

regra, pois ao se analisar os caminhos a serem percorridos verifica-se que o atributo

dcerpcbind_transfersyntax se ramifica em dois novos caminhos (Figura 7.a) e em três novos

caminhos (Figura 7.b).

A árvore apresentada na Figura 4.c requer uma modificação no parâmetro das portas utili-

zadas, uma vez que o algoritmo destacou que os ataques que utilizaram o seviço SRVSVC não

utilizaram portas padrões, sendo que as chamadas à função NetShareEnumAll tiveram como

alvo as portas locais com valor inferior a 290. Já as chamadas à função RemoteCreateInstance

tiveram como alvo as portas locais com valor maior ou igual a 290.

A Regra 2 apresenta uma possível regra utilizando as informações obtidas da árvore de

decisão apresentada na Figura 4.c para a ramificação onde as portas são inferiores a 290. Já a

Regra 3 apresenta uma possível regra para a ramificação onde as portas são iguais ou superiores

a 290. Os dados que foram alterados estão em negrito em cada regra.

alert tcp $EXTERNAL_NET any -> $HOME_NET [:290] \

(msg:"Ataque a uma Vunerabilidade Não Identificada"; flow:established,to_server; \

dce_iface: 4b324fc8-1670-01d3-1278-5a47bf6ee188; dce_opnum:15; dce_stub_data; \

byte_jump:4,-,relative,align,dce;byte_test:4,>,256,4,relative,dce;; classtype:attempted-admin;

sid:1000068;)

Regra 2: Um exemplo de regra do sistema de IDS Snort utilizando a árvore de decisão ilustrada na Figura 4.c

com portas inferiores a 290 e opnum = 15.

Page 99: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

84

alert tcp $EXTERNAL_NET any -> $HOME_NET [290:] \

(msg:"Ataque a uma Vunerabilidade Não Identificada"; flow:established,to_server; \

dce_iface: 4b324fc8-1670-01d3-1278-5a47bf6ee188; dce_opnum:4; dce_stub_data; \

byte_jump:4,-,relative,align,dce;byte_test:4,>,256,4,relative,dce;; classtype:attempted-admin;

sid:1000068;)

Regra 3: Um exemplo de regra do sistema de IDS Snort utilizando a árvore de decisão ilustrada na Figura 4.c.,

com portas iguais ou superiores a 290 e opnum = 4

Page 100: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

85

4 CONCLUSÕES E TRABALHOS FUTUROS

O honeypot é uma ferramenta essencial para que o administrador identifique possíveis ataques

a seus ativos. Ele gera grandes quantidades de dados que podem tornar as análises lentas e com-

plexas. Sem as técnicas de mineração de dados a quantidade de dados coletados pode ocultar

um novo ataque ou uma variação de um ataque conhecido, fornecendo ao administrador da rede

a falsa sensação de que seus ativos estão seguros.

Esse dissertação apresentou uma análise estatística de quatro conjuntos de dados coleta-

dos por honeypots (Paris, Berlin, Jacareí e Campinas) em diferentes períodos de tempo e em

diferentes locais. Essa análise mostrou que há semelhanças marcantes entre os conjuntos de

dados, onde se identificou que mais de 90% dos ataques são direcionados a protocolos de co-

municação do sistema operacional Microsoft Windows, mais precisamente ao serviço de cha-

mada de procedimento remoto (RPC), onde foi explorada a vulnerabilidade descrita no boletim

de segurança MS08-67.

Apesar das semelhanças encontradas nos conjuntos de dados, verificou-se que os con-

juntos Berlin e Campinas têm características únicas, apresentando uma tendência interessante.

Os dados armazenados no conjunto Berlin são, em sua maioria, ataques que não utilizaram cha-

madas RPC. Isso levanta a hipótese de que o honeypot que registrou os ataques não foi alvo de

ataques que exploram vulnerabilidades nos serviços RPC, ou existia algum tipo de bloqueio

entre o honeypot e o atacante que não permitia ao atacante continuar a explorar as vulnerabili-

dades existentes.

O conjunto de dados Campinas apresenta uma migração dos ataques que antes eram

direcionados aos serviço RPC do Microsoft Windows para outros serviços como o XMPP e o

SIP. Essa migração mostra que o administrador deve se preocupar não somente com seus ativos

que utilizam o sistema operacional Microsoft Windows, como os outros ativos de comunicação

da empresa. Outra característica identificada no conjunto Campinas é que outras interfaces

DCERPC foram exploradas e junto com essas interfaces novos serviços e chamadas foram iden-

tificadas. Essa característica reforça o fato dos atacantes buscarem novas formas de comprome-

ter os ativos explorando novas vulnerabilidades e/ou serviços.

Após a análise descritiva essa pesquisa utilizou o algoritmo de árvore de decisão C4.5,

permitindo ao analista identificar as características mais comuns dos ataques, juntamente com

comportamentos não esperados. Uma vez identificadas as características mais comuns nos ata-

ques torna-se viável a tarefa de criação de uma regra para um sistema de detecção de intrusão,

apenas percorrendo os nós e os ramos da árvore gerada.

Page 101: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

86

Ao se submeter os dados coletados ao algoritmo C4.5 encontrou-se uma dificuldade no

que tange a capacidade de memória necessária para a análise de conjuntos de dados maiores.

Devido a esse problema recomenda-se que esse tipo de análise seja efetuado diariamente em

honeypots com grandes volumes de ataques. Esse problema foi contornado criando subconjun-

tos amostrais baseados em períodos de tempo.

Os resultados obtidos com as árvores de decisão apresentaram características interessan-

tes que foram observadas em todos os conjuntos de dados:

1. Ao analisar as matrizes de confusão verificou-se que o algoritmo tem dificuldades

em separar determinadas classes e algumas classes apresentam os mesmos valores

com rótulos diferentes, o que impede que o algoritmo efetue uma separação correta

das classes. Sendo assim, torna-se necessário acrescentar novos atributos para que

seja possível a separação pelo algoritmo.

2. Amostras diferentes geraram árvores iguais e amostras de diferentes conjuntos gera-

ram ramificações semelhantes. Isso mostra que, apesar dos dados serem coletados

em diferentes locais e períodos de tempo, os ataques são semelhantes e buscam ex-

plorar as mesmas falhas.

3. Identificaram-se comportamentos anômalos, onde se registrou o acesso a um serviço

RPC em portas não padrão. Esse comportamento mostra que o atacante possuía um

conhecimento prévio da rede, ou buscava encontrar os serviços através de força

bruta, testando todas as portas.

4. Apesar do honeypot não ter informações disponíveis sobre ataques que acessavam

serviços específicos das sintaxes de transferência RPC, a árvore de decisão apresen-

tou esses serviços deixando explícito para o analista que uma investigação mais pro-

funda deve ser efetuada nessas chamadas.

Ainda analisando os resultados das árvores de decisão é possivel afirmar que a média da

acurácia obtida através da validação em k-pastas foi maior que 60%. Isso se deve aos ataques

com mesma informação rotulados de forma diferente. Para aumentar a acurácia torna-se neces-

sário um estudo acrescentando novos atributos.

Tendo em vista as dificuldades encontradas alguns pontos poderiam ser desenvolvidos

como trabalhos futuros para se obter resultados melhores de forma mais rápida e dinâmica:

1- Um estudo detalhado dos bitstreams em conjunto com a tabela emuprofiles, o pri-

meiro por conter um registro raw do fluxo de rede durante o ataque e o segundo

por conter o payload do ataque no formato de documentos de texto.

Page 102: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

87

2- O desenvolvimento de um sistema automatizado para geração das árvores de deci-

são e extração das regras do IDS.

3- A comparação do algoritmo C4.5 com outros algoritmos de indução de árvores de

decisão, em busca de solucionar o problema do consumo de memória em conjuntos

de dados com grandes quantidades de objetos.

Page 103: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

88

REFERÊNCIAS BIBLIOGRÁFICAS

The Honeynet Project. (2004). Know Your Enemy: Learning About Security Threats - The

Honeynet Project (Second ed.). Pearson Education, Inc.

Buffington, J. (2010). Microsoft SQL Server. Em Data Protection for Virtual Data Centers (pp.

267-315). Wiley Publishing, Inc. Fonte: http://dx.doi.org/10.1002/9781118255766.ch8

Cisco Systems. (02 de 2013). Cisco Visual Networking Index: Global Mobile Data Traffic

Forecast Update. Acesso em 2014 de 12 de 15, disponível em

http://www.cisco.com/en/US/solutions/collateral/ns341/ns525/ns537/ns705/ns827/whit

e_paper_c11-520862.html

Cohen, F. (March de 1998). The Deception ToolKit. Fonte:

http://catless.ncl.ac.uk/Risks/19.62.html

Cukier, M., Berthier, R., Panjwani, S., & Tan, S. (2006). A Statistical Analysis of Attack Data

to Separate Attacks. Dependable Systems and Networks, 2006. DSN 2006. International

Conference on, (pp. 383-392).

de Castro, L. N. (2006). FUNDAMENTALS OF NATURAL COMPUTING: Basic Concepts,

algoriths, and Applications. Chapman & Hall/CRC.

Deering, S. E. (1998). Internet protocol, version 6 (IPv6) specification.

Denning, D. (Feb. de 1987). An Intrusion-Detection Model. Software Engineering, IEEE

Transactions on, SE-13(2), 222-232.

Dierks, T. (2008). The transport layer security (TLS) protocol version 1.2.

Dionaea Catch Bugs. (04 de 2013). Dionaea Catch Bugs. Acesso em 2014 de 12 de 15,

disponível em http://dionaea.carnivore.it/

Dionaea Catch Bugs. (25 de 03 de 2015). Post it yourself. Fonte: Carnivore News:

http://carnivore.it/2009/12/08/post_it_yourself.

Ghourabi, A., Abbes, T., & Bouhoula, A. (2010). Data analyzer based on data mining for

Honeypot Router. Computer Systems and Applications (AICCSA), 2010 IEEE/ACS

International Conference on, (pp. 1-6).

Grégio, A., Santos, R., & Montes, A. (2007). Evaluation of data mining techniques for

suspicious network activity classification using honeypots data. Defense and Security

Symposium, (pp. 657006-657006).

Han, J., & Kamber, M. (2011). Data Mining: Concepts and Techiniques 3 edition. (A. Press,

Ed.) Morgan Kaufmann.

Haykin, S. (02 de 2004). A Comprehensive Foundation. Neural Networks.

Page 104: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

89

Jain, A. K. (31 de 8 de 2010). Data Clustering: 50 years beyond K-Means. Pattern Recognition

Letters, pp. 651-666.

Janert, P. K. (November de 2010). Data Analysis with Open Source Tools (First ed.). (M.

Loukides, Ed.) O'Reilly Media, Inc.

Kaspersky Lab. (02 de 2013). Informe de Kaspersky Lab: Evaluacion del nivel de amenaza de

las vulnerabilidades en programas. Acesso em 15 de 12 de 2014, disponível em

http://www.viruslist.com/sp/analysis?pubid=207271202

Markey, J., & Atlasis, D. A. (05 de 06 de 2011). SANS Intitute Infosec Reading Room. Acesso

em 20 de 11 de 2014, disponível em SANS Institute Reading Room:

http://www.sans.org/reading-room/whitepapers/detection/decision-tree-analysis-

intrusion-detection-how-to-guide-33678

Matheus, P. H., & de Castro, L. N. (2014). Extracting IDS Rules from Honeypot Data: A

Decision Tree Approach. The International Conference in Information Security and

Digital Forensics (ISDF2014), (pp. 97-109). Thessaloniki.

Microsoft Corporation. (28 de 03 de 2003). How RPC Works. Acesso em 15 de 12 de 2014,

disponível em Microsoft TechNet: http://technet.microsoft.com/en-

us/library/cc738291(v=WS.10).aspx

Microsoft Corporation. (january de 2013). [MS-RPCE]: Remote Procedure Call Protocol

Extensions. (Microsoft Corporation) Acesso em 20 de Novembro de 2014, disponível

em Microsoft Developer Network: http://msdn.microsoft.com/en-

us/library/cc243560.aspx

Microsoft Corporation. (2014). 3.1.4 Message Processing Events And Sequencing Rules.

Acesso em 15 de 12 de 2014, disponível em Microsoft Developer Network:

http://msdn.microsoft.com/en-us/library/cc247234.aspx

Mierswa, I., Wurst, M., Klinkenberg, R., Scholz, M., & Euler, T. (August de 2006). YALE:

Rapid Prototyping for Complex Data Mining Tasks. Em L. Ungar, M. Craven, D.

Gunopulos, & T. Eliassi-Rad (Ed.), KDD '06: Proceedings of the 12th ACM SIGKDD

international conference on Knowledge discovery and data mining (pp. 935-940). New

York, NY, USA: ACM. Fonte: http://rapid-

i.com/component/option,com_docman/task,doc_download/gid,25/Itemid,62/

Nisbet, R., Elder, J., & Miner, G. (2009). Handbook of statistical analysis and data mining

applications. Academic Press is an imprint of Elsevier.

Ponemon Institute. (05 de 2012). The Impact of Cybercrime on Business: Studies of IT

practitioners in the United States, United Kingdom, Germany,. Acesso em 05 de 12 de

Page 105: ANÁLISE DE DADOS DE BASES DE HONEYPOTS: ESTATÍSTICA ...tede.mackenzie.br/jspui/bitstream/tede/1460/1/PEDRO... · Ferreira, Pedro Henrique Matheus da Costa Análise de dados de bases

90

2014, disponível em

http://www.ponemon.org/local/upload/file/Impact_of_Cybercrime_on_Business_FINA

L.pdf

Provos, N. (2004). A Virtual Honeypot Framework. USENIX Security Symposium. Fonte:

http://www.citi.umich.edu/techreports/reports/citi-tr-03-1.pdf

Provos, N., & Holz, T. (Jun. de 2007). Virtual Honeypots: From Botnet Tracking to Intrusion

Detection (Vol. 1). (Addison-Wesley, Ed.) Pearson Education, Inc.

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers,

Inc.

Roesch, M. (1999). Snort: Lightweight Intrusion Detection for Networks. LISA, 99, pp. 229-

238.

Rosenberg, J., Schulzrinne, H., Camarillo, G., Johnston, A., Peterson, J., Sparks, R., . . . others.

(2002). SIP: session initiation protocol. Tech. rep., RFC 3261, Internet Engineering

Task Force.

Seifert, C., Welch, I., & Komisarczuk, P. (2006). Taxonomy of Honeypots. PO Box 600

Wellington New Zealand.

Song, J., Takakura, H., Okabe, Y., & Kwon, Y. (2011). Correlation Analysis Between Honeypot

Data and IDS Alerts Using One-class SVM. Intrusion Detection Systems, In Tech, 173-

193.

SQLite. (may de 2013). SQLite. SQLite. Fonte: http://www.sqlite.org/about.html

Tang, X. (2010). The Generation of Attack Signatures Based on Virtual Honeypots. Parallel

and Distributed Computing, Applications and Technologies (PDCAT), 2010

International Conference on, (pp. 435-439).

Thakar, U., Varma, S., & Ramani, A. (2005). HoneyAnalyzer--analysis and extraction of

intrusion detection patterns & signatures using honeypot. Proceedings of the Second

International Conference on Innovations in Information Technology.

Triola, M. F. (2005). Introdução à Estatística 9º edição. São Paulo, Brasil: LTC.

Van Rossum, G., & others. (2007). Python Programming Language. USENIX Annual Technical

Conference.

Wicherski, G. (2006). Medium interaction honeypots. German Honeynet Project.