estudo comparativo entre treinamento supervisionado e não supervisionado em agrupamento de dados...

Post on 22-Feb-2017

4.270 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 1

Estudo comparativo entre treinamento

supervisionado e não supervisionado em

agrupamento de dados nos IDSs baseados em

anomalias.18 Maio 2016

Paulo Damasceno Barreto

2

Incidentes reportados ao CERT.br

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. Fonte:http://www.cert.br/stats/incidentes/

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 3

Crescimento dos ataques a servidores WEB

Incidentes de segurança caem 31% em 2015, mas ataques a servidores web aumentam 128%

Fonte: Roberta Prescott - 15/03/2016

ABRANET – Associação Braseira de Internet

http://www.abranet.org.br/Noticias/Incidentes-de-seguranca-caem-31%25-em-2015,-mas-ataques-a-servidores-web-aumentam-128%25-1010.html#.VzHR5m7R9pg

4

Principais ataques a servidores web

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. Fonte: GUPTA E THILAGAN (2013)

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 5

IDS – Intrusion Detection System

O objetivo do IDS é identificar ataques reais e gerar alertas

6

Classificações Possíveis das requisições

VP (Verdadeiros Positivos): quantidade de ataques corretamente identificados;

FP (Falsos Positivos): Quantidade de requisições normais erroneamente classificadas como ataque;

VN (Verdadeiros Negativos): quantidade de requisições normais (que não foram erroneamente classificados como ataques);

FN (Falsos Negativos): quantidade de ataques que não foram identificados e erroneamente classificados como requisições normais. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

7

Tipificação dos IDS

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

8

Tipificação dos IDS

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

9

Agrupamento de dados

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Clustering ou agrupamento é a tarefa de inserir objetos dispersos em grupos de forma que objetos no mesmo cluster sejam mais similares do que objetos pertencentes a outros clusters.

10

Agrupamento de dados com k-means

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

O algoritmo de agrupamento K-means utiliza o conceito de centroides, que representam o centro de um agrupamento. Este centro (centroide) é calculado de modo não supervisionado (automaticamente) durante o processo de agrupamento de acordo com os valores dos elementos que serão agrupados.

Fonte Imagem: Ricardo Prudencio - http://slideplayer.com.br/slide/1593946/

11

Campos do cabeçalho HTTP usados no agrupamento.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

1. IP de Origem2. Caminho de Referência (Resource Path), 3. Métodos (Method),4. Nome de domínio ou endereço IP do site web

(Host),5. Agente do usuário. (User-Agent), 6. Cookie,7. URL de referencia (Referer)8. Conteúdo (Content).

12

Transformação de dados em valores numéricos

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

A conversão precisa representar a similaridade entre os campos para que fiquem próximos no processo de agrupamento e desta forma estabelecer limiares mínimos e máximos consistentes.

Em requisições normais, os tamanhos dos campos possuem valores parecidos e os limiares mínimos e máximos num processo de agrupamento são consistentes e possuem similaridade entre si.

13

Estabelecendo os limites de cada grupo

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Determinar os limites é um dos grandes desafios no processo de agrupamento.

14

Estabelecendo os limites de cada grupo

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Os elementos que não pertencem a grupo algum (outliers) são classificados como ataque

15

Treinamento de um IDS baseado em anomalia com agrupamento de dados

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

o treinamento é a observação do comportamento da rede com o objetivo de estabelecer um modelo de comportamento normal e determinar os limites dos agrupamentos.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 16

Treinamento Não Supervisionado

As requisições não possuem filtro ou controle de modo que podem conter ataques. Se a quantidade de requisições maliciosas representarem uma significativa porcentagem de conexões, o treinamento fica comprometido pois o IDS entenderá que os ataques são requisições normais.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 17

Treinamento Não Supervisionado

A fim de compensar os desvios gerados por requisições maliciosas existentes durante o treinamento, ajustes são realizados nos limites dos agrupamentos.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 18

Treinamento Supervisionado

O ambiente de rede é controlado de modo que todas as requisições HTTP são normais.

19

Treinamento SupervisionadoX

Treinamento Não supervisionado

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Qual oferece melhores resultados ?

20

Treinamento SupervisionadoX

Treinamento Não supervisionado

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

O objetivo é apresentar um estudo comparativo entre treinamento supervisionado e não supervisionado em IDSs baseados em anomalias com agrupamento de dados e através das analises comparativas dos resultados, determinar qual técnica oferece melhor resultado nas taxas de detecção de intrusão (VP) e falso positivo (FP) e consequentemente determinar qual técnica oferece melhor limite de agrupamento.

21

Origem dos dados testados da base CELEPAR – Tecnologia da informação e comunicação do Paraná.

Esta base formou-se de requisições a 2 servidores web em 2010 em rede puramente IPv4. Foram gerados aproximadamente 5 milhões de requisições, separados em 20 arquivos com aproximadamente 250.000 requisições cada. O primeiro servidor web (WS1) é um portal de noticias criado com a ferramenta DRUPAL baseado em PHP. O outro servidor web (WS2) também disponibiliza notícias e possui diversos fóruns, desenvolvidos com a ferramenta XOOPS, também em PHP, acessados por centenas de pessoas.Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

22

Dados usados no teste

São realizados testes com um total de 2.477.693 requisições analisadas e catalogadas da base de dados CELEPAR, com 2.499.730 requisições catalogados nos primeiros 10 arquivos, sendo que 2.477.693 são requisições normais e 22.037 são anomalias ou ataques.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

23

Dados usados no teste

As requisições normais foram separadas dos ataques e anomalias gerando vinte arquivos. Dez arquivos com requisições normais e dez arquivos com ataques e anomalias. Desta forma os testes são mais precisos para definir o desempenho do IDS nas taxas de FP, FN, VP e VN.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 24

Escopo dos testes e resultados

Os testes realizados limitam-se a classificar as requisições como normais ou ataques.

25

Testes com Treinamento supervisionado

O segundo arquivo (teste2) da base de dados CELEPAR possui 249.998 registros e foi escolhido para ser usado como base de dados de treinamento. Todos os 7.698 registros classificados como ataques e anomalias foram excluídos para o treinamento.

Nenhum ajuste aos limites dos agrupamentos foi realizado após o treinamento.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

26

Resultado dos testes com Treinamento supervisionado nas bases de dados de requisições normais.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

27

Resultado dos testes com Treinamento supervisionado nas bases de dados de ataques

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

28

Testes com Treinamento não supervisionado

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Diversas baterias de testes foram realizadas a fim de determinar qual o melhor ajuste nos limites dos agrupamentos.

Testes foram realizados, primeiro sem alterar os limites dos agrupamentos, sem seguida, os limites foram reduzidos em 3%, 7% e 10%.

Observou-se que na medida em que os limites eram reduzidos, a taxa de detecção também aumentava. Entretanto, a taxa de falsos positivos aumentava também. Portanto, na busca do melhor equilíbrio entre a taxa de detecção e de falso positivo, o melhor valor foi a redução dos limites em 7%.

29

Testes com Treinamento não supervisionado

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Foi usado a mesma base de dados (teste2) da base de dados CELEPAR que possui 249.998. Todos os 7.698 registros de ataques foram mantidos. A quantidade de requisições maliciosas representam 3,08% do total de requisições.

30

Resultado dos testes em requisições normais com Treinamento não supervisionado com redução dos limites dos agrupamentos em 7%.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

31

Resultado dos testes em requisições de ataques com Treinamento não supervisionado com redução dos limites dos agrupamentos em 7%.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

32

Comparação dos Resultados

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 33

Conclusão O treinamento supervisionado obteve melhor

resultado em todos os aspectos. A eficácia superior do IDs demonstra que a melhor consistência dos limites dos agrupamentos obtida é com treinamento supervisionado e reflete diretamente na capacidade de detecção e consequentemente menores taxas de falsos positivos.

 Ajustes nos limites dos agrupamentos não são suficientes para compensar dados maliciosos inseridos no treinamento, mesmo estes sendo em pouca quantidade.

Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 34

Obrigado!Paulo Barreto – IPT - pdbarreo@gmail.com 11 98635-0751

top related