análise forense de documentos digitais -...

53
Atribuição autoral de e-mail a partir de técnicas de mineração Felipe Augusto Rosa Victor Furuse Martins

Upload: doque

Post on 24-Nov-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Atribuição autoral de e-mail a partir

de técnicas de mineração

Felipe Augusto RosaVictor Furuse Martins

Série de Seminários

Disciplina de Análise Forense deDocumentos Digitais

Prof. Dr. Anderson [email protected]

http://www.ic.unicamp.br/~rocha

Organização

Seminários – Análise Forense de Documentos Digitais, 2011 4

Organização‣ Introdução

‣ Motivação

‣ Características de um texto

‣ Passos para a atribuição autoral de e-mail

‣ Classificador, Documentos para teste e Performance

‣ Resultados e Conclusões

‣ Trabalhos Correlatos

Introdução

Seminários – Análise Forense de Documentos Digitais, 2011 6

E-mail – Características

‣Meio de comunicação escrito dominante na maioria das empresas e governos;

‣ Pode ser usado para atividades inapropriadas e criminosas;

•Assédio moral, racismo, fraudes, …

‣ Possui diversas vulnerabilidades;

Seminários – Análise Forense de Documentos Digitais, 2011 7

E-mail – Vulnerabilidades

Remetente pode ser falsificado, forjando as informações do cabeçalho SMTP, assim é possível:

‣ omitir o remetente (ex.: spam);

‣ passar-se por outra pessoa (ex.: incriminar uma pessoa);

Seminários – Análise Forense de Documentos Digitais, 2011 8

E-mail – Exemplo

© V. Martins

Seminários – Análise Forense de Documentos Digitais, 2011 9

Computação Forense

Problema de análise de autoria como proposto em:

‣ Software forensics: Extending authorship analysis techniques to computer programs[Gray et al. 1997]

Seminários – Análise Forense de Documentos Digitais, 2011 10

Sub-áreas de análise de autoria

‣ Atribuição autoral;

•Determinar o autor de um documento em um conjunto pequeno de suspeitos;

‣Categorização do autor;

‣Detecção de similaridade;

Seminários – Análise Forense de Documentos Digitais, 2011 11

Atribuição autoral

Pode ser empregado em diversos tipos de documentos, como: livros, cartas, artigos e e-mails;

Em e-mails, os dados que podem ser utilizados:

‣ Texto do corpo do e-mail;

‣ Informações do cabeçalho – route;

‣Anexos – Timestamp;

Seminários – Análise Forense de Documentos Digitais, 2011 12

Atribuição autoral através de textoCaracterística de escritas são pessoais de

cada autor, como mostrado nos seguintes trabalhos:

‣ Inference and Disputed Authorship: The Federalist [Mosteller & Wallace 1964]

‣ Separating hyperplanes and the authorship of the disputed federalist papers. [Bosch & Smith 1998]

‣ Was the Earl of Oxford the true Shakespeare? [Elliot & Valenza1991]

Seminários – Análise Forense de Documentos Digitais, 2011 13

Atribuição autoral através de texto

Os trabalhos citados foram feitos em textos longos e com linguagem formal.

Os e-mails, ao contrário, são geralmente curtos/sucintos, com uma variação de linguagem formal e informal, poucos parágrafos e rápida evolução.

Seminários – Análise Forense de Documentos Digitais, 2011

Motivação

Seminários – Análise Forense de Documentos Digitais, 2011 15

Questões a serem respondidas?1. Atribuição autoral de e-mails podem ser

realizada? Em textos curtos?

2. Há diferença de estilo entre linguagem formal e informal que impossibilite a identificação do autor?

3. É preciso saber o assunto que o e-mail trata?

Seminários – Análise Forense de Documentos Digitais, 2011

Características de um texto

Seminários – Análise Forense de Documentos Digitais, 2011 17

Características de um texto

Antes das perguntas serem respondidas é preciso entender como um texto pode ser caracterizado.

Seminários – Análise Forense de Documentos Digitais, 2011 18

Características de um texto

Um texto é dividido em 2 tipos de características:

‣ Stylometric ou style markers;

‣Atributos estruturais;

Seminários – Análise Forense de Documentos Digitais, 2011 19

StylometricsAs características stylometrics estão

relacionadas a forma de escrita do autor, como:

‣ Funções de palavras (frequência e distribuição);

‣Vocabulário;

‣ Sintaxe;

‣ Pontuação e uso excesso de certos caracteres;

‣ Erros e vícios de linguagem;

Seminários – Análise Forense de Documentos Digitais, 2011 20

Stylometrics

Essas características podem ser divididas em 2 grupos:

‣Dependentes do conteúdo;

•Gerado sobre o controle consciente do autor;

‣ Independentes do conteúdo;

•Gerado sobre o controle inconsciente do autor;

Seminários – Análise Forense de Documentos Digitais, 2011 21

Stylometrics

Em [Rudman 1997] foram propostas mais de mil stylometrics.

‣The state of authorship attribution studies: Some problems and solutions.[Rudman 1997]

Seminários – Análise Forense de Documentos Digitais, 2011 22

Atributos estruturais

Os atributos estruturais estão relacionados a composição, disposição e estrutura do texto. São exemplos:

• Presença de assinatura e saudação;

•Uso de citações (posição);

•Uso de tags HTML;

Seminários – Análise Forense de Documentos Digitais, 2011 23

Questões a serem respondidas?

Voltando nas perguntas:

1. Atribuição autoral de e-mails podem ser realizada? Em textos curtos?

2. Há diferença de estilo entre linguagem formal e informal que impossibilite a identificação do autor?

Seminários – Análise Forense de Documentos Digitais, 2011 24

Questões a serem respondidas?Resposta:

‣ Identifying the Authors of Suspect E-mail.[Anderson et al. 2001]

‣Assunto dos e-mails era o mesmo e conhecido;

‣Foi necessário 20 documentos com pelo menos 100 palavras, para treinar um classificador (aprendizado de máquina);

Seminários – Análise Forense de Documentos Digitais, 2011 25

Questões a serem respondidas?3. É preciso saber o tópico que o

documento trata?

Pergunta respondida no artigo [Anderson et al. 2001b] usado como referência base e extensão do artigo [Anderson et al. 2001];

‣Mining E-mail Content for Author Identification Forensics.[Anderson et al. 2001b]

Seminários – Análise Forense de Documentos Digitais, 2011

Passos para a atribuição

autoral de e-mail

Seminários – Análise Forense de Documentos Digitais, 2011 27

Passos para a atribuição autoral de e-mailDado as caracteríticas style marker e

atributos estruturais, a atribuição pode ser dividida basicamente em 2 passos:

1. Seleção das características mais relevantes;

2. Seleção de documentos para o treinamento do classificador

Seminários – Análise Forense de Documentos Digitais, 2011

Características Selecionadas

Seminários – Análise Forense de Documentos Digitais, 2011 29

Características selecionas

Os autores julgaram como relevantes:

‣ Style markers: 170 características;

• Independentes de conteúdo;

‣Atributos estruturais: 21 características;

Seminários – Análise Forense de Documentos Digitais, 2011 30

Style markers© [Anderson et al. 2001b]

Seminários – Análise Forense de Documentos Digitais, 2011 31

Atributos estruturais

© [Anderson et al. 2001b]

Seminários – Análise Forense de Documentos Digitais, 2011

Classificador

Seminários – Análise Forense de Documentos Digitais, 2011 33

Classificador – TécnicaNão há uma técnica predominante para o

treinamento de um classificador. Na literatura há casos de uso das mais diversas técnicas, como:

‣Árvore de decisão;

‣ SVM;

‣Redes neurais;

‣Cadeias de Markov;

‣ Probabilidade Bayesiana;

Seminários – Análise Forense de Documentos Digitais, 2011 34

Classificador – SVM

Como há uma grande quantidade de características que podem ser utilizadas, foi escolhido a técnica de SVM, pois, segundo o autor, não é necessário diminuir a quantidade de caractéristicas para evitar o problema de over-fitting.

Seminários – Análise Forense de Documentos Digitais, 2011 35

Classificador – SVM Light

Foi escolhida a implementação da SVM Light, desenvolvida por T. Joachims da University de Dortmund para o classificador.

A SVM Light é:

‣ uma modificação da Vapnik’s SVM

‣ Eficiente para lidar com grande número de vetores esparsos, por possuir rotinas de otimização;

Seminários – Análise Forense de Documentos Digitais, 2011

Documentos para teste

Seminários – Análise Forense de Documentos Digitais, 2011 37

Documentos – Seleção

Dificuldade em conseguir lista pública com textos suficientemente grande e sem e-mails: off-topic, spam e apenas com anexo;

Selecionados:

‣ 156 documentos

‣ 3 autores (1200 palavras por autor)

‣ 3 temas (filme, comida e viagem)

Seminários – Análise Forense de Documentos Digitais, 2011 38

Documentos – Seleção© [Anderson et al. 2001b]

Seminários – Análise Forense de Documentos Digitais, 2011 39

Documentos – Pré-processamento

Os documentos foram pré-processados, onde foi removido:

‣ Saudações;

‣Respostas (Reply);

‣Assinaturas;

‣Anexos;

Seminários – Análise Forense de Documentos Digitais, 2011

Performance

Seminários – Análise Forense de Documentos Digitais, 2011 41

Performance‣Data Mining: Practical Machine Learning

Tools and Techniques with Java Implementations. [Witten & Frank 2000]

‣ Fórmula: F1 = (2RP) / (R + P)

‣R (recall) é: n° total de doc. recuperados que são relevantes / n° de doc. recuperados

‣ P (precision) é: n° total de doc. recuperados que são relevantes / n° de doc. relevantes

Seminários – Análise Forense de Documentos Digitais, 2011

Resultados

Seminários – Análise Forense de Documentos Digitais, 2011 43

Experimento com todas características

No primeiro experimento foi utilizado as características style markers e atributos estruturais.

© [Anderson et al. 2001b]

Seminários – Análise Forense de Documentos Digitais, 2011 44

Experimento com apenas style markers

No segundo experimento foi utilizado apenas as características style marker.

© [Anderson et al. 2001b]

Conclusões

Seminários – Análise Forense de Documentos Digitais, 2011 46

Conclusões

‣ Classificador foi capaz de identificar o autor sem distinguir o assunto do texto;

‣ Não é capaz de trabalhar com muitos suspeitos;

Seminários – Análise Forense de Documentos Digitais, 2011 47

Conclusões

‣ Deve-se verificar:

• O autor AC1 apresentou baixo resultado por ter poucos documentos para teste;

• Quando foi utilizado 320 características os resultados pioraram, o que os autores dizem contradizer com a robustez da alta dimensionalidade de SVM;

• Melhores funções de palavras;

Seminários – Análise Forense de Documentos Digitais, 2011

Trabalhos Correlatos

Seminários – Análise Forense de Documentos Digitais, 2011

Trabalhos Correlatos‣Produção de Provas Digitais a partir de

Rastreamento de Relacionamentos por e-mail. [Jackson Mallmann et al.]

‣ Pré-processamento do texto

‣ Técnica k-means e 3-grams

‣ Classificadores SVM polinomial, DT e NB

‣ Alta taxa de acerto (98%)

Seminários – Análise Forense de Documentos Digitais, 2011

Trabalhos Correlatos‣N-Gram-Based Author Profiles

Authorship Attribution. [Vlado Keselj et al.]

‣ Atribuição realizada para os idiomas Inglês, Grego e Chinês

‣ Técnica N-grams

‣Otimo desempenho no idioma Grego

‣ Feito para número restrito de autores

Referências

Seminários – Análise Forense de Documentos Digitais, 2011 52

Referências1.[Anderson et al. 2001b] A. Anderson, M. Corney, O. de Vel, e G. Mohay. (2001b). Mining E-mail Content for Author Identification Forensics. Communications of the ACM.

2.[Gray et al. 1997] A. Gray, P. Sallis e S. MacDonell. (1997) Software forensics: Extending authorship analysis techniques to computer programs. In Proc. 3rd Biannual Conf. Int. Assoc. of Forensic Linguists (IAFL’97), pages 1–8.

3.[Mosteller & Wallace 1964] F. Mosteller e D. Wallace. (1964) Inference and Disputed Authorship: The Federalist. Addison-Wesley, Reading, Mass.

4.[Bosch & Smith 1998] R. Bosch e J. Smith. (1998). Separating hyperplanes and the authorship of the disputed federalist papers. American Mathematical Monthly, 105(7):601–608.

5.[Elliot & Valenza1991] W. Elliot e R. Valenza. (1991). Was the Earl of Oxford the true Shakespeare?. Notes and Queries, 38:501–506.

6.[Rudman 1997] J. Rudman. (1997). The state of authorship attribution studies: Some problems and solutions. Computers and the Humanities, 31(4):351–365.

7.[Anderson et al. 2001] A. Anderson, M. Corney, O. de Vel, e G. Mohay. (2001). Identifying the Authors of Suspect E-mail. Communications of the ACM.

8.[Witten & Frank 2000] I. Witten and E. Frank. (2000). Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, San Francisco.

9.[Mallmann et al. 2010] J. Mallmann, C. O. A. Freitas e A. O. Santin. (2010) Produção de Provas Digitais a partir de Rastreamento em Relacionamentos por e-mail. X Simpósio Brasileiro em Segurança da Informação e de Sistemas Computacionais. Fortaleza – Brasil.

10.[Keselj et al. 2003] V. Keselj, F. Peng, N. Cercone e C. Thomas. (2003) N-Gram-Based Author Profiles for Authorship Attribution. In Proccedings of The Conference Pacific Association for Computational Linguistics. Canada

Obrigado!