análise forense de documentos digitais -...
TRANSCRIPT
Atribuição autoral de e-mail a partir
de técnicas de mineração
Felipe Augusto RosaVictor Furuse Martins
Série de Seminários
Disciplina de Análise Forense deDocumentos Digitais
Prof. Dr. Anderson [email protected]
http://www.ic.unicamp.br/~rocha
Seminários – Análise Forense de Documentos Digitais, 2011 4
Organização‣ Introdução
‣ Motivação
‣ Características de um texto
‣ Passos para a atribuição autoral de e-mail
‣ Classificador, Documentos para teste e Performance
‣ Resultados e Conclusões
‣ Trabalhos Correlatos
Seminários – Análise Forense de Documentos Digitais, 2011 6
E-mail – Características
‣Meio de comunicação escrito dominante na maioria das empresas e governos;
‣ Pode ser usado para atividades inapropriadas e criminosas;
•Assédio moral, racismo, fraudes, …
‣ Possui diversas vulnerabilidades;
Seminários – Análise Forense de Documentos Digitais, 2011 7
E-mail – Vulnerabilidades
Remetente pode ser falsificado, forjando as informações do cabeçalho SMTP, assim é possível:
‣ omitir o remetente (ex.: spam);
‣ passar-se por outra pessoa (ex.: incriminar uma pessoa);
Seminários – Análise Forense de Documentos Digitais, 2011 9
Computação Forense
Problema de análise de autoria como proposto em:
‣ Software forensics: Extending authorship analysis techniques to computer programs[Gray et al. 1997]
Seminários – Análise Forense de Documentos Digitais, 2011 10
Sub-áreas de análise de autoria
‣ Atribuição autoral;
•Determinar o autor de um documento em um conjunto pequeno de suspeitos;
‣Categorização do autor;
‣Detecção de similaridade;
Seminários – Análise Forense de Documentos Digitais, 2011 11
Atribuição autoral
Pode ser empregado em diversos tipos de documentos, como: livros, cartas, artigos e e-mails;
Em e-mails, os dados que podem ser utilizados:
‣ Texto do corpo do e-mail;
‣ Informações do cabeçalho – route;
‣Anexos – Timestamp;
Seminários – Análise Forense de Documentos Digitais, 2011 12
Atribuição autoral através de textoCaracterística de escritas são pessoais de
cada autor, como mostrado nos seguintes trabalhos:
‣ Inference and Disputed Authorship: The Federalist [Mosteller & Wallace 1964]
‣ Separating hyperplanes and the authorship of the disputed federalist papers. [Bosch & Smith 1998]
‣ Was the Earl of Oxford the true Shakespeare? [Elliot & Valenza1991]
Seminários – Análise Forense de Documentos Digitais, 2011 13
Atribuição autoral através de texto
Os trabalhos citados foram feitos em textos longos e com linguagem formal.
Os e-mails, ao contrário, são geralmente curtos/sucintos, com uma variação de linguagem formal e informal, poucos parágrafos e rápida evolução.
Seminários – Análise Forense de Documentos Digitais, 2011 15
Questões a serem respondidas?1. Atribuição autoral de e-mails podem ser
realizada? Em textos curtos?
2. Há diferença de estilo entre linguagem formal e informal que impossibilite a identificação do autor?
3. É preciso saber o assunto que o e-mail trata?
Seminários – Análise Forense de Documentos Digitais, 2011 17
Características de um texto
Antes das perguntas serem respondidas é preciso entender como um texto pode ser caracterizado.
Seminários – Análise Forense de Documentos Digitais, 2011 18
Características de um texto
Um texto é dividido em 2 tipos de características:
‣ Stylometric ou style markers;
‣Atributos estruturais;
Seminários – Análise Forense de Documentos Digitais, 2011 19
StylometricsAs características stylometrics estão
relacionadas a forma de escrita do autor, como:
‣ Funções de palavras (frequência e distribuição);
‣Vocabulário;
‣ Sintaxe;
‣ Pontuação e uso excesso de certos caracteres;
‣ Erros e vícios de linguagem;
Seminários – Análise Forense de Documentos Digitais, 2011 20
Stylometrics
Essas características podem ser divididas em 2 grupos:
‣Dependentes do conteúdo;
•Gerado sobre o controle consciente do autor;
‣ Independentes do conteúdo;
•Gerado sobre o controle inconsciente do autor;
Seminários – Análise Forense de Documentos Digitais, 2011 21
Stylometrics
Em [Rudman 1997] foram propostas mais de mil stylometrics.
‣The state of authorship attribution studies: Some problems and solutions.[Rudman 1997]
Seminários – Análise Forense de Documentos Digitais, 2011 22
Atributos estruturais
Os atributos estruturais estão relacionados a composição, disposição e estrutura do texto. São exemplos:
• Presença de assinatura e saudação;
•Uso de citações (posição);
•Uso de tags HTML;
Seminários – Análise Forense de Documentos Digitais, 2011 23
Questões a serem respondidas?
Voltando nas perguntas:
1. Atribuição autoral de e-mails podem ser realizada? Em textos curtos?
2. Há diferença de estilo entre linguagem formal e informal que impossibilite a identificação do autor?
Seminários – Análise Forense de Documentos Digitais, 2011 24
Questões a serem respondidas?Resposta:
‣ Identifying the Authors of Suspect E-mail.[Anderson et al. 2001]
‣Assunto dos e-mails era o mesmo e conhecido;
‣Foi necessário 20 documentos com pelo menos 100 palavras, para treinar um classificador (aprendizado de máquina);
Seminários – Análise Forense de Documentos Digitais, 2011 25
Questões a serem respondidas?3. É preciso saber o tópico que o
documento trata?
Pergunta respondida no artigo [Anderson et al. 2001b] usado como referência base e extensão do artigo [Anderson et al. 2001];
‣Mining E-mail Content for Author Identification Forensics.[Anderson et al. 2001b]
Seminários – Análise Forense de Documentos Digitais, 2011
Passos para a atribuição
autoral de e-mail
Seminários – Análise Forense de Documentos Digitais, 2011 27
Passos para a atribuição autoral de e-mailDado as caracteríticas style marker e
atributos estruturais, a atribuição pode ser dividida basicamente em 2 passos:
1. Seleção das características mais relevantes;
2. Seleção de documentos para o treinamento do classificador
Seminários – Análise Forense de Documentos Digitais, 2011 29
Características selecionas
Os autores julgaram como relevantes:
‣ Style markers: 170 características;
• Independentes de conteúdo;
‣Atributos estruturais: 21 características;
Seminários – Análise Forense de Documentos Digitais, 2011 31
Atributos estruturais
© [Anderson et al. 2001b]
Seminários – Análise Forense de Documentos Digitais, 2011 33
Classificador – TécnicaNão há uma técnica predominante para o
treinamento de um classificador. Na literatura há casos de uso das mais diversas técnicas, como:
‣Árvore de decisão;
‣ SVM;
‣Redes neurais;
‣Cadeias de Markov;
‣ Probabilidade Bayesiana;
Seminários – Análise Forense de Documentos Digitais, 2011 34
Classificador – SVM
Como há uma grande quantidade de características que podem ser utilizadas, foi escolhido a técnica de SVM, pois, segundo o autor, não é necessário diminuir a quantidade de caractéristicas para evitar o problema de over-fitting.
Seminários – Análise Forense de Documentos Digitais, 2011 35
Classificador – SVM Light
Foi escolhida a implementação da SVM Light, desenvolvida por T. Joachims da University de Dortmund para o classificador.
A SVM Light é:
‣ uma modificação da Vapnik’s SVM
‣ Eficiente para lidar com grande número de vetores esparsos, por possuir rotinas de otimização;
Seminários – Análise Forense de Documentos Digitais, 2011 37
Documentos – Seleção
Dificuldade em conseguir lista pública com textos suficientemente grande e sem e-mails: off-topic, spam e apenas com anexo;
Selecionados:
‣ 156 documentos
‣ 3 autores (1200 palavras por autor)
‣ 3 temas (filme, comida e viagem)
Seminários – Análise Forense de Documentos Digitais, 2011 38
Documentos – Seleção© [Anderson et al. 2001b]
Seminários – Análise Forense de Documentos Digitais, 2011 39
Documentos – Pré-processamento
Os documentos foram pré-processados, onde foi removido:
‣ Saudações;
‣Respostas (Reply);
‣Assinaturas;
‣Anexos;
Seminários – Análise Forense de Documentos Digitais, 2011 41
Performance‣Data Mining: Practical Machine Learning
Tools and Techniques with Java Implementations. [Witten & Frank 2000]
‣ Fórmula: F1 = (2RP) / (R + P)
‣R (recall) é: n° total de doc. recuperados que são relevantes / n° de doc. recuperados
‣ P (precision) é: n° total de doc. recuperados que são relevantes / n° de doc. relevantes
Seminários – Análise Forense de Documentos Digitais, 2011 43
Experimento com todas características
No primeiro experimento foi utilizado as características style markers e atributos estruturais.
© [Anderson et al. 2001b]
Seminários – Análise Forense de Documentos Digitais, 2011 44
Experimento com apenas style markers
No segundo experimento foi utilizado apenas as características style marker.
© [Anderson et al. 2001b]
Seminários – Análise Forense de Documentos Digitais, 2011 46
Conclusões
‣ Classificador foi capaz de identificar o autor sem distinguir o assunto do texto;
‣ Não é capaz de trabalhar com muitos suspeitos;
Seminários – Análise Forense de Documentos Digitais, 2011 47
Conclusões
‣ Deve-se verificar:
• O autor AC1 apresentou baixo resultado por ter poucos documentos para teste;
• Quando foi utilizado 320 características os resultados pioraram, o que os autores dizem contradizer com a robustez da alta dimensionalidade de SVM;
• Melhores funções de palavras;
Seminários – Análise Forense de Documentos Digitais, 2011
Trabalhos Correlatos‣Produção de Provas Digitais a partir de
Rastreamento de Relacionamentos por e-mail. [Jackson Mallmann et al.]
‣ Pré-processamento do texto
‣ Técnica k-means e 3-grams
‣ Classificadores SVM polinomial, DT e NB
‣ Alta taxa de acerto (98%)
Seminários – Análise Forense de Documentos Digitais, 2011
Trabalhos Correlatos‣N-Gram-Based Author Profiles
Authorship Attribution. [Vlado Keselj et al.]
‣ Atribuição realizada para os idiomas Inglês, Grego e Chinês
‣ Técnica N-grams
‣Otimo desempenho no idioma Grego
‣ Feito para número restrito de autores
Seminários – Análise Forense de Documentos Digitais, 2011 52
Referências1.[Anderson et al. 2001b] A. Anderson, M. Corney, O. de Vel, e G. Mohay. (2001b). Mining E-mail Content for Author Identification Forensics. Communications of the ACM.
2.[Gray et al. 1997] A. Gray, P. Sallis e S. MacDonell. (1997) Software forensics: Extending authorship analysis techniques to computer programs. In Proc. 3rd Biannual Conf. Int. Assoc. of Forensic Linguists (IAFL’97), pages 1–8.
3.[Mosteller & Wallace 1964] F. Mosteller e D. Wallace. (1964) Inference and Disputed Authorship: The Federalist. Addison-Wesley, Reading, Mass.
4.[Bosch & Smith 1998] R. Bosch e J. Smith. (1998). Separating hyperplanes and the authorship of the disputed federalist papers. American Mathematical Monthly, 105(7):601–608.
5.[Elliot & Valenza1991] W. Elliot e R. Valenza. (1991). Was the Earl of Oxford the true Shakespeare?. Notes and Queries, 38:501–506.
6.[Rudman 1997] J. Rudman. (1997). The state of authorship attribution studies: Some problems and solutions. Computers and the Humanities, 31(4):351–365.
7.[Anderson et al. 2001] A. Anderson, M. Corney, O. de Vel, e G. Mohay. (2001). Identifying the Authors of Suspect E-mail. Communications of the ACM.
8.[Witten & Frank 2000] I. Witten and E. Frank. (2000). Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, San Francisco.
9.[Mallmann et al. 2010] J. Mallmann, C. O. A. Freitas e A. O. Santin. (2010) Produção de Provas Digitais a partir de Rastreamento em Relacionamentos por e-mail. X Simpósio Brasileiro em Segurança da Informação e de Sistemas Computacionais. Fortaleza – Brasil.
10.[Keselj et al. 2003] V. Keselj, F. Peng, N. Cercone e C. Thomas. (2003) N-Gram-Based Author Profiles for Authorship Attribution. In Proccedings of The Conference Pacific Association for Computational Linguistics. Canada