categorização de achados em auditorias de ti com modelos supervisionados e não supervisionados

16
Categorização de achados em auditorias de TI com modelos supervisionados e não

Upload: rommel-carvalho

Post on 08-Jan-2017

77 views

Category:

Government & Nonprofit


0 download

TRANSCRIPT

Page 1: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Categorização de achados em auditorias de TI com modelos supervisionados e não

supervisionados

Page 2: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

DesafioDescobrir os assuntos mais recorrentes em auditorias

Abordagens:Classificação - supervisionadaModelagem de Tópicos – não supervisionada

Dados: Textos de constatações

Auditorias de TI

R Studio

Page 3: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Entendimento dos dados1) Identificação da origem

dos dados2) Identificação do formato

Pré-Processamento

Remoção de Acentuação

Criação do Corpus

Tratamento do Texto

Tokenização

Definição do Escopo Nova Modelagem

Validação do Modelo FinalPrimeira Modelagem

Validação do Modelo e Ajustes de Parâmetros

Implantação

Metodologia de Modelagem de Tópicos

Page 4: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Abordagem Supervisionda - LDA

Page 5: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Distribuição dentro do Tópico

Page 6: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Primeiros Testes: 50 tópicos Todas as palavras Todos os dados Testes por estados

Resultados: Tópicos com muita proximidade, sobrepostos, palavras desnecessárias.

LDA – Modelagem de Tópicos

Page 7: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

• Ajuste de parâmetros em conjunto em conjunto com especialistas: Exclusão das palavras desnecessárias.

Validação das quantidades de tópicos

• Tópicos: 15,10,7,6,5,4

• Melhor resultado: 5 tópicos

Novos Testes

Page 8: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Melhor Resultado LDA: 5 Tópicos

Page 9: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados
Page 10: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados
Page 11: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados
Page 12: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Aprendizagem Supervisionada

• Classificação manual de 300 constatações

• Random Forest

• Acurácia: 73%

Page 13: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Aprendizagem Supervisionada

 Classe de Constatação Quantidade de registros na amostra

Planejamento e Gestão de TI 104

Contratos em geral 72

Política de Pessoal 42

Política de Segurança da Informação 41

Desenvolvimento e Manutenção de Software 31

Não especificado 26

Controles Internos 10

Contrato de mão-de-obra 9

Total 335

Page 14: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

LDA (não supervisionada) X Classificação (supervisionada)

Page 15: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Conclusões

• Parceria com Especialistas

• Modelo não supervisionado – LDA

• Aplicado em novos contextos:Recursos ExternosSaúdeBolsa Família

Page 16: Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Categorização de achados em auditorias de TI com modelos supervisionados e não

supervisionados