categorização de achados em auditorias de ti com modelos supervisionados e não supervisionados

Post on 08-Jan-2017

77 Views

Category:

Government & Nonprofit

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Categorização de achados em auditorias de TI com modelos supervisionados e não

supervisionados

DesafioDescobrir os assuntos mais recorrentes em auditorias

Abordagens:Classificação - supervisionadaModelagem de Tópicos – não supervisionada

Dados: Textos de constatações

Auditorias de TI

R Studio

Entendimento dos dados1) Identificação da origem

dos dados2) Identificação do formato

Pré-Processamento

Remoção de Acentuação

Criação do Corpus

Tratamento do Texto

Tokenização

Definição do Escopo Nova Modelagem

Validação do Modelo FinalPrimeira Modelagem

Validação do Modelo e Ajustes de Parâmetros

Implantação

Metodologia de Modelagem de Tópicos

Abordagem Supervisionda - LDA

Distribuição dentro do Tópico

Primeiros Testes: 50 tópicos Todas as palavras Todos os dados Testes por estados

Resultados: Tópicos com muita proximidade, sobrepostos, palavras desnecessárias.

LDA – Modelagem de Tópicos

• Ajuste de parâmetros em conjunto em conjunto com especialistas: Exclusão das palavras desnecessárias.

Validação das quantidades de tópicos

• Tópicos: 15,10,7,6,5,4

• Melhor resultado: 5 tópicos

Novos Testes

Melhor Resultado LDA: 5 Tópicos

Aprendizagem Supervisionada

• Classificação manual de 300 constatações

• Random Forest

• Acurácia: 73%

Aprendizagem Supervisionada

 Classe de Constatação Quantidade de registros na amostra

Planejamento e Gestão de TI 104

Contratos em geral 72

Política de Pessoal 42

Política de Segurança da Informação 41

Desenvolvimento e Manutenção de Software 31

Não especificado 26

Controles Internos 10

Contrato de mão-de-obra 9

Total 335

LDA (não supervisionada) X Classificação (supervisionada)

Conclusões

• Parceria com Especialistas

• Modelo não supervisionado – LDA

• Aplicado em novos contextos:Recursos ExternosSaúdeBolsa Família

Categorização de achados em auditorias de TI com modelos supervisionados e não

supervisionados

top related