aplicação de técnicas de mineração de textos para classificação automática de denúncias: um...

Post on 08-Jan-2017

602 Views

Category:

Government & Nonprofit

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Uso de Técnicas de Mineração de Textos

Aplicado à triagem automática de denúncias

TEXT MINING

TRIAGEM DE DENÚNCIAS DA

CGU

Denúncia: comunicação de prática de

ato ilícito cuja solução dependa da

atuação de órgão de controle interno

ou externo.

Habilitadas

Inabilitadas

Denúncias

PROTOCOLO

Ouvidoria (35 mil)

Lixo Eletrônico (17 mil )

Fluxo da Triagem de Denúncias

DSSAU

DSEDU

DRDAG

91

diferentes

áreas da

CGU

. . .

Dados

insuficientes

Não é

competência CGU

Já foi

Ficalizada

Arquivadas . . .

Exemplo de Texto de Denúncia com

Erros de Ortografia

Exemplo de Lixo Eletrônico

Porque a triagem manual é um problema?

O estoque de denúncias aumenta a cada dia

Poucos servidores

Processo de triagem baseado em palavras chaves

Denúncia é feita com campo texto em formato livre

91 áreas da CGU para as quais as denúncias devem

ser encaminhadas

Objetivo

Propor um modelo de triagem

eletrônica baseada em mineração de

textos e aprendizagem de máquina.

Proposta de triagem eletrônica

Denúncias

PROTOCOLOo

Triagem eletrônica

Lixo Eletrônico

DSSAU

DSEDU

DRDAG

91 diferentes

áreas da

CGU . . .

Arquivadas

Elimina similares

Dados

insuficientes

Não é competência

CGU

Já foi

Ficalizada

. . .

Denúncias Repetidas – como tratar?

Similaridades de cossenos: encontra semelhanças através dos

cossenos do ângulo formado entre 2 vetores.

Valida antes da triagem.

1 = denúncias idênticas!

Proposta de triagem eletrônica

Denúncias

PROTOCOLOo

Triagem eletrônica

Lixo Eletrônico

DSSAU

DSEDU

DRDAG

91 diferentes

áreas da

CGU . . .

Arquivadas

Elimina similares

Dados

insuficientes

Não é competência

CGU

Já foi

Ficalizada

. . .

Matriz termo documento

Remoção de StopWords

Remoção de Pontuação,

números e espaços

Conversão de letras

Maiúsculas para minúsculas

Uso de stemming

Base de dados

Denúncia

denunc escolc fraud ...

1 1 0 0

1 0 1 0

Classificador

Resultados

• POC com 4 categorias

• Precisão de 0.82

• 58 categorias – precisão de 0.554

Classificação multi-label

Resultados

Conclusões

- POC com 58 categorias (unidades da CGU) e cerca

de 40 mil denúncias

- Identificação automática de denúncias similares

- A triagem pode ser feita de forma automática, em

menor tempo e sem perda de qualidade!

- Triagem pode indicar mais de uma unidade da CGU

- O processo é escalável e pode triar maior volume de

denúncias e menor tempo

patricia.maia@cgu.gov.br

Artigo ENIAC 2014: Application of text mining techniques

for classification of documents: a study of automation of

complaints screening in a Brazilian Federal Agency http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf

Obrigada!

top related