aplicação de técnicas de mineração de textos para classificação automática de denúncias: um...

17
Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias

Upload: rommel-carvalho

Post on 08-Jan-2017

602 views

Category:

Government & Nonprofit


3 download

TRANSCRIPT

Page 1: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Uso de Técnicas de Mineração de Textos

Aplicado à triagem automática de denúncias

Page 2: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

TEXT MINING

Page 3: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

TRIAGEM DE DENÚNCIAS DA

CGU

Denúncia: comunicação de prática de

ato ilícito cuja solução dependa da

atuação de órgão de controle interno

ou externo.

Page 4: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Habilitadas

Inabilitadas

Denúncias

PROTOCOLO

Ouvidoria (35 mil)

Lixo Eletrônico (17 mil )

Fluxo da Triagem de Denúncias

DSSAU

DSEDU

DRDAG

91

diferentes

áreas da

CGU

. . .

Dados

insuficientes

Não é

competência CGU

Já foi

Ficalizada

Arquivadas . . .

Page 5: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Exemplo de Texto de Denúncia com

Erros de Ortografia

Page 6: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Exemplo de Lixo Eletrônico

Page 7: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Porque a triagem manual é um problema?

O estoque de denúncias aumenta a cada dia

Poucos servidores

Processo de triagem baseado em palavras chaves

Denúncia é feita com campo texto em formato livre

91 áreas da CGU para as quais as denúncias devem

ser encaminhadas

Page 8: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Objetivo

Propor um modelo de triagem

eletrônica baseada em mineração de

textos e aprendizagem de máquina.

Page 9: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Proposta de triagem eletrônica

Denúncias

PROTOCOLOo

Triagem eletrônica

Lixo Eletrônico

DSSAU

DSEDU

DRDAG

91 diferentes

áreas da

CGU . . .

Arquivadas

Elimina similares

Dados

insuficientes

Não é competência

CGU

Já foi

Ficalizada

. . .

Page 10: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Denúncias Repetidas – como tratar?

Similaridades de cossenos: encontra semelhanças através dos

cossenos do ângulo formado entre 2 vetores.

Valida antes da triagem.

1 = denúncias idênticas!

Page 11: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Proposta de triagem eletrônica

Denúncias

PROTOCOLOo

Triagem eletrônica

Lixo Eletrônico

DSSAU

DSEDU

DRDAG

91 diferentes

áreas da

CGU . . .

Arquivadas

Elimina similares

Dados

insuficientes

Não é competência

CGU

Já foi

Ficalizada

. . .

Page 12: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Matriz termo documento

Remoção de StopWords

Remoção de Pontuação,

números e espaços

Conversão de letras

Maiúsculas para minúsculas

Uso de stemming

Base de dados

Denúncia

denunc escolc fraud ...

1 1 0 0

1 0 1 0

Classificador

Page 13: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU
Page 14: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Resultados

• POC com 4 categorias

• Precisão de 0.82

• 58 categorias – precisão de 0.554

Page 15: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Classificação multi-label

Resultados

Page 16: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Conclusões

- POC com 58 categorias (unidades da CGU) e cerca

de 40 mil denúncias

- Identificação automática de denúncias similares

- A triagem pode ser feita de forma automática, em

menor tempo e sem perda de qualidade!

- Triagem pode indicar mais de uma unidade da CGU

- O processo é escalável e pode triar maior volume de

denúncias e menor tempo

Page 17: Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

[email protected]

Artigo ENIAC 2014: Application of text mining techniques

for classification of documents: a study of automation of

complaints screening in a Brazilian Federal Agency http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf

Obrigada!