mineração de textos luis paulo vieira braga, d.sc., mba. [email protected] c.p. 2386 20.001-970...

42
Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. [email protected] http://www.dme.im.ufrj.br/ braga.html c.p. 2386 20.001-970 Rio de Janeiro, R.J.

Upload: internet

Post on 16-Apr-2015

106 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Textos

Luis Paulo Vieira Braga, D.Sc., Mba.

[email protected]

http://www.dme.im.ufrj.br/braga.html

c.p. 2386

20.001-970 Rio de Janeiro, R.J.

Page 2: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de dados

• Mineração de dados• O que é ?• Metodologia básica• Mineração de textos• Para que serve• Como é feita• Exemplos

Page 3: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de dados

• O que é:• A mineração de dados é uma metodologia

para predição e classificação em grandes massas de dados observacionais, sem a tendenciosidade e a limitação de uma análise baseada exclusivamente na experiência do especialista.

Page 4: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

• Armazém de dados• Seleção dos dados de

interesse• Pré-processamento• Transformações

matemáticas• Classificação ou

Previsão

Page 5: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

Page 6: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

Page 7: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

Page 8: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

Page 9: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

• Classificação Não-Supervisionada: Tem por objetivo a separação das observações em sub-grupos ou classes. Segmentação é a criação de classes.

Page 10: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

5 4 3 2 1

A B C D E

Page 11: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

• Classificação Supervisionada: Determinar uma regra que possa ser usada para classificar, de forma otimizada, uma nova observação a uma classe já rotulada.

Page 12: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

1. Problema: identificar clientes que se interessariam em comprar CDB´s.

2. Dados: amostra de 150.000 clientes dos quais se mediram os seguintes atributos: idade, renda, variáveis demográficas, lucratividade, nível do depósito, freqüência de investimentos, ocasião das aplicações entre outras.

3. Extração de características : considerar apenas os atributos relacionados à recência, freqüência e fator monetário.

4. Modelo : Árvore de decisão

Page 13: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

5. Avaliação: A árvore explicou 80% do comportamento dos clientes

6. Implementação: Baseado na árvore foram enviados convites para parte da totalidade dos clientes do Banco propondo a aplicação em CDB´s

7. Retorno do Investimento: Gastou-se 30% a menos em divulgação porque ao contrário de outras promoções o contato só foi feito com parte dos clientes. A resposta foi 50% melhor do que em promoções anteriores.

Page 14: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

Sexo:

1 (H=1 e M=0)

Renda:

2000

Idade:

18 3 Tops

3 Standards 3 Tops 2 Standards 1 Standard 1 Standard , 2 Tops 1 Top 1 Standard 2 Tops

3

7 6

5 4

2

1

Page 15: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

• Análise de Associação: Determinar uma associação significativa entre diferentes observações.

Page 16: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

Caminhos mais percorridos % do total

1 http://www.rocknet.com.br/index.html 49,02 2 http://www.rocknet.com.br/index.html

http://www.rocknet.com.br/conectar.html 8,17

3 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/news.html

5,87

4 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/como.html

1,10

5 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/como.html http://www.rocknet.com.br/instalando.html

0,88

total 65,06 Fonte: Construção de Websites comerciais, André Valle, FGV-EPGE

Page 17: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de Dados

• Predição: Prever o valor de um atributo em função das observações de outros atributos.

Page 18: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• O objetivo da Mineração de Textos é o processamento de informação textual, extraindo índices numéricos significativos a partir do texto e então tornar esta informação acessível para os programas disponíveis nos sistemas de mineração de dados.

Page 19: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Podem ser analisadas palavras, agrupamentos de palavras, ou mesmo documentos entre si através das suas similaridades ou de suas relações com outras variáveis de interesse num projeto de mineração de textos.

Page 20: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• O objetivo na fase inicial do projeto é “transformar textos em números (índices significativos” , que podem então ser incorporados em outras análises tais como classificação supervisionada ou não supervisionada.

Page 21: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Algumas aplicações típicas para mineração de textos:

• Análise de questões abertas em questionários.

• Processamento automático de mensagens, “e-mails”, etc...

• Busca de referências em uma coleção de artigos, motores de busca.

Page 22: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Mais apropriado para um grande número de textos de tamanho médio ou pequeno.

• Não deve ser tratado como uma caixa preta. A intervenção do analista é necessária.

• Soluções não podem ser importadas de outra língua.

Page 23: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Etapas em um Projeto de Mineração de Textos:• Entrada dos textos

• Pré-processamento

• Cálculo de frequências

• Indexação Semântica

• Visualização

• Classificação Não Supervisionada(“clustering”)

• Classificação Supervisionada (“preditive data mining”)

Page 24: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Entrada dos textosm1Academia de Desenvolvimento Profissional e Organizacional Como evitar riscos com a TERCEIRIZAÇÃO 24 e 25 de Outubro de 2007 Elegemos uma equipe de profissionais capacitados para debater sobreos aspectosestratégicos, legais e burocráticos da terceirização. Saiba como sua empresa pode obter maior produtividade, com menorrisco além de altos níveis de competitividade com a Terceirização. Serão abordados, entre outros, temas como: Como identificar uma terceirização ilícita A competitividade através do outsourcing A visão do judiciário com relação ao trabalho terceirizado Prevenindo riscos trabalhistas decorrentes da terceirização Como minimizar riscos na contratação e gestão de prestação de serviços de terceiros Participação Especial: GRAN SAPORE BRASIL SACSN – COMPANHIA SIDERURGICA NACIONALADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E MARKETING DO BRASIL SOLICITE PROGRAMAÇÃO COMPLETA! Informe-se por e-mailou ligue 11 3031-6777 Se deseja excluir seu email de nosso mailing, CLIQUE AQUI

Page 25: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Entrada dos textos

m2Visitar Bordeaux, uma das regiões vinícolas mais importantes do mundo, já é um privilégio. Imagine ter a honra de participar de uma degustação com o Sommelier pessoal da Baronesa Philippine de Rothschild ,tendo como pano de fundo o lendário Château Mouton Rothschild.

Quer visitar um dos maiores museus da história do vinho e jantar no restaurante Saint Julien?Participando desta promoção você ganha cupons para concorrer a esta mágica viagem, com direito a acompanhante.Acompanhe o roteiro da viagem: Dia 1: Viagem a Paris Dia 2: Trem TGV com destino a Bordeaux. Dia 3: Visita ao Chatêau Mouton Rothschild Visita ao Museu, caves e salas de barricas; Degustação com o sommelier pessoal da Baronesa Philippina Almoço no Restaurante Saint Julien Dia4: Visita a Saint Emillion Dia5: Retorno a Paris / Brasil.

Page 26: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Entrada dos textosm3Cursos via InternetCalendario de cursos de Outubro de 2007 Curso Básico de Segurança em Instalações e Serviços em Eletricidade - NR 10De: 20/10/2007 à 18/12/2007Eletricistas, Eletrotécnicos, Operadores, Técnicos, Supervisores, Auxiliares de Manutenção, Mecânicos de Refrigeração, Engenheiros, Gerentes de Construção, Operação e Manutenção; Membros da CIPA, Técnicos e Engenheiros de Segurança e outros interessados responsáveis pela área elétrica e de segurança das instituições em geral. Proteger os trabalhadores que interagem com instalações elétricas, inclusive os que atuam em suas proximidades para fins de ...Saiba mais... Acompanhamento Os participantes terão o acompanhamento do engenheiro de segurança do trabalho habilitado, Sr. Benedito Lázaro Belut, durante todo o curso, para dirimir suas dúvidas.

Formação do Tutor:

ENGENHARIA DE AVALIAÇÕES - 2000 ENGENHARIA DE SEGURANÇA DO TRABALHO - 1995 ENGENHARIA ELÉTRICA UNESP – (FUNDAÇÃO EDUCACIONAL) – BAURU/SP - 1983 TECNOLOGIA DE SISTEMAS ELÉTRICOS – FUNDAÇÃO EDUCACIONAL – BAURU/SP - 1980 TÉCNICO ELETROTÉCNICA / COLÉGIO TÉCNICO INDUSTRIAL DE BOTUCATU/SP – 1976 37 Cursos de atualização áreas de: Elétrica, Informática, Segurança, Qualidade e Gestão. Investimento de R$ 666,00 por R$ 499,00 (quatrocentos e noventa e nove reais ).

Page 27: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Textos agrupados em uma planilha

1URLs

2Root

3ReferencePage

12345678

C:\Documents and Settings\Owner\My Documents\letras\m1.txtC:\Documents and Settings\Owner\My Documents\letras\m2.txtC:\Documents and Settings\Owner\My Documents\letras\m3.txtC:\Documents and Settings\Owner\My Documents\letras\m4.txtC:\Documents and Settings\Owner\My Documents\letras\m5.txtC:\Documents and Settings\Owner\My Documents\letras\m6.txtC:\Documents and Settings\Owner\My Documents\letras\m7.txtC:\Documents and Settings\Owner\My Documents\letras\m8.txt

Page 28: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Pré-processamento:• 1) Exclusão de palavras e números, baseada no

tamanho, nas letras inicial e final ou outros critérios.• 2) Manutenção ou exclusão de palavras baseada em

uma lista previamente definida.• 3) Identificação de sinônimos e antônimos.• 4) Determinação de radicais

Page 29: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Pré-processamento:• 1) Exclusão de palavras e números, baseada no

tamanho, nas letras inicial e final ou outros critérios.

Caracteres válidos: letras latinas e algarismos arábicos

Tamanho mínimo da palavra, tamanho máximo, número máximo de consoantes, etc...

Page 30: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Pré-processamento:• 2) Manutenção de palavras (lista de inclusão) e

eliminação de palavras (lista de exclusão). Há também uma lista de “multipalavras” para inclusão.

Lista de inclusão: curso, treinamento, atualização, especialização...

Lista de exclusão: o, de, para, até, ser, estarei, estarei, ter, haver...

Lista de multipalavras: estado da arte, mineração de dados...

Page 31: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Pré-processamento:• 3) Identificação de sinônimos e antônimos.

Lista de sinônimos: profissional=técnico=executivo=empregado

Lista de antônimos: junior x senior

Page 32: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Pré-processamento:• 4) Determinação de radicais

Lista de radicais: arquia- autarquia, monarquia

Page 33: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Cálculo de frequências:• 1) Log-frequências• 2) Frequências binárias• 3) Frequências relativas a

textos• 4) Frequências de palavras• 5) Frequências inversas

Page 34: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

1desenvolvimentoprofissional

2curso

3professor

4engenharia

5programas

6tecnologia

7vendas

8viagem

12345678

1 0 0 0 0 0 1 00 0 0 0 0 0 0 10 1 0 1 0 1 0 00 0 0 0 0 0 0 00 0 0 0 1 0 0 01 1 0 0 0 0 0 01 1 0 0 0 0 0 00 0 1 0 0 0 0 0

• Cálculo de frequências:• 2) Frequências binárias

Page 35: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Indexação Semântica:• Decomposição em Valores

Singulares

Page 36: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Decomposição em Valores Singulares

SVD Word importance (Spreadsheet21 in binario)Importance

cursodesenvolvimentodesenvolvimento profissionalengenhariaprofessorprofissionalprogramastecnologiavendasviagem

99,0760100,0000100,000056,119450,7966100,000060,736056,119450,966170,8412

Page 37: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Decomposição em Valores Singulares

Singular v alues

0 1 2 3 4 5 6 7

Component

5

10

15

20

25

30

35

40

Sin

gula

r va

lue

% e

xpla

ined

Page 38: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

• Classificação Não Supervisionada

Cluster members (binario)Number of clusters: 2Total number of training cases: 8

Case No.Final

classificationdesenvolvimentoprofissional

cursoprofessorengenhariaprogramastecnologiavendasviagemDistance tocentroid

12345678

1 1 0 0 0 0 0 1 02,0000002 0 0 0 0 0 0 0 12,0000002 0 1 0 1 0 1 0 00,0000002 0 0 0 0 0 0 0 01,7320512 0 0 0 0 1 0 0 02,0000002 1 1 0 0 0 0 0 01,7320512 1 1 0 0 0 0 0 01,7320512 0 0 1 0 0 0 0 02,000000

Page 39: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

Academia de Desenvolvimento Profissional e Organizacional Como evitar riscos com a TERCEIRIZAÇÃO 24 e 25 de Outubro de 2007 Elegemos uma equipe de profissionais capacitados para debater sobreos aspectosestratégicos, legais e burocráticos da terceirização. Saiba como sua empresa pode obter maior produtividade, com menorrisco além de altos níveis de competitividade com a Terceirização. Serão abordados, entre outros, temas como: Como identificar uma terceirização ilícita A competitividade através do outsourcing A visão do judiciário com relação ao trabalho terceirizado Prevenindo riscos trabalhistas decorrentes da terceirização Como minimizar riscos na contratação e gestão de prestação de serviços de terceiros Participação Especial: GRAN SAPORE BRASIL SACSN – COMPANHIA SIDERURGICA NACIONALADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E MARKETING DO BRASIL SOLICITE PROGRAMAÇÃO COMPLETA! Informe-se por e-mailou ligue 11 3031-6777 Se deseja excluir seu email de nosso mailing, CLIQUE AQUI

Page 40: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

f1: deposit the cash and check in the bankf2: the river boat is on the bankf3: borrow based on creditf4: river boat floats up the riverf5: boat is by the dock near the bankf6: with credit, I can borrow cash from the bankf7: boat floats by dock near the river bankf8: check the parade route to see the floatsf9: along the parade route

Page 41: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

1the

2cash

3check

4bank

5river

6boat

7be

8on

9borrow

10credit

11float

12by

13dock

14near

15parade

16route

17paraderoute

123456789

2 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 02 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 01 0 0 0 2 1 0 0 0 0 1 0 0 0 0 0 02 0 0 1 0 1 1 0 0 0 0 1 1 1 0 0 01 1 0 1 0 0 0 0 1 1 0 0 0 0 0 0 01 0 0 1 1 1 0 0 0 0 1 1 1 1 0 0 02 0 1 0 0 0 0 0 0 0 1 0 0 0 1 1 11 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1

1-2 do que 1-3

Page 42: Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. lpbraga@im.ufrj.br  c.p. 2386 20.001-970 Rio de Janeiro, R.J

Mineração de textos

Projec tion of the c as es on the f ac tor-plane ( 1 x 2)

Cas es w ith s um of c os ine s quare >= 0,00

A c tiv e

1 2

3

4 5

6

7

8

9

-5 -4 -3 -2 -1 0 1 2 3 4 5 6

Fac tor 1: 32,49%

-5

-4

-3

-2

-1

0

1

2

3

4

5

Fac

tor

2: 2

5,10

%