extração de informação ana carolina do amaral marcílio josé a. gomes filho rodrigo c. mendes...

38
Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Upload: anderson-garrido-bras

Post on 07-Apr-2016

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informação

Ana Carolina do AmaralMarcílio José A. Gomes Filho

Rodrigo C. MendesFlávia Barros

Page 2: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Roteiro

IntroduçãoMotivaçãoUm pouco de HistóriaProcesso de ExtraçãoConceitosWrappersAplicaçõesReferências

Page 3: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Motivação

O volume de informação vem aumentado consideravelmente, principalmente com o advento da internet.

Como conseguir extrair informação relevante de tantos artefatos digitais?

Page 4: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Motivação

O Problema:Documentos em sua maioria não

estruturados ou semi-estruturados. (Internet - WEB)

Migração de dados entre interfaces diferentes. (WebServices – Banco de Dados)

Page 5: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Motivação

O que queremos: responder a consultas de usuários gerar resumos do texto original preencher bancos de dados preencher bases de conhecimento mineração de dados sumarizar textos ...

Page 6: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Processo de Extração

Trata o problema da extração de dados relevantes a partir de uma coleção de documentos [Mus99]

Os dados a serem extraídos são previamente definidos em um template (formulário)

Sistema p/ EI

BD

Item1:Item2:Item3:Item4:Item5:

Template

BC

Page 7: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Um pouco de História

MUC-Message Understanding Conference [final da década de 80]Uso de técnicas de PLN (Processamento

de Linguagem Natural)

Internet/Web [década de 90]Desenvolvimento de wrappers

Page 8: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Conceitos

Sistemas baseados em PLN Processamento de Linguagem Natural. Criados para extrair informação a partir de

textos livres (sem estruturação). Wrappers

Crescimento da Web a partir dos anos 1990. Incapacidade dos sistemas anteriores para

extrair informações de seus textos, motivou a criação de sistemas específicos para esse domínio.

Page 9: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Conceitos

Quadro Comparativo Wrappers Sistemas de EI baseados

em PLNMotivação Principalmente, extrair informações

das diversas fontes na Web.Extrair informações de textos em linguagem natural.

Tipos de texto Geralmente estruturados e semi-estruturados, mas também textos livres, em alguns casos.

Apenas texto livre.

Padrões usados para extração

Informações de formatação do texto, marcadores presentes nos documentos, freqüência estatística das palavras e, em alguns casos, PLN.

Padrões lingüísticos baseados em PLN (uso intenso de PLN).

Page 10: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Conceitos

Tipos de Texto Estruturado - segue um formato predefinido e

rígido.

Page 11: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Conceitos

Tipos de Texto Não estruturado (Livre) - Não apresentam

nenhuma estrutura regular e as informações apresentam-se como sentenças livres, escritas em alguma língua natural.

Page 12: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Conceitos

Tipos de Texto Semi-estruturado - Não possuem uma

formatação rígida, permitindo, por exemplo, a ocorrência de variações na ordem dos dados. Em geral, não respeitam rigidamente a gramática da língua natural, e podem possuir muitas palavras abreviadas.

M. E. Califf & R. J. Mooney. (1999). Relational learning of pattern-match rules for information extraction. In Proceedings of the Sixteenth National Conference on Artificial Intelligence, pp. 328--334 Orlando, FL.

Page 13: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Conceitos

Tipos de Wrappers Singleshot - são aqueles que extraem do

documento de entrada apenas dados isolados, ou seja, eles não são capazes de ligar uma instância de um campo (slot) do formulário de saída a uma instância de outro campo.

Multishot - são aqueles capazes de extrair do documento de entrada os dados relacionados entre si, ou seja eles são capazes de ligar as instancias de diferentes campos.

Page 14: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Conceitos

Tipos de Wrappers – Exemplo:C a p ito l H il l 1 b r tw n h m e . F p lc D /W W /D .U n d rg rn d p k g in c l $ 6 7 5 . 3 B R , u p p e r f lr o f tu rn o f c t ry H O M E . in c l g a r,g r t N . H ill lo c $ 9 9 5 . (2 0 6 ) 9 9 9 -9 9 9 9 < b r>< i> < fo n t s iz e = 2 > (T h is a d la s t ra n o n 0 8 /0 3 /9 7 .)< /fo n t> < /i> < h r>

b a ir ro : C ap ito l H i llq u a r to s : 1p re ç o : 6 7 5

b a ir ro : C ap ito l H illb a ir ro : C ap ito l H illq u a r to s: 1q u a r to s: 3p re ç o : 6 7 5p re ç o : 9 9 5

b a ir ro : C ap ito l H i llq u a r to s : 3p re ç o : 9 9 5

Fo rm ulá rio Pre e nc h id o Fo rm ulá rio Pre e nc h id o

siste m a m ulti-slo t siste m a sing le -slo t

Page 15: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Sistemas baseados em PLN

Precisam de um pré-processamento lingüístico para a realização da extraçãoClasses sintáticas e semânticas das

palavrasAlgumas vezes é impossível fazer este pré-

processamento (Informal Domains)Web!

Page 16: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers

A princípio não eram capazes de tratar textos livres

Recentemente, tornaram-se mais poderosos fazem uso das informações de formatação

e também das características lingüísticas

Page 17: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers

Técnicas para extração de informaçãopreencherFormulario(documento) =

fomularioPreenchidoDeterminam as regras de extraçãoAutômatos finitos, casamento de padrões,

classificadores de texto e modelos de Markov escondidos

Page 18: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Autômatos finitos

Definição (S, Σ,T,s0,F)

S é um conjunto finito de estados Σ é um alfabeto finito de símbolos de entrada T é a função de transição (T : S × Σ -> S) s0 S é o estado inicial F S é o conjunto de estados finais

Excelentes em textos estruturados Podem ser definidos manualmente ou ser

aprendidos automaticamente

Page 19: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Autômatos finitos

TiposAcceptors: apenas um estado inicial,

resposta é sim ou nãoFiltragem e existência do dado

Recognizers: um ou mais estados finais. Categorização!

Transducers: geram um conjunto de símbolos de saída para a entrada

Page 20: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Autômatos finitos

Exemplo<LI> <A HREF="…"> Mani Chandy </A>, <I>Professor of Computer

Science</I> and <I>Executive Officer for Computer Science</I>…<LI> Fred Thompson, <I>Professor Emeritus of Applied Philosophy and

Computer Science</I>

b

U_U

N_N

? / å etc.

? / å

? / å

? / next_token

? / next_token

Key• ? : wildcard• U : state to extract URL• U : state to skip over tokens

until we reach N• N : state to extract Name• N : state to skip over tokens

until we reach A• s<X,Y> : separator rule for

the separator ofstates X and Y

• etc.

Key• ? : wildcard• U : state to extract URL• U : state to skip over tokens

until we reach N• N : state to extract Name• N : state to skip over tokens

until we reach A• s<X,Y> : separator rule for

the separator ofstates X and Y

• etc.

s<U,U> / ås<U,U> / å

s<b,U> /“U=”+ next_token

s<N,N> / ås<N,N> / ås<b,N> /“N=”+ next_token

s<U,N> /“N=”+ next_tokens<U,N> /“N=”+ next_token

Page 21: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Autômatos finitos

Devemos definirOs estados que deverão “aceitar” os

símbolos a serem extraídos para preencher o formulário de saída

Os estados que irão apenas consumir os símbolos irrelevantes encontrados no documento

Os símbolos do documento de entrada que provocaram a transição de um estado para outro

Page 22: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Casamento de padrões

Padrões podem ser descritos através de expressões regulares ou em uma linguagem específica ao sistema de EI

O processo de extração se dá quando se realiza o casamento dos padrões definidos com o texto de entrada

Page 23: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Casamento de padrões

Trata textos estruturados, semi-estruturados e livres

Expressões regulares são mais intuitivas do que autômatosRealizam extração multi-slot

Page 24: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers - Classificação

Classifica(fragmentoTexto) = [escore campo 1, ..., escore campo n]

Limitações:Criação dos fragmentosClassificam cada fragmento de forma

independente => ótima localmente, mas nada garante que seja ótima também globalmente

Page 25: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers - ClassificaçãoB. Tho m a s, An ti-Un ific a tio n Ba se d Le a rn ing o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AA AI-99 Wo rksho p o n M a c hine Le a rn ing fo r In fo rm a tio n Extra c tio n, 19 99 .

B. Tho m a s, An ti-Un ific a tio n Ba se d Le a rn ing o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AA AI-99 Wo rksho p o n M a c hine Le a rn ing fo r In fo rm a tio n Extra c tio n, 19 99 .

d ivisã o e m fra g m e nto s

c la ssific a ç ã o

e xtra ç ã o d e c a ra c te rístic a s

fra g m e nto 1

fra g m e nto 1

fra g m e nto 2

fra g m e nto 2

fra g m e nto 3

fra g m e nto 3

fra g m e nto 4

fra g m e nto 4130

10

041

20

152

13

2325

a uto r títu lo c o nfe rê nc ia d a ta

Page 26: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Modelos de Markov escondidos

Exploram a ocorrência dos padrões em seqüência no texto de entrada para classificá-los de uma só vezMaximiza a probabilidade de acerto para

todo o conjunto de padrões

Page 27: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Modelos de Markov escondidos

Modelos de Markov - definiçãoConjunto de estados S Probabilidade a priori (s) para os estados s

S Probabilidade de transição Pr[s’/s] do

estado s S para o estado s’ S S = {ensolarado, chuvoso, nublado} (nublado) Pr[chuvoso/ensolarado]

Page 28: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Modelos de Markov escondidos

Estados ocultos É possível observar os símbolos (estados visíveis)

emitidos pelos estados escondidos A cada estado oculto, é associada uma das

classes a serem extraídas Cada estado oculto emite tokens de acordo

com a probabilidade de pertencer à classe associada ao estado

Criado o modelo, pode-se utilizar o algoritmo Viterbi para decodificar uma entrada e determinar os estados ocultos associados

Page 29: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Wrappers – Modelos de Markov escondidos

B. Tho m a s, An ti-Un ific a tio n Ba se d Le a rn ing o f T-Wra p p e rs fo r In fo rm a tio n Extra c tio n, In Pro c . AAA I-99 Wo rksho p o n

B. | Tho m a s | , | Anti-Un ific a tio n | Ba se d | Le a rn ing | o f | T-Wra p p e rs | fo r | In fo rm a tio n | Extra c tio n | , | In | Pro c . | AAA I-99 | Wo rksho p | o n | M a c h ine | Le a rn ing |

B.= a uto r | Tho m a s = a uto r| ,= o utro | Anti-Unific a tio n = títu lo | Ba se d = título | Le a rning = títu lo | o f = títu lo | T-Wra p p e rs = título | fo r = títu lo | Info rm a tio n = títu lo | Extra c tio n = títu lo | , = o utro | In = c onfe rê nc ia | Pro c . = c o nfe rê nc ia | AAAI-99 = c o nfe rê nc ia | Wo rksho p = c o nfe rê nc ia | o n = c o nfe rê nc ia | M a c hine = c o nfe rê nc ia | Le a rning = c o nfe rê nc ia | fo r = c o nfe rê nc ia | Info rm a tio n = c onfe rê nc ia | Extra c tion = c o nfe rê nc ia | , = o utro | 1999. = d a ta

a u to r

o u tro sS0

títu lo

d a ta

0 ,2

0 ,80 ,2

0 ,50 ,5

0 ,50 ,50 ,5

0 ,5

0 ,5

0 ,1

0 ,5

0 ,2

Alg o ritm o Vite rb iHM M

Page 30: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informação em DocumentosPalavras-chave

IndexaçãoCatalogação

Empresa do Rio de Janeiro com mais de 12 anos de experiênciaem Gerenciamento Eletrônico de Documentos.

Aplicações de RI

Page 31: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informação em DocumentosConteúdo

Análise EstruturalAnálise Semântica

Empresa portuguesa responsável por 3,4% do PIB de Portugal.

Aplicações de RI

Page 32: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informação em DocumentosAnálise do Código Fonte de Aplicações

Uso de PadrõesQualidade do Código

Empresa de Curitiba, oferece sistemas de análise do código fonteem diversas linguagens.

Aplicações de RI

Page 33: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informação na WEBFiltragem de Fóruns

Controle do ConteúdoAssunto dos Diálogos

Empresa de São Paulo com mais de 20 anos de mercado. Oferecesoluções para e-learning.

Aplicações de RI

Page 34: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informação na WEBMonitoramento da WEB

Busca por HackersBusca por Terroristas

Empresa mundialmente reconhecida, presente no Brasil há 10 anos,oferecendo soluções nas áreas de segurança web e redes.

Aplicações de RI

Page 35: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informações EstratégicasBusiness Intelligence

Análise de MercadoMelhoria de Processos

Empresa brasileira que oferece soluções na área de BI.

Aplicações de RI

Page 36: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informações EstratégicasAnálises Biológicas de Dados

Regiões Codificantes (DNA)Regiões Ativas (Proteínas)

National Center for Biotechnology Information, criado em 1988, localizadonos Estados Unidos. É a principal fonte de informações sobre Genômicana Internet.

Aplicações de RI

Page 37: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informações EstratégicasAnálises de Arquivos de LOG

Logs de ErroLogs de Acesso

Empresa mundialmente reconhecida, com mais de 25 anos, oferecesoluções para a análise de logs de erro e acesso a bancos de dados.

Aplicações de RI

Page 38: Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filho Rodrigo C. Mendes Flávia Barros

Extração de Informações EstratégicasAnálises de Imagens

GeologiaClimatologiaAstrologia

Empresa brasileira com 10 anos de mercado, oferece soluções paraanálise e classificação de imagens.

Aplicações de RI