2 sistemas de ri selecionam termos de indexação para o processamento de consultas termo de...

28

Upload: internet

Post on 17-Apr-2015

109 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop
Page 2: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

2

Sistemas de RI selecionam termos de indexação para o processamento de consultas

Termo de indexação:– Qualquer palavra (mais geral)– Retirada de stop words– Contagem do número de ocorrências de um termo– Um termo é um item lexical arbitrariamente delimitado

• seqüência de símbolos de tamanho fixo (n-grama)• palavra (delimitada por espaço ou pontuação)• lema• expressões

Lematização: conectar: conectando, conecção, conecções

Um arquivo invertido é construído com os termos escolhidos

Recuperação de Informações

Page 3: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

3

Indexação

Diego conversa com Analy, Fani e Flávia à beira da piscina. Eles falam por alto sobre o paredão na casa. "Eu gosto daquela frase do Airton. Prego que se destaca recebe martelada. Já me martelaram bem, mas ainda não estou todo enfiado na madeira".

Diego, Flavinha e Fani aproveitam o sol na piscina, entregues às gargalhadas múltiplas. O momento é de descontração para os emparedados, que afastam com alegria o paredão que os aguarda amanhã.

Page 4: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

4

Indexação

Diego conversa com Analy, Fani e Flávia à beira da piscina. Eles falam por alto sobre o paredão na casa. "Eu gosto daquela frase do Airton. Prego que se destaca recebe martelada. Já me martelaram bem, mas ainda não estou todo enfiado na madeira".

Diego, Flavinha e Fani aproveitam o sol na piscina, entregues às gargalhadas múltiplas. O momento é de descontração para os emparedados, que afastam com alegria o paredão que os aguarda amanhã.

Page 5: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

5

Indexação

Diego conversa com Analy, Fani e Flávia à beira da piscina. Eles falam por alto sobre o paredão na casa. "Eu gosto daquela frase do Airton. Prego que se destaca recebe martelada. Já me martelaram bem, mas ainda não estou todo enfiado na madeira".

Em uma martelada com um martelo de 300 g sobre um prego relativamente pequeno e em uma madeira mole (pinus), observei que o prego entrou 3 mm.

Page 6: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

6

Etiquetagem Automática

• Etiquetagem: adição de meta-informação a elementos de um texto.

• Diversas modalidades, com vários graus de dificuldade, incluindo:– Etiquetagem morfossintática– Sentenciação– Etiquetagem sintática– Chunking– Etiquetagem semântica– Etiquetagem anafórica– Etiquetagem prosódica

Page 7: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

7

Etiquetagem morfossintática

Clodovil [Clodovil] PROP M/F S/P

está [estar] V PR 3S IND VFIN

levando [levar] V GER

a [o] <artd> <dem> DET F S

vida [vida] N F S

parlamentar [parlamentar] ADJ M/F S

a=sério [a=sério] PP

.

voltou [voltar] V PS 3S IND VFIN

de [de] <sam-> PRP

o [o] <-sam> <artd> DET M S

recesso [recesso] N M S

de [de] PRP

carnaval [carnaval] N M S

com [com] PRP

o [o] <artd> <dem> DET M S

regimento [regimento] N M S

interno [interno] ADJ M S

em [em] <sam-> PRP

a [o] <-sam> <artd> DET F S

ponta [ponta] N F S

de [de] <sam-> PRP

a [o] <-sam> <artd> DET F S

língua [língua] N F S

.

anda [andar] V PR 3S IND VFIN

tomando [tomar] V GER

todos=os [todo=o] <quant> DET M P

cuidados [cuidado] N M P

para [para] PRP

não [não] ADV

ferir [ferir] V INF 0/1/3S

o [o] <artd> <dem> DET M S

decoro [decoro] N M S

.

• Clodovil está levando a vida parlamentar a sério. Voltou do recesso de Carnaval com o regimento interno na ponta da língua. Anda tomando todos os cuidados para não ferir o decoro.

Page 8: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

8

Etiquetagem – vários níveis

Clodovil [Clodovil] PROP M/F S @SUBJ>

está [estar] <fmc> V PR 3S IND VFIN @FAUX

levando [levar] V GER @#ICL-AUX< @IMV

a [o] <artd> DET F S @>N

vida [vida] N F S @<ACC

parlamentar [parlamentar] ADJ F S @N<

a=sério [a=sério] ADV @<ADVL

. [.] PU <<<

voltou [voltar] <fmc> V PS 3S IND VFIN @FMV

de [de] <sam-> PRP @<ADVO

o [o] <artd> <-sam> DET M S @>N

recesso [recesso] N M S @P<

de [de] PRP @<ADVS

carnaval [carnaval] N M S @P<

com [com] PRP @<ADVL

o [o] <artd> DET M S @>N

regimento [regimento] N M S @P<

interno [interno] ADJ M S @N<

em [em] <sam-> PRP @N<PRED

a [o] <artd> <-sam> DET F S @>N

ponta [ponta] N F S @P<

de [de] <sam-> PRP @N<

a [o] <artd> <-sam> DET F S @>N

língua [língua] N F S @P<

. [.] PU <<<

anda [andar] <fmc> V PR 3S IND VFIN @FAUX

tomando [tomar] V GER @#ICL-AUX< @IMV

todos=os [todo=o] <quant> DET M P @>N

cuidados [cuidado] N M P @<ACC

para [para] PRP @<ADVL

não [não] ADV @ADVL>

ferir [ferir] V INF @IMV @#ICL-P<

o [o] <artd> DET M S @>N

decoro [decoro] N M S @<ACC

. [.] PU <<<

• Clodovil está levando a vida parlamentar a sério. Voltou do recesso de Carnaval com o regimento interno na ponta da língua. Anda tomando todos os cuidados para não ferir o decoro.

Page 9: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

9

O PALAVRAS

Conjunto de etiquetas (symbol set)

http://visl.sdu.dk/visl/pt/info/portsymbol.htmlWORD CLASS TAGS

N Nouns PROP Proper nouns (names) SPEC Specifiers (defined as non-inflecting pronouns, that can't be used as

prenominals):e.g. indefinite pronouns, nominal quantifiers, nominal relatives

DET Determiners (defined as inflecting pronouns, that can be used as prenominals): e.g. articles, attributive quantifiers

PERS Personal pronouns (defined as person-inflecting pronouns)

SYNTACTIC TAGS @SUBJ> @<SUBJ subject @ACC> @<ACC accusative (direct) object @DAT> @<DAT dative object (only pronominal)

Page 10: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

10

VISL / PALAVRAS• Análise sintática

– Frases pré-analisadas– Análise automática

• Formato– Plano (flat structure)– Árvore (tree structure)

• Upload de textos (etiquetagem de corpus próprio)

Page 11: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

11

PALAVRAS• Interface de upload

– Corpus em formato .txt

– Seguir as instruções

Page 12: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

• Expressões regulares

• Consulta a corpus com REGEX – AC/DC

Page 13: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

Expressões Regulares

Expressões regulares: linguagem de especificação de padrões simbólicos (ER, REGEX, REGEXP)

Exemplo: ATO

Se a lacuna é preenchida por uma letra:

H1: GATO MATO RATO BATO FATO JATO NATO PATO

Se a lacuna é preenchida por duas letras:

H2: CHATO HIATO BOATO TRATO PRATO CRATO ...

Se a lacuna pode não ser preenchida:

H3: ATO

Qualquer das opções: H1 U H

2U H

3

Page 14: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

Expressões Regulares

Conceitos Básicos:

Metacaracteres: símbolos com funções especiais dentro de uma expressão regular . ? * + ^ $ | [ ] { } ( ) \

String: sequência de símbolos

Casamento ("match"): associação entre duas strings, em uma espécie de equivalência representacional

Padrão ("pattern"): string possivelmente contendo metacaracteres

Interpretador das expressões regulares: procedimento que efetua o casamento entre padrões.

Ex: [rgp]ato pode casar rato, gato e pato, mas não com mato.

Page 15: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

Expressões Regulares: metacaracteres

Metacaracteres tipo Representante

Ponto (.): funciona como um curinga para um único símbolo; pode ser um número, uma letra, um TAB, um @, o ponto casa qualquer coisa .

EXEMPLO: Localizar “a..a” - toda seqüência de tamanho 4 que começa com “a” e termina com “a”.

Page 16: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

Expressões Regulares: metacaracteres

Metacaracteres tipo Representante

Lista ([ ]): delimita os caracteres que podem ser casados em determinada posição

[aeiou] limita o casamento às letras vogais.

intervalo: [0123456789] é igual a [0-9]

uma lista que case apenas letras maiúsculas, minúsculas e números: [A-Za-z0-9].

EXERCÍCIO: Localizar “a[glv][aeo]” - aga, age, ago, ala, ale, alo, ava, ave, avo.

Page 17: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

Expressões Regulares: metacaracteres

Metacaracteres tipo Representante

Lista negada ([^ ]): Possui lógica inversa, ou seja, ela casará com qualquer coisa, fora os componentes listados.

EXERCÍCIO: Localizar “a[^glv][aeo]”

Page 18: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

Expressões Regulares: metacaracteres

Metacaracteres tipo Quantificador

Opcional (?): Indica que aquele símbolo ou padrão pode ocorrer ou não

“falar?” falar, fala

O opcional é útil para procurar palavras no singular e plural.

Podemos tornar opcionais caracteres e metacaracteres.

EXERCÍCIO: Localizar “salas?”

EXERCÍCIO: Localizar “[AO]s? ......? ”

Page 19: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

Expressões Regulares: metacaracteres

Metacaracteres tipo Quantificador

Asterisco (*): Indica que aquele símbolo ou padrão pode ocorrer 0 ou mais vezes

O curinga .* é qualquer coisa!

EXERCÍCIO: Localizar “a.*”

EXERCÍCIO: Localizar “ a[^ ]*”

Page 20: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

Expressões Regulares: metacaracteres

Metacaracteres tipo Âncora

Circunflexo (^): Marca o começo de uma linha

^[0-9] a partir do começo da linha, casa um número, ou seja, procuramos linhas que começam com números. O contrário seria ^[^0-9], linhas que não começam com números.

O circunflexo como marcador de começo de linha só é especial se estiver no começo da REGEX.

[0-9]^ casa um número seguido de um circunflexo literal, em qualquer posição da linha.

EXERCÍCIO: Localizar “^[AO]s? ”

EXERCÍCIO: Localizar “^{Em}”

Page 21: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

Expressões Regulares: metacaracteres

Metacaracteres tipo Âncora

Cifrão ($): Marca o fim de uma linha

[0-9]$ casa com números localizados no fim de linhas.

O cifrão como marcador de começo de linha só é especial se estiver no fim da REGEX.

EXERCÍCIO: Localizar “1$”

Page 22: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

• Resultados da procura

• Tue May 30 18:30:28 CEST 2000 Procura: "cara".Distribuicao de posCorpus: NATPANOT

• 230 casos.

• Distribuição

• N 171

• ADJ 54

• ADV 5

Page 23: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

• Procura: [lema="ser"].Distribuicao de posCorpus: EBRANOT

• 14770 casos.

• Distribuição

• V 14692

• N 78

Page 24: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

• Procura: [lema="ser" & pos="V.*"].Distribuicao de temcagrCorpus: Corpus ANCIB anotado v. 2.3

• 6437 casos.

• Distribuição

• Houve 14 tempos ou casos diferentes.

• presente do indicativo 2982

• infinitivo 1151

• futuro do indicativo 587

• perfeito do indicativo 472

• presente do conjuntivo 268

• gerúndio 235

• futuro do conjuntivo 202

• perfeito ou mais que perfeito 200

• imperfeito do indicativo 129

• condicional 85

• particípio passado 77

• imperfeito do conjuntivo 24

• imperativo 24

• mais que perfeito simples 1

Page 25: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

• Procura: [temcagr="GER" & word=".*indo"].Distribuicao de lemaCorpus: Natura/Publico anotado v. 3.3 3048 casos.

• Distribuição

• Houve 200 lemas diferentes. incluir 443 pedir 104 permitir 102 seguir 96 exigir 90 conseguir 85 atingir 84 garantir 83 vir 70 partir 65 admitir 60 abrir 60 referir 54 substituir 54 constituir 53 preferir 49 assumir 45 excluir 43 reduzir 42 ir 42 reunir 40 subir 40 concluir 40 surgir 39 reflectir 34 arlir 33 impedir 32 cumprir 31 existir 31 sair 30 servir 29 sugerir 28 contribuir 28 prosseguir 28 ferir 25coincidir 24reagir 23cair 23assistir 22produzir 22insistir 21repetir 20fugir 19exibir 19possuir 19 construir 19 aludir 17 diminuir 17 definir 17 atribuir 17 cobrir 16 destruir 16 ouvir 14 atrair 14 distribuir 14 desmentir 13 gerir 12 resumir 12 sorrir 11 adquirir 11 evoluir 11 traduzir 10 vestir 10 resistir 10 incidir 10 sentir 10 investir 9 corrigir 9 introduzir 9 conduzir 9 desistir 8 proibir 8 competir 8 descobrir 8 intervir 8 dormir 7 conferir 7 dirigir 7 agir 6 perseguir 6 dividir 6 exprimir 6 esgrimir 5 diluir 5 trair 5 transferir 5 laurir 4 reproduzir 4 presumir 4 persistir 4 prescindir 4 aderir 4 discutir 4 rir 4 invadir 4 emitir 4 instituir 4 benvir 3 subtrair 3 fundir 3 suprimir 3 prevenir 3 imprimir 3 recair 3 advertir 3 auferir 3 restringir 3 emergir 3 consistir 3 residir 3 transmitir 3 dissuadir 2 almerir 2 encobrir 2 reconstituir 2 fingir 2 induzir 2 expelir 2 omitir 2 usufruir 2 infringir 2 expandir 2 colorir 2 esculpir 2 unir 2 extinguir 2 consentir 2 repartir 2 sacudir 2 inquirir 2 progredir 2 consumir 2 medir 2i nserir 2 aplaudir 2 aduzir 2 confundir 2 decidir 2 discernir 1 incuir 1 auto-reduzir 1 compelir 1 aluir 1 exluir 1 carpir 1 insitir 1 rediscutir 1 susbstituir 1 desconstruir 1 decair 1 readquirir 1 eludir 1 brandir 1 entupir 1 ermelir 1 revestir 1 coexistir 1 desiludir 1 retribuir 1 reemergir 1 fruir 1 bemvir 1 eximir 1 reconduzir 1 descontrair 1 florir 1 oligir 1 regredir 1 sobressair 1 afluir 1 punir 1 agredir 1 repelir 1 polir 1 demolir 1 reassumir 1 subsistir 1 ressurgir 1 suprir 1 banir 1 persuadir 1 sucumbir 1 repercutir 1 divergir 1 iludir 1 difundir 1 despir 1 demitir 1 presidir 1 cuspir 1 infligir 1 engolir 1 reconstruir 1 extrair 1 despedir 1 colidir 1 reabrir 1 distinguir 1 tingir 1 proferir 1

Page 26: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

• Procura: [word="cara" & pos="N"].Distribuicao de funcCorpus: NATPANOT 171 casos.

• Distribuição• P< 77• <ACC 58• <SC 11• SUBJ> 9• <ADV 3• <SC_APP 2• <PRED 2• <SUBJ 2• N< 2• VOK 1• <ACC_• <PRED 1• TOP 1• <OC 1• <SUBJ_• <ACC 1

Page 27: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

• Procura: [lema="imaginar"].Pedido de uma concordância em contextoCorpus: CETEMPúblico 1.7 anotado 2.0 7870 ocorrências.

• Concordância• Procura: [lema="imaginar"]. • Ext 52 (opi, 96a): Estava convencido que só eu a via, só eu a imaginava vista de

cima naufragando no meio dos horríveis autocarros lisboetas .Ext 52 (opi, 96a): Eis que, afinal, existem mais habitantes virtuais daquele país que me dá gosto imaginar como um principado independente .Ext 71 (nd, 91b): Diz que imaginou que «o narrador seria uma espécie de perverso que entra no estabelecimento graças a uma cumplicidade que lhe permite manter relações amorosas ilícitas com as crianças» .Ext 137 (nd, 95b): O Pp só tem sete por cento dos votos, mas não é difícil imaginar que possa crescer .Ext 137 (nd, 95b): O PCP tem os mesmos sete por cento, mas quem imagina que possa subir ?Ext 271 (clt, 93b): «Isto é maravilhoso, é um verdadeiro tesouro, que não imaginei que existisse» .

Page 28: 2 Sistemas de RI selecionam termos de indexação para o processamento de consultas Termo de indexação: –Qualquer palavra (mais geral) –Retirada de stop

• Procura: "(relig.*|secular.*)".Pedido: Distribuição das formasCorpus: CETEMPúblico 1.7 anotado 2.0 22378 ocorrências.

• Distribuição• Houve 99 formas diferentes. religiosa 4699 religião 4434 religioso 3263 religiosas

3181 religiosos 3019 religiões 1419 secular 842 religiosidade 420 seculares 412 religiosamente 270 secularização 89 secularismo 33 secularmente 29 religação 29 religion 25 secularizada 19 secularizado 15 religar 13 religa 11 religions 8 secularizadas 8 secularidade 8 secularistas 7 religieuse 6 religio 6 religiosidades 5 religam 5 secularista 5 religieux 4 secularizados 4 religiosus 4 religioso-cultural 3 religitimação 3 religado 3 religioso-mística 2 religião-espectáculo 2 religosas 2 religão 2 religiöes 2 religoso 2 religador 2 religiosismo 2 religue 2 religuem 2 secularizante 2 religioso- 2 religante 1 religiosas-militares 1 religitima 1 religiosa-nacional 1 secularizamos 1 religieuses 1 religioso-mercantil 1 seculariza 1 religioso-pagão 1 religioso-tradicionalista 1 religioso-eclesiástica 1 religa-lo 1religioso-militar 1 religioso-militares 1 religa-se 1 religiosa-popular 1 religioso-nacionalista 1 religioso-simbólicas 1 relig 1 secularizável 1 religioso-maoista 1 seculares-ortodoxos 1 religam-se 1 religioso-rituais 1 religioso-fundamentalistas 1 religioso-nacionalistas 1 religosos 1 religioso-económica 1 religious 1 secularizou 1 religando-se 1 religiäo 1 religiosos- 1 religiosas9 1 religiosíssima 1 religare 1 religião-ecologia 1 religada 1 religiso 1 religões 1 religião-Y 1 secularizaram-se 1 religioso-locutor 1 religioso-violento 1 religiosa-cristã 1 religiosaÉ 1 religiosité 1 religioso-base 1 religou 1 religosa 1 religações 1 religioso-étnica 1 religiosa19