estrutura sintr+: um modelo de suporte ao usuÁrio na ... · figura 16: exemplo de polissemia...

109
Universidade Federal de Santa Catarina Centro Tecnológico Programa de Pós-Graduação em Ciência da Computação Cláudia Maksud Mechereffe ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA RECUPERAÇÃO DE INFORMAÇÕES Dissertação de Mestrado Florianópolis 2005

Upload: others

Post on 01-Dec-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

Universidade Federal de Santa Catarina Centro Tecnoloacutegico

Programa de Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo

Claacuteudia Maksud Mechereffe

ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES

Dissertaccedilatildeo de Mestrado

Florianoacutepolis 2005

Claacuteudia Maksud Mechereffe

ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES

Dissertaccedilatildeo submetida agrave Universidade Federal de Santa Catarina como parte dos requisitos para a obtenccedilatildeo do grau de Mestre em Ciecircncia da Computaccedilatildeo Profordf Edla Maria Faust Ramos Drordf

Florianoacutepolis 2005

Claacuteudia Maksud Mechereffe

ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES

Esta Dissertaccedilatildeo foi julgada adequada para a obtenccedilatildeo do tiacutetulo de Mestre em Ciecircncia da Computaccedilatildeo e aprovada em sua forma final pelo Programa de Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo

_____________________________ Prof Raul Sidnei Wazlawick Dr

Coordenador do PGCC Banca Examinadora

_____________________________ Profordf Edla Maria Faust Ramos Drordf

Orientadora PGCC

_______________________________________ Prof Heronides Mauriacutelio de Melo Moura Ph D

____________________________ Profordf Maria Marta Leite Drordf

_____________________________________ Prof Raul Sidnei Wazlawick Dr

A alma eacute uma borboleta Haacute na vida um momento em que uma voz nos diz que chegou o momento de uma grande metamorfose eacute preciso

abandonar o que sempre fomos para nos tornarmos uma outra coisa

Rubem Alves

iv

AGRADECIMENTOS

O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que

conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento

Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo

em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado

alcanccedilado

Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo

valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa

Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me

ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram

Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio

Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes

contribuiccedilotildees e ajudas prestadas

Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio

e por suas contribuiccedilotildees

Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado

E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim

E a todos os meus amigos por serem especiais em minha vida

v

IacuteNDICE DE FIGURAS

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de

uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de

Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e

Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD

no niacutevel de administrador 76

vi

IacuteNDICE DE TABELAS

Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71

vii

SIGLAS

RI Recuperaccedilatildeo de Informaccedilatildeo

SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo

SN Sintagma Nominal

LG Leacutexico Gerativo

EQ Estrutura de Qualia

SMART System for the Manipulation and Retrieval of Text

SV Sintagma Verbal

SEL Leacutexico de Enumeraccedilatildeo de Sentidos

PLC Paradigma Leacutexico-Conceitual

XML Extensible Markup Language

UML Linguagem de Modelagem Unificada

UP Processo Unificado

OO Orientado a Objetos

NG N-Grama

TT Termo-Termo

TR Termo-Relacionamento

RT Relacionamento-Termo

TR+ Termo-RelacionamentoRelacionamento-Termo

SINTR+ Sintagma Nominal com TR+

BD Banco de Dados

viii

RESUMO

Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)

Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 2: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

Claacuteudia Maksud Mechereffe

ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES

Dissertaccedilatildeo submetida agrave Universidade Federal de Santa Catarina como parte dos requisitos para a obtenccedilatildeo do grau de Mestre em Ciecircncia da Computaccedilatildeo Profordf Edla Maria Faust Ramos Drordf

Florianoacutepolis 2005

Claacuteudia Maksud Mechereffe

ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES

Esta Dissertaccedilatildeo foi julgada adequada para a obtenccedilatildeo do tiacutetulo de Mestre em Ciecircncia da Computaccedilatildeo e aprovada em sua forma final pelo Programa de Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo

_____________________________ Prof Raul Sidnei Wazlawick Dr

Coordenador do PGCC Banca Examinadora

_____________________________ Profordf Edla Maria Faust Ramos Drordf

Orientadora PGCC

_______________________________________ Prof Heronides Mauriacutelio de Melo Moura Ph D

____________________________ Profordf Maria Marta Leite Drordf

_____________________________________ Prof Raul Sidnei Wazlawick Dr

A alma eacute uma borboleta Haacute na vida um momento em que uma voz nos diz que chegou o momento de uma grande metamorfose eacute preciso

abandonar o que sempre fomos para nos tornarmos uma outra coisa

Rubem Alves

iv

AGRADECIMENTOS

O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que

conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento

Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo

em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado

alcanccedilado

Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo

valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa

Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me

ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram

Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio

Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes

contribuiccedilotildees e ajudas prestadas

Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio

e por suas contribuiccedilotildees

Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado

E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim

E a todos os meus amigos por serem especiais em minha vida

v

IacuteNDICE DE FIGURAS

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de

uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de

Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e

Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD

no niacutevel de administrador 76

vi

IacuteNDICE DE TABELAS

Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71

vii

SIGLAS

RI Recuperaccedilatildeo de Informaccedilatildeo

SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo

SN Sintagma Nominal

LG Leacutexico Gerativo

EQ Estrutura de Qualia

SMART System for the Manipulation and Retrieval of Text

SV Sintagma Verbal

SEL Leacutexico de Enumeraccedilatildeo de Sentidos

PLC Paradigma Leacutexico-Conceitual

XML Extensible Markup Language

UML Linguagem de Modelagem Unificada

UP Processo Unificado

OO Orientado a Objetos

NG N-Grama

TT Termo-Termo

TR Termo-Relacionamento

RT Relacionamento-Termo

TR+ Termo-RelacionamentoRelacionamento-Termo

SINTR+ Sintagma Nominal com TR+

BD Banco de Dados

viii

RESUMO

Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)

Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 3: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

Claacuteudia Maksud Mechereffe

ESTRUTURA SINTR+ UM MODELO DE SUPORTE AO USUAacuteRIO NA RECUPERACcedilAtildeO DE INFORMACcedilOtildeES

Esta Dissertaccedilatildeo foi julgada adequada para a obtenccedilatildeo do tiacutetulo de Mestre em Ciecircncia da Computaccedilatildeo e aprovada em sua forma final pelo Programa de Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo

_____________________________ Prof Raul Sidnei Wazlawick Dr

Coordenador do PGCC Banca Examinadora

_____________________________ Profordf Edla Maria Faust Ramos Drordf

Orientadora PGCC

_______________________________________ Prof Heronides Mauriacutelio de Melo Moura Ph D

____________________________ Profordf Maria Marta Leite Drordf

_____________________________________ Prof Raul Sidnei Wazlawick Dr

A alma eacute uma borboleta Haacute na vida um momento em que uma voz nos diz que chegou o momento de uma grande metamorfose eacute preciso

abandonar o que sempre fomos para nos tornarmos uma outra coisa

Rubem Alves

iv

AGRADECIMENTOS

O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que

conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento

Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo

em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado

alcanccedilado

Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo

valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa

Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me

ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram

Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio

Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes

contribuiccedilotildees e ajudas prestadas

Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio

e por suas contribuiccedilotildees

Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado

E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim

E a todos os meus amigos por serem especiais em minha vida

v

IacuteNDICE DE FIGURAS

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de

uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de

Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e

Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD

no niacutevel de administrador 76

vi

IacuteNDICE DE TABELAS

Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71

vii

SIGLAS

RI Recuperaccedilatildeo de Informaccedilatildeo

SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo

SN Sintagma Nominal

LG Leacutexico Gerativo

EQ Estrutura de Qualia

SMART System for the Manipulation and Retrieval of Text

SV Sintagma Verbal

SEL Leacutexico de Enumeraccedilatildeo de Sentidos

PLC Paradigma Leacutexico-Conceitual

XML Extensible Markup Language

UML Linguagem de Modelagem Unificada

UP Processo Unificado

OO Orientado a Objetos

NG N-Grama

TT Termo-Termo

TR Termo-Relacionamento

RT Relacionamento-Termo

TR+ Termo-RelacionamentoRelacionamento-Termo

SINTR+ Sintagma Nominal com TR+

BD Banco de Dados

viii

RESUMO

Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)

Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 4: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

A alma eacute uma borboleta Haacute na vida um momento em que uma voz nos diz que chegou o momento de uma grande metamorfose eacute preciso

abandonar o que sempre fomos para nos tornarmos uma outra coisa

Rubem Alves

iv

AGRADECIMENTOS

O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que

conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento

Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo

em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado

alcanccedilado

Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo

valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa

Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me

ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram

Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio

Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes

contribuiccedilotildees e ajudas prestadas

Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio

e por suas contribuiccedilotildees

Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado

E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim

E a todos os meus amigos por serem especiais em minha vida

v

IacuteNDICE DE FIGURAS

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de

uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de

Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e

Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD

no niacutevel de administrador 76

vi

IacuteNDICE DE TABELAS

Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71

vii

SIGLAS

RI Recuperaccedilatildeo de Informaccedilatildeo

SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo

SN Sintagma Nominal

LG Leacutexico Gerativo

EQ Estrutura de Qualia

SMART System for the Manipulation and Retrieval of Text

SV Sintagma Verbal

SEL Leacutexico de Enumeraccedilatildeo de Sentidos

PLC Paradigma Leacutexico-Conceitual

XML Extensible Markup Language

UML Linguagem de Modelagem Unificada

UP Processo Unificado

OO Orientado a Objetos

NG N-Grama

TT Termo-Termo

TR Termo-Relacionamento

RT Relacionamento-Termo

TR+ Termo-RelacionamentoRelacionamento-Termo

SINTR+ Sintagma Nominal com TR+

BD Banco de Dados

viii

RESUMO

Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)

Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 5: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

iv

AGRADECIMENTOS

O momento de agradecimento permite lembrar com gratidatildeo de todas as pessoas que

conviveram comigo e que foram importantes nesta etapa de construccedilatildeo de conhecimento

Agradeccedilo agrave Universidade Federal de Santa Catarina ao Programa de Poacutes-Graduaccedilatildeo

em Ciecircncia da Computaccedilatildeo e a todos os professores que oportunizaram o aprendizado

alcanccedilado

Em nome destes professores e pelo seu profissionalismo agrave Edla Faust Ramos pelas tatildeo

valiosas orientaccedilotildees pela confianccedila pela crenccedila no meu trabalho e na minha pessoa

Em especial agradeccedilo a minha matildee e ao meu pai Heloisa e Antonio que me

ensinaram a lutar e persistir e pelo carinho apoio e estiacutemulo que sempre me deram

Ao David meu companheiro pela compreensatildeo paciecircncia carinho e apoio

Ao Paulo Bueno e agrave Leila Di Pietro pelo estiacutemulo paciecircncia pelas grandes

contribuiccedilotildees e ajudas prestadas

Agrave Renata Brizzi agrave Josiele Azevedo agrave Danielle Hennings e agrave Adriana Santos pelo apoio

e por suas contribuiccedilotildees

Ao Carlos Eduardo Nascimento pelo apoio e incentivo prestado

E aos meus irmatildeos Beatriz e Reacutegis por sempre acreditarem em mim

E a todos os meus amigos por serem especiais em minha vida

v

IacuteNDICE DE FIGURAS

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de

uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de

Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e

Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD

no niacutevel de administrador 76

vi

IacuteNDICE DE TABELAS

Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71

vii

SIGLAS

RI Recuperaccedilatildeo de Informaccedilatildeo

SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo

SN Sintagma Nominal

LG Leacutexico Gerativo

EQ Estrutura de Qualia

SMART System for the Manipulation and Retrieval of Text

SV Sintagma Verbal

SEL Leacutexico de Enumeraccedilatildeo de Sentidos

PLC Paradigma Leacutexico-Conceitual

XML Extensible Markup Language

UML Linguagem de Modelagem Unificada

UP Processo Unificado

OO Orientado a Objetos

NG N-Grama

TT Termo-Termo

TR Termo-Relacionamento

RT Relacionamento-Termo

TR+ Termo-RelacionamentoRelacionamento-Termo

SINTR+ Sintagma Nominal com TR+

BD Banco de Dados

viii

RESUMO

Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)

Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 6: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

v

IacuteNDICE DE FIGURAS

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo 18 Figura 2 Exemplo dos trecircs componentes conjuntivos para query 19 Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND)19 Figura 4 Resultado de uma busca booleana disjuntiva (OR) 20 Figura 5 O co-seno do acircngulo adaptado como similar (dj q) 22 Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais 30 Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo31 Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de

uma palavra 32 Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de

Sintagmas Nominais de primeiro niacutevel 33 Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos 33 Figura 11 Representaccedilatildeo da matriz de um item lexical39 Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo 39 Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo 40 Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo40 Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ41 Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo41 Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo 42 Figura 18 Visatildeo Geral do modelo TR+47 Figura 19 Visatildeo Geral do Modelo Proposto ldquoEstrutura SINTR+rdquo56 Figura 20 Descriccedilatildeo inicial do modelo proposto58 Figura 21 Nuacutemero de palavras do Documento160 Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento161 Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais 62 Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN 62 Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio66Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e

Operaccedilatildeo do BD no niacutevel de administrador 67 Figura 27 Modelo Conceitual do sistema proposto72 Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio 73 Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador 74 Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio 75 Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD

no niacutevel de administrador 76

vi

IacuteNDICE DE TABELAS

Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71

vii

SIGLAS

RI Recuperaccedilatildeo de Informaccedilatildeo

SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo

SN Sintagma Nominal

LG Leacutexico Gerativo

EQ Estrutura de Qualia

SMART System for the Manipulation and Retrieval of Text

SV Sintagma Verbal

SEL Leacutexico de Enumeraccedilatildeo de Sentidos

PLC Paradigma Leacutexico-Conceitual

XML Extensible Markup Language

UML Linguagem de Modelagem Unificada

UP Processo Unificado

OO Orientado a Objetos

NG N-Grama

TT Termo-Termo

TR Termo-Relacionamento

RT Relacionamento-Termo

TR+ Termo-RelacionamentoRelacionamento-Termo

SINTR+ Sintagma Nominal com TR+

BD Banco de Dados

viii

RESUMO

Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)

Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 7: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

vi

IacuteNDICE DE TABELAS

Tabela 1 Exemplos de nominalizaccedilatildeo 49 Tabela 2 Exemplo de uma consulta qb53 Tabela 3 Paraacutegrafo 6 do documento163 Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1 63 Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento68 Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) 68 Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel 68 Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais69 Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) 69 Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas) 69 Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar70 Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar70 Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs 70 Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores 71 Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs) 71

vii

SIGLAS

RI Recuperaccedilatildeo de Informaccedilatildeo

SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo

SN Sintagma Nominal

LG Leacutexico Gerativo

EQ Estrutura de Qualia

SMART System for the Manipulation and Retrieval of Text

SV Sintagma Verbal

SEL Leacutexico de Enumeraccedilatildeo de Sentidos

PLC Paradigma Leacutexico-Conceitual

XML Extensible Markup Language

UML Linguagem de Modelagem Unificada

UP Processo Unificado

OO Orientado a Objetos

NG N-Grama

TT Termo-Termo

TR Termo-Relacionamento

RT Relacionamento-Termo

TR+ Termo-RelacionamentoRelacionamento-Termo

SINTR+ Sintagma Nominal com TR+

BD Banco de Dados

viii

RESUMO

Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)

Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 8: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

vii

SIGLAS

RI Recuperaccedilatildeo de Informaccedilatildeo

SRI Sistemas de Recuperaccedilatildeo de Informaccedilatildeo

SN Sintagma Nominal

LG Leacutexico Gerativo

EQ Estrutura de Qualia

SMART System for the Manipulation and Retrieval of Text

SV Sintagma Verbal

SEL Leacutexico de Enumeraccedilatildeo de Sentidos

PLC Paradigma Leacutexico-Conceitual

XML Extensible Markup Language

UML Linguagem de Modelagem Unificada

UP Processo Unificado

OO Orientado a Objetos

NG N-Grama

TT Termo-Termo

TR Termo-Relacionamento

RT Relacionamento-Termo

TR+ Termo-RelacionamentoRelacionamento-Termo

SINTR+ Sintagma Nominal com TR+

BD Banco de Dados

viii

RESUMO

Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)

Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 9: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

viii

RESUMO

Este trabalho tem como objetivo apresentar um novo modelo de sistema informatizado de suporte ao usuaacuterio no processo de recuperaccedilatildeo de informaccedilotildees A proposta consiste em apoio durante a definiccedilatildeo da query de busca e baseia-se na identificaccedilatildeo das possibilidades de sistematizaccedilatildeo e junccedilatildeo do modelo de Kuramoto com a estrutura de Gonzalez Para a sua construccedilatildeo foi necessaacuterio analisar e sintetizar o modelo de suporte ao usuaacuterio de Kuramoto (baseado na determinaccedilatildeo dos Sintagmas Nominais) a estrutura de Qualia do Leacutexico Gerativo de Pustejovsky e termos e RLBs (relaccedilotildees lexicais binaacuterias) do modelo TR+ de Gonzalez O resultado que se espera alcanccedilar eacute possibilitar a realizaccedilatildeo de uma interaccedilatildeo que venha a proporcionar uma negociaccedilatildeo adequada dos significados entre o usuaacuterio e a maacutequina negociaccedilatildeo essa que deve resultar em fator fundamental na melhoria da eficiecircncia dos processos de busca O modelo de Kuramoto baseado em uma hierarquia de Sintagmas Nominais suporta inicialmente essa interaccedilatildeo Com a definiccedilatildeo da query de busca e da Estrutura de Qualia de Pustejovsky impliacutecita no modelo TR+ de Gonzalez foi possiacutevel obter uma maior relevacircncia dos documentos recuperados atraveacutes de um caacutelculo de peso de descritores (termos e relacionamentos) evidentes nos documentos As etapas gerais do modelo proposto satildeo a extraccedilatildeo de Sintagmas Nominais e a sua hierarquizaccedilatildeo automaacutetica em niacuteveis o preacute-processamento (toquenizaccedilatildeo e etiquetagem) o processo de nominalizaccedilatildeo e a captura de RLBs Delineado preliminarmente o modelo partiu-se para as etapas de levantamento e anaacutelise de requisitos representada pelos diagramas e pelas descriccedilotildees dos casos de uso chegando-se ao desenvolvimento do seu modelo conceitual que culminou a construccedilatildeo dos diagramas de classes e de sequumlecircncia para a aplicaccedilatildeo proposta Ao final conclui-se que a alternativa indicada neste trabalho aleacutem de ser exequumliacutevel apresenta ganhos qualitativos nos resultados de uma busca em recuperaccedilatildeo de informaccedilotildees e tambeacutem quantitativos no que se refere a um menor tempo na fase de indexaccedilatildeo (rapidez) e um tamanho menor de arquivos de iacutendice gerados (memoacuteria)

Palavras-chave Recuperaccedilatildeo de Informaccedilatildeo Sintagmas Nominais Estrutura de Qualia Termos e RLBs

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 10: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação

ix

ABSTRACT

This work has the presentation of a new model of a support information system to the user in the process of information retrieval The proposal consists in the support during the definition of a search query based on the identification of the possibilities of informatization and junction of a Kuramoto model along with the Gonzalez structure For its construction it was necessary to analyze and synthesize the support model to the Kuramoto user (base don the determination of Nominal Syntagm) the Qualia structure of the Lexical Semantics of Pustejovsky and having the LBRs (lexical binary relations) of the Gonzalez TR+ model The result we expect to reach is the possibility of actually performing an interaction that may result in an adequate negotiation of meanings between the user and the machine knowing that this negotiation should result in a fundamental factor in order for the improvement on the efficiency of the search processes The Kuramoto model based on Nominal Syntagm hierarchy initially supports this interaction With the definition of the query search and the Pustejovsky Qualia structure implicit in the TR+ Gonzalez model it was possible to obtain a greater relevance of documents recovered through a calculus of weight of describers (terms and relationships) evident in the document The general stages of the proposed model are the extraction of Nominal Syntagm and their automatic placement into hierarchy the pre-processing (tokening and labeling) the naming and capture of the LRBs After the preliminary outlining of the model we went on to the gathering of stages and requisite analysis presented by diagrams and descriptions of the usage cases finally reaching the development of a conceptual model that culminated in the construction of class diagrams and of a sequence for the proposed application As we reach the end we can conclude that the indicated alternative in this work besides being executable presents qualitative gains in the results of a search for the retrieval of information and also quantitative gains when referring to a smaller amount of time spent in the index phase (speed) and a smaller amount of archives generated (memory)

Key-words Retrieval of Information Nominal Syntagm Qualia Structure Terms e LRBs

x

SUMAacuteRIO

AGRADECIMENTOS iv

IacuteNDICE DE FIGURAS v

IacuteNDICE DE TABELAS vi

IacuteNDICE DE TABELAS vi

SIGLAS vii

RESUMOviii

ABSTRACT ix

SUMAacuteRIOx

1 INTRODUCcedilAtildeO 12

11 Objetivos13 111 Objetivo Geral 13 112 Objetivos Especiacuteficos 13

12 Metodologia13

13 Resultados Esperados e Limitaccedilotildees do Trabalho 14

14 Estrutura da Dissertaccedilatildeo 15

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO 16

21 Histoacuterico 16

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo 18 221 Modelo Booleano 18

2211 Operadores Booleanos19 2212 Operadores de Proximidade 20

222 Modelo Vetorial21 223 Modelo Probabiliacutestico 23

3 FUNDAMENTACcedilAtildeO TEacuteORICA25

31 A Proposta de Kuramoto 25 311 Extraccedilatildeo dos Sintagmas Nominais 27

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais 29 312 A determinaccedilatildeo de uma estrutura para os SN 29

xi

313 Protoacutetipo Desenho da Interface de Busca31 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca 32

32 A Teoria do Leacutexico Gerativo de Pustejovsky34 321 Estruturas do Leacutexico Gerativo36

3211 Estrutura de Argumento 37 3212 Estrutura de Evento 37 3213 Estrutura de Qualia 38 3214 Estrutura de Heranccedila Lexical 40

322 Sistema de Tipos Semacircnticos 41 322 Mecanismos gerativos 42

3221 Coerccedilatildeo de tipo42 3222 Ligaccedilatildeo seletiva 42 3223 Co-composiccedilatildeo 43

33 O Modelo TR+ de Gonzalez45

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO 55

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta Gonzalez - ldquoEstrutura SINTR+rdquo55

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+ 64

5 CONCLUSAtildeO77

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS 80

61 Bibliografia Consultada82

ANEXO A - DOCUMENTO186

ANEXO B - DOCUMENTO288

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS91

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM99

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM102

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO105

12

1 INTRODUCcedilAtildeO

O tema ldquoRecuperaccedilatildeo de Informaccedilatildeordquo (RI) eacute importante para diversas aacutereas tais

como Biblioteconomia Linguumliacutestica Ciecircncia da Computaccedilatildeo entre outras Segundo Baeza-

Yates e Ribeiro-Neto (1999) na Ciecircncia da Computaccedilatildeo esse tema diz respeito agrave recuperaccedilatildeo

de dados e agrave recuperaccedilatildeo de informaccedilatildeo sendo ambos processos importantes e significativos

para a aacuterea

De acordo com os autores os sistemas de recuperaccedilatildeo de informaccedilatildeo lidam com

objetos linguumliacutesticos (textos) e por isso herdam toda a problemaacutetica inerente ao tratamento da

linguagem natural Jaacute a recuperaccedilatildeo de dados estaacute associada a sistemas gerenciadores de

banco de dados (ou simplesmente banco de dados) que ao organizaacute-los jaacute especificam de

forma bem definida a sua estrutura e por conseguinte a sua semacircntica

Um dos desafios na recuperaccedilatildeo de informaccedilatildeo conforme Ferneda (2003) diz

respeito a melhorar a relevacircncia dos resultados de uma busca de maneira que o usuaacuterio possa

encontrar todos os documentos que atendam agraves suas necessidades de informaccedilatildeo Em outras

palavras isto quer dizer que a busca seraacute precisa se conseguir retornar eou listar somente

documentos relacionados ao que o usuaacuterio expressou na definiccedilatildeo da sua busca

Diversos modelos de RI vecircm proporcionando melhorias significativas na relevacircncia

dos resultados De acordo com Baeza-Yates e Ribeiro-Neto (1999) em uma visatildeo centrada no

computador o problema de RI consiste principalmente na construccedilatildeo de iacutendices mais

eficientes no processamento de querys de usuaacuterios com alta performance e no

desenvolvimento de algoritmos de classificaccedilatildeo que melhorem a ldquoqualidaderdquo do conjunto de

respostas Apesar disso os meacutetodos utilizados nesses modelos ainda deixam a desejar natildeo

sendo capazes de recuperar a contento os documentos relevantes a uma consulta do usuaacuterio

Na maioria dos modelos de recuperaccedilatildeo de informaccedilatildeo existentes hoje o processo de

indexaccedilatildeo extrai cada palavra do texto de um documento e insere uma lista de palavras

ordenadas pela frequumlecircncia da palavra no texto Isto desfaz o trabalho intelectual do autor do

documento

Observa-se que diversas pesquisas de RI se focalizam nos algoritmos de busca por

documentos relevantes a partir de querys estabelecidas O foco nesses casos eacute determinar a

relevacircncia de documentos Para isso haacute vaacuterias metodologias desde medir o tempo de

13

permanecircncia do usuaacuterio no acesso a um documento ateacute a determinaccedilatildeo da quantidade de

consultas com querys semelhantes entre outras

Outro aspecto problemaacutetico relaciona-se ao fato de que as informaccedilotildees recuperadas

dependem tambeacutem da clareza do usuaacuterio ao expressar o que necessita Ou seja a dificuldade

natildeo se trata apenas de identificar e definir a relevacircncia dos resultados atraveacutes dos modelos

computacionais de RI que datildeo suporte ao processo da busca mas da capacidade do usuaacuterio de

formular uma expressatildeo de busca utilizando as palavras ou expressotildees de forma clara de

modo a representar os documentos desejados satisfazendo assim a sua necessidade

As palavras utilizadas pelo usuaacuterio possuem um significado claro para ele mas isso

natildeo eacute suficiente para uma boa recuperaccedilatildeo de informaccedilatildeo pois a Liacutengua Portuguesa segundo

Rossi (2003) apresenta muitas palavras iguais com significados diferentes (polissemia) que

variam de acordo com o contexto E haacute tambeacutem palavras diferentes em escrita e pronuacutencia

embora com significados iguais (sinoniacutemia) Ocorre ainda a combinaccedilatildeo de palavras que

segundo Martins e Zilberknop (1999) diz respeito a duas ou mais palavras que podem

combinar-se em ordem diferente designando ideacuteias completamente diversas

Esses aspectos da linguagem natural satildeo obstaacuteculos na obtenccedilatildeo de bons resultados

em um procedimento de recuperaccedilatildeo de informaccedilatildeo No caso da polissemia e da combinaccedilatildeo

de palavras pode ocorrer o aumento da taxa de ruiacutedos1 ou o incremento da taxa de silecircncio2

que acontecem no caso de sinoniacutemia Isto pode levar a um resultado de busca de documentos

que natildeo atenda agraves necessidades de informaccedilatildeo do usuaacuterio Portanto a existecircncia de uma

negociaccedilatildeo de significados entre usuaacuterio e maacutequina levaria possivelmente a resultados mais

relevantes

O surgimento das novas tecnologias da informaccedilatildeo e da comunicaccedilatildeo fez crescer o

volume de publicaccedilotildees na Internet Esse crescimento segundo Cardoso (2000) tem

dificultado ainda mais a recuperaccedilatildeo de informaccedilotildees relevantes Um aspecto positivo eacute a

facilidade de acesso pela Web (World Wide Web) aos acervos bibliograacuteficos de diversas

universidades brasileiras e mesmo do mundo inteiro Visto que o aumento do acervo torna

ainda mais complexa a busca por isso esperava-se que esses meacutetodos acompanhassem tal

desenvolvimento mas isto ainda natildeo aconteceu de forma satisfatoacuteria

A dificuldade aparece rapidamente nos vaacuterios mecanismos da Web como ldquoGooglerdquo

ldquoCaderdquo entre outros que ao serem acionados para buscar uma determinada informaccedilatildeo

1 Taxa de ruiacutedos eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados natildeo pertinentes e a quantidade total de documentos 2 Taxa de silecircncio eacute definida como sendo a relaccedilatildeo entre a quantidade de documentos recuperados pertinentes natildeo recuperados e a quantidade total de documentos pertinentes na base de dados

14

listam centenas ou mesmo milhares de referecircncias como resposta sendo normalmente destas

relevantes apenas as primeiras Aleacutem disso ao se utilizarem as mesmas palavras em diferentes

mecanismos (sites) de pesquisa os resultados variam segundo Hill (1999) devido agraves rotinas

automatizadas de pesquisa diferenciadas

O usuaacuterio precisa ainda utilizar palavras-chave para dar foco agrave sua pesquisa Segundo

Baeza-Yates e Ribeiro-Neto (1999) o interessante seria jaacute poder dizer ldquoDecirc-me dados

estatiacutesticos sobre a equipe da seleccedilatildeo brasileira de basquete no ano de 2004rdquo Mas apesar de a

tecnologia da Internet estar progredindo ainda se estaacute bastante distante desse estaacutegio

Uma linha de pesquisa que tem como representante o trabalho de Kuramoto (1999)

procura abordar a questatildeo da RI desde a perspectiva do apoio ao usuaacuterio na formulaccedilatildeo da

query de busca A expectativa eacute oferecer jaacute no momento da formulaccedilatildeo da query um apoio

interativo para o estabelecimento de uma chave mais adequada ao contexto real da busca A

proposta de Kuramoto eacute baseada na determinaccedilatildeo dos Sintagmas Nominais (SN) de um

domiacutenio de aplicaccedilatildeo

O uso de SN permite um processo de refinamento da busca A forma de navegar

pelos niacuteveis de SN intensifica a interaccedilatildeo entre o usuaacuterio e o computador (KURAMOTO

2002) A interface de busca passa a dar um suporte para o usuaacuterio na formulaccedilatildeo de sua query

antes de listar todos os documentos

A proposta de utilizaccedilatildeo de uma interface de apoio utilizando SN configura-se como

inovadora pois natildeo se tem conhecimento de outra proposiccedilatildeo que considere o fato de que nem

sempre o usuaacuterio eacute capaz de explicitar a sua necessidade de informaccedilatildeo em uma uacutenica

expressatildeo de busca

Segundo Kuramoto (2002) as palavras como unidades de um dicionaacuterio natildeo contecircm

qualquer substacircncia Elas adquirem essa substacircncia no momento em que se inserem no

universo do discurso ou seja as palavras inseridas no texto de um documento assumem um

significado especiacutefico

Percebe-se que essa linha de pesquisa eacute bastante promissora e que a aacuterea de

Linguumliacutestica pode oferecer alternativas interessantes uma delas foi vislumbrada na teoria do

Leacutexico Gerativo (LG) de Pustejovsky (1991) Nessa teoria Pustejovsky buscando dar conta

da polissemia loacutegica das palavras propondo uma estrutura para a semacircntica de uma liacutengua da

mesma forma que a sintaxe eacute estruturada Na estrutura proposta por Pustejovsky a

componente principal eacute a estrutura de dimensotildees de significados (denominada de Estrutura de

Qualia)

15

Uma palavra escrita pelo usuaacuterio pode ser utilizada pelos documentos de um acervo

e portanto identificada pela maacutequina atraveacutes de seus modelos de RI com um sentido

completamente diferente do contexto imaginado pelo usuaacuterio Para a palavra ldquojornalrdquo por

exemplo o usuaacuterio pode estar se referindo ao preacutedio onde fica o jornal ou ao objeto fiacutesico

propriamente dito ou ateacute mesmo ao conteuacutedo do jornal (informaccedilatildeo contida)

A Estrutura de Qualia auxilia a RI na identificaccedilatildeo de qual sentido mais especiacutefico o

usuaacuterio busca dessa forma esta estrutura poderia classificar os documentos contendo a palavra

ldquojornalrdquo segundo as diferentes qualia envolvidas Isso representaria um refinamento

importante na busca que poderia resultar em mais satisfaccedilatildeo para o usuaacuterio e portanto mais

eficiecircncia dos mecanismos de busca O reconhecimento da importacircncia da teoria de

Pustejovsky pode ser constatado na existecircncia de trabalhos relacionados na liacutengua portuguesa

como eacute o caso da pesquisa de Abrahatildeo (1997) que desenvolveu a modelagem e a

implementaccedilatildeo de um leacutexico semacircntico para a nossa Liacutengua a partir de um estudo

aprofundado da teoria de Pustejovsky

Aleacutem disso uma outra questatildeo importante a ressaltar eacute que existem problemas

ligados agrave definiccedilatildeo das palavras Essa criacutetica segundo Rossi (2003) se fundamenta no fato de

os lexicoacutegrafos3 parecerem atuar de maneira mais intuitiva do que propriamente fazer uso de

teorias semacircnticas que decircem o devido suporte agrave tarefa de definir um item lexical Rossi (2003)

reforccedila que muitos dicionaacuterios nem sempre prevecircem a polissemia subjacente aos itens

lexicais

Outro trabalho pesquisado que permitiu uma ampliaccedilatildeo do modelo proposto nesta

dissertaccedilatildeo foi o de Gonzalez (2005) com o seu modelo TR+ Este modelo natildeo utiliza

sistematicamente a Estrutura de Qualia aparecendo esta apenas impliacutecita principalmente a

parte formal das palavras As palavras e seus relacionamentos ganham em Gonzalez uma

importacircncia contextual pelo caacutelculo de um peso (peso de descritores) que busca manter sua

unidade significativa

A abordagem proposta para este trabalho orienta-se na melhoria da query de busca

dos usuaacuterios A pesquisa siacutentese e sistematizaccedilatildeo da proposta de Kuramoto (1999) e do

modelo de Gonzalez (2005) possibilitaram o desenvolvimento de um novo modelo chamado

3 Lexicoacutegrafos satildeo autores de dicionaacuterios ou seja dicionaristas

de SINTR+ Esse modelo utiliza a formulaccedilatildeo de consulta em RI apresentando os Sintagmas

Nominais referentes a esta consulta e com isto inicia a interaccedilatildeo com o usuaacuterio onde o mesmo

13

escolhe o SN de niacutevel apropriado e a partir daiacute haacute sistematizaccedilatildeo com o modelo TR+ de

Gonzalez

Pretende-se por um lado ajudar e apoiar o usuaacuterio a melhor especificar sua query no

contexto real da sua busca por outro lado potencializa-se o tempo tanto na fase de indexaccedilatildeo

como na de busca e reduz-se o espaccedilo utilizado de memoacuteria para dados na base

11 Objetivos

111 Objetivo Geral

Descrever a partir da identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de

sistematizaccedilatildeo das propostas de Kuramoto e de Gonzalez um novo modelo para um sistema

informatizado de suporte ao usuaacuterio na definiccedilatildeo da sua query de busca durante um processo

de recuperaccedilatildeo de informaccedilatildeo

112 Objetivos Especiacuteficos

a) Analisar as propostas citadas buscando a sua sistematizaccedilatildeo e identificaccedilatildeo de alternativas

de implementaccedilatildeo e ampliaccedilatildeo

b) Definir o modelo conceitual do sistema desejado atraveacutes da sua anaacutelise de domiacutenio

representando-o a partir dos seus diagramas de classes e de sequumlecircncia

c) Avaliar exploratoriamente o modelo desenhado a partir da construccedilatildeo de exemplos

demonstrativos das suas principais propriedades

12 Metodologia

Para a construccedilatildeo deste trabalho inicialmente foi realizada uma revisatildeo bibliograacutefica

a partir de livros artigos e outros materiais disponiacuteveis referentes ao assunto em questatildeo

fundamentalmente sobre a aacuterea de Recuperaccedilatildeo de Informaccedilatildeo A metodologia utilizada para

desenvolver este trabalho baseou-se no cronograma de etapas a serem desenvolvidas descritas

a seguir

14

a) Estudo e identificaccedilatildeo das diferentes alternativas e abordagens atualmente desenvolvidas

para a aacuterea de recuperaccedilatildeo de informaccedilotildees

b) Formulaccedilatildeo da proposta de trabalho definiccedilatildeo do escopo e da fundamentaccedilatildeo da proposta

c) Estudo das teorias de base para a construccedilatildeo do modelo teoria do Leacutexico Gerativo de

James Pustejovsky e o modelo de Kuramoto E apoacutes um estudo de Abrahatildeo e Gonzalez

d) Esboccedilo do modelo para o sistema proposto

e) Especificaccedilatildeo dos requisitos do sistema proposto

f) Construccedilatildeo da anaacutelise de domiacutenio definiccedilatildeo do modelo conceitual

g) Construccedilatildeo dos diagramas de classes e de sequumlecircncia para o modelo

h) Construccedilatildeo de exemplos de aplicaccedilatildeo do modelo

i) Anaacutelise e conclusotildees finais

13 Resultados Esperados e Limitaccedilotildees do Trabalho

A principal contribuiccedilatildeo deste trabalho reside no fato de sistematizar as teorias de

Kuramoto Pustejovsky e Gonzalez construindo um novo modelo que amplia as

potencialidades das propostas de Kuramoto e Gonzalez melhorando os resultados do processo

de recuperaccedilatildeo de informaccedilotildees Esta melhoria ocorre em relaccedilatildeo agrave diminuiccedilatildeo do tempo de

busca dos documentos e agrave relevacircncia dos resultados encontrados por meio da junccedilatildeo de

diferentes modelos para os processos de indexaccedilatildeo e busca

A princiacutepio o modelo construiacutedo eacute antevisto como aplicaacutevel a bases de documentos

natildeo distribuiacutedas e contidas a um determinado domiacutenio de aplicaccedilatildeo mas jaacute eacute possiacutevel

perceber formas de adaptaacute-lo expandindo-o para seu uso na Web

Este trabalho natildeo tem o intuito de gerar uma implementaccedilatildeo computacional

completa do modelo proposto propotildee-se antes a demonstrar a viabilidade desta

implementaccedilatildeo descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua

modelagem conceitual culminando a construccedilatildeo dos diagramas de classes e de sequumlecircncia A

anaacutelise das potencialidades e limitaccedilotildees do modelo deveraacute ser possiacutevel a partir da realizaccedilatildeo

de estudos de casos onde se determine a complexidade computacional da implementaccedilatildeo

requerida

15

14 Estrutura da Dissertaccedilatildeo

O trabalho apresenta um capiacutetulo introdutoacuterio que orienta os toacutepicos do projeto e o

desenvolvimento da pesquisa aleacutem de sintetizar os resultados que seratildeo explorados na

conclusatildeo

O Capiacutetulo 2 a seguir aborda temas e definiccedilotildees da aacuterea de RI mostrando a sua

histoacuteria e tambeacutem discute o funcionamento e as vantagens e desvantagens dos modelos

claacutessicos de RI

No Capiacutetulo 3 apresenta-se a fundamentaccedilatildeo teoacuterica desta dissertaccedilatildeo onde satildeo

abordados trecircs autores Primeiramente apresenta-se a Proposta de Kuramoto que se baseia nos

niacuteveis de Sintagmas Nominais sendo exposto o protoacutetipo de interaccedilatildeo entre usuaacuterio e maacutequina

desenvolvido por este autor Na Teoria do Leacutexico Gerativo de Pustejovsky deu-se ecircnfase agrave

apresentaccedilatildeo da Estrutura de Qualia pois eacute a que foi julgada mais adequada para a aplicaccedilatildeo

no modelo proposto apresenta-se tambeacutem uma anaacutelise do estudo de Abrahatildeo Por fim

discute-se e apresenta-se o trabalho de Gonzalez e do seu modelo TR+ que possibilitou

juntamente com a proposta de Kuramoto sistematizar a proposta desta dissertaccedilatildeo

No Capiacutetulo 4 eacute desenvolvida a proposta do sistema SINTR+ atraveacutes dos diagramas e

das descriccedilotildees dos casos de uso do modelo o modelo conceitual os diagramas de classes e de

sequumlecircncia juntamente com exemplos demonstrativos das suas propriedades

No Capiacutetulo 5 tecircm-se as conclusotildees referentes ao trabalho bem como as sugestotildees

para continuidade desse foco de pesquisa

O Capiacutetulo 6 apresenta as referecircncias bibliograacuteficas utilizadas para a realizaccedilatildeo deste

trabalho bem como a bibliografia consultada para a compreensatildeo de conceitos abordados na

dissertaccedilatildeo finalizando com os anexos

16

2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO

Neste capiacutetulo apresentam-se o histoacuterico e os modelos claacutessicos da aacuterea de

recuperaccedilatildeo de informaccedilatildeo O objetivo ao abordar esses toacutepicos eacute delinear uma visatildeo geral da

aacuterea a partir de diversos modelos de RI apontando algumas de suas principais vantagens e

desvantagens Dar-se-aacute destaque ao fato de que os algoritmos de relevacircncia utilizados para

recuperar os documentos desconsideram o contexto da query de busca

21 Histoacuterico

Em 1951 segundo Baeza-Yates e Ribeiro-Neto (1999) Calvin Mooers criou o termo

ldquoInformation Retrievalrdquo (Recuperaccedilatildeo de Informaccedilatildeo) e definiu os problemas a serem

abordados por esta nova aacuterea de pesquisa a qual despertou o interesse principalmente de

bibliotecaacuterios e ldquoexpertsrdquo da informaccedilatildeo

No contexto da Ciecircncia da Informaccedilatildeo segundo Ferneda (2003 p 14)

o termo ldquoRecuperaccedilatildeo de Informaccedilatildeordquo significa para uns a operaccedilatildeo pela qual se seleciona documentos a partir do acervo em funccedilatildeo da demanda do usuaacuterio Para outros ldquoRecuperaccedilatildeo de Informaccedilatildeordquo consiste no fornecimento a partir de uma demanda definida pelo usuaacuterio dos elementos de informaccedilatildeo documentaacuteria correspondentes O termo pode ainda ser empregado para designar a operaccedilatildeo que fornece uma resposta mais ou menos elaborada a uma demanda e esta resposta eacute convertida num produto cujo formato eacute acordado com o usuaacuterio (bibliografia nota de siacutentese etc) Haacute ainda autores que conceituam a recuperaccedilatildeo de informaccedilatildeo de forma muito mais ampla ao subordinar agrave mesma o tratamento da informaccedilatildeo (catalogaccedilatildeo indexaccedilatildeo classificaccedilatildeo)

Para alguns autores segundo Cardoso (2000) RI eacute dita como uma subaacuterea da Ciecircncia

da Computaccedilatildeo que estuda o armazenamento e a recuperaccedilatildeo automaacutetica de documentos que

satildeo objetos de dados geralmente textos Para Baeza-Yates e Ribeiro-Neto (1999) o termo

ldquoRecuperaccedilatildeo de Informaccedilatildeordquo trata da representaccedilatildeo do armazenamento da organizaccedilatildeo e do

acesso aos itens da informaccedilatildeo

De acordo com Ferneda (2003) foi a partir dos experimentos de Hans Peter Luhn

(Engenheiro pesquisador da IBM) na indexaccedilatildeo automaacutetica e na elaboraccedilatildeo automaacutetica de

resumos que surgiram os primeiros resultados significativos no tratamento computacional da

informaccedilatildeo Com isto ldquoLuhn foi durante vaacuterios anos o criador de inuacutemeros projetos que

visavam modificar radicalmente meacutetodos tradicionais de armazenamento tratamento e

17

recuperaccedilatildeo de informaccedilatildeo Em 1961 jaacute acumulava cerca de 80 patentes nos Estados Unidosrdquo

(FERNEDA 2003 p 10-11) Estes dados mostram a importacircncia de Luhn no tratamento da

recuperaccedilatildeo de informaccedilotildees

Em 1960 segundo Ferneda (2003) foi desenvolvido os princiacutepios baacutesicos do modelo

probabiliacutestico para a Recuperaccedilatildeo de Informaccedilatildeo por Maron e Kuhns que foi mais tarde

definido por Robertson e Jones (1976) A deacutecada de 60 foi fundamental em experimentos

desta natureza ldquoem meados dos anos 60 inicia-se uma longa seacuterie de experimentos que

constitui um marco na Recuperaccedilatildeo de Informaccedilatildeo o projeto SMARTrdquo (FERNEDA 2003

p11) Este autor destaca que este projeto foi desenvolvido por Gerard Salton que se

especializou na pesquisa destas evoluccedilotildees na recuperaccedilatildeo de informaccedilotildees produzindo

inuacutemeros artigos cientiacuteficos um modelo de recuperaccedilatildeo de informaccedilatildeo a criaccedilatildeo e o

aprimoramento de diversas teacutecnicas computacionais aleacutem de o sistema SMART

Estes sistemas de recuperaccedilatildeo de informaccedilatildeo geralmente se baseiam na contagem de

frequumlecircncia das palavras do texto e na eliminaccedilatildeo de palavras reconhecidamente de pouca

relevacircncia (FERNEDA 2003) Um exemplo disso satildeo os meacutetodos automaacuteticos de indexaccedilatildeo

de recuperaccedilatildeo de informaccedilatildeo que utilizam ldquofiltrosrdquo para eliminar palavras de pouca

significaccedilatildeo (stopwords4 e noun groups5) aleacutem de normalizar os termos reduzindo-os a seus

radicais Esse processo eacute conhecido como stemming6

Ferneda evidencia que os trabalhos de Luhn e Salton inicialmente natildeo se

preocupavam com a anaacutelise semacircntica das palavras e que seus estudos colaboraram para com

a evoluccedilatildeo atual das pesquisas

Nos trabalhos de Luhn e Salton observa-se inicialmente uma crenccedila de que meacutetodos puramente estatiacutesticos seriam suficientes para tratar os problemas relacionados agrave recuperaccedilatildeo de informaccedilatildeo Poreacutem no transcorrer de suas pesquisas percebe-se uma busca por meacutetodos de anaacutelise semacircntica mais sofisticada Desde os seus primeiros trabalhos Salton se mostra interessado pela utilizaccedilatildeo de processos de tratamento da linguagem natural na recuperaccedilatildeo de informaccedilatildeo Em livro de 1983 Salton e McGill apresentam em um capiacutetulo intitulado Future directions in Information Retrieval a aplicaccedilatildeo do processamento da linguagem natural e da loacutegica fuzzy na recuperaccedilatildeo de informaccedilatildeo apontando a direccedilatildeo de futuras pesquisas para a Inteligecircncia Artificial (FERNEDA 2003 p 12)

Estas contribuiccedilotildees tecircm suas principais ideacuteias presentes ainda na maioria dos

sistemas de recuperaccedilatildeo atuais e nos mecanismos de busca da Web Como aparece na estrutura

de componentes de um sistema de recuperaccedilatildeo de informaccedilatildeo que seguem geralmente um

modelo de funcionamento como demonstrado por Cardoso (2000)

4 Stop Words eliminaccedilatildeo de artigos e conectivos 5 Noun Groups eliminaccedilatildeo de adjetivos adveacuterbios e verbos 6 Stemming reduccedilatildeo de uma palavra ao seu radical Exemplo Engineering Engineer

18

Figura 1 Componentes de um Sistema de Recuperaccedilatildeo de Informaccedilatildeo Fonte GEY apud CARDOSO 2000

22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo

221 Modelo Booleano

A aacutelgebra booleana eacute um sistema binaacuterio no qual existem somente dois valores

possiacuteveis para qualquer siacutembolo algeacutebrico ldquoverdadeirordquo ou ldquofalsordquo O modelo booleano eacute um

modelo de recuperaccedilatildeo simples baseado na teoria dos conjuntos e na aacutelgebra booleana Aleacutem

disso as querys satildeo especificadas atraveacutes de expressotildees booleanas que tecircm semacircnticas

precisa

Segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2000) a simplicidade e o

formalismo claro do modelo booleano recebiam grande atenccedilatildeo nos anos passados sendo

adotados por muitos sistemas comerciais bibliograacuteficos

A estrateacutegia de recuperaccedilatildeo desse modelo eacute baseada em um criteacuterio de decisatildeo

binaacuteria por exemplo um documento pode ser relevante ou natildeo relevante sem noccedilatildeo de escala

de classificaccedilatildeo que previna um bom desempenho na recuperaccedilatildeo Deste modo o modelo

booleano eacute na verdade muito mais um modelo de recuperaccedilatildeo de dados (em vez de

informaccedilatildeo)

19

Aleacutem disso conforme Baeza-Yates e Ribeiro-Neto (1999) enquanto expressotildees

booleanas tecircm semacircnticas precisas frequumlentemente natildeo eacute simples traduzir uma informaccedilatildeo

precisa dentro de uma expressatildeo booleana O modelo booleano prediz que cada documento eacute

relevante ou irrelevante Natildeo existe noccedilatildeo de um resultado (matching) parcial para as

condiccedilotildees da query

As principais vantagens do modelo booleano satildeo o formalismo claro oculto sobre o

modelo e sua simplicidade As principais desvantagens encontram-se no resultado exato que

pode recuperar poucos ou muitos documentos

Figura 2 Exemplo dos trecircs componentes conjuntivos para query Fonte BAEZA-YATES RIBEIRO-NETO 1999

2211 Operadores Booleanos

Os operadores booleanos funcionam atraveacutes de uma expressatildeo booleana para

formulaccedilatildeo de buscas Isto ocorre por meio de operadores loacutegicos AND OR e NOT (E OU e

NAtildeO) Conforme exemplo de Ferneda (2003) a recuperaccedilatildeo de informaccedilatildeo se daraacute em uma

expressatildeo conjuntiva de enunciado t1 AND t2 que recuperaraacute documentos indexados por

ambos os termos (t1 e t2) Isso equivale e permite aparecer agrave intersecccedilatildeo do conjunto dos

documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo

t2

Figura 3 Representaccedilatildeo do resultado de uma expressatildeo booleana conjuntiva (AND) Fonte FERNEDA 2003

20

O autor demonstra que uma expressatildeo disjuntiva t1 OR t2 recuperaraacute o conjunto dos

documentos indexados pelo termo t1 ou pelo termo t2 Isto equivale e possibilita agrave uniatildeo entre

o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados

pelo termo t2 (FERNEDA 2003)

Figura 4 Resultado de uma busca booleana disjuntiva (OR) Fonte FERNEDA 2003

2212 Operadores de Proximidade

No modelo booleano existem os operadores de proximidade que permitem

especificar condiccedilotildees relacionadas agrave distacircncia e agrave posiccedilatildeo dos termos no texto Um operador

de proximidade bastante comum nos sistemas de RI e nos mecanismos de busca da Web eacute o

operador ADJ (FERNEDA 2003) Esse operador permite pesquisar duas palavras adjacentes

no texto de um documento na ordem especificada na expressatildeo de busca por exemplo a

expressatildeo recuperaccedilatildeo ADJ informaccedilatildeo teraacute como resultado os documentos que tiverem a

palavra ldquorecuperaccedilatildeordquo seguida da palavra ldquoinformaccedilatildeordquo ou seja recuperaraacute documentos que

contecircm a expressatildeo ldquorecuperaccedilatildeo informaccedilatildeordquo Tambeacutem pode ser utilizado um termo

composto delimitando as suas palavras com aspas por exemplo ldquorecuperaccedilatildeo de

informaccedilatildeordquo

O modelo booleano de acordo com Ferneda (2003) possui limitaccedilotildees que o torna

pouco atrativo satildeo elas

bull O resultado de uma busca booleana se caracteriza por dois subconjuntos os que

atendem agrave expressatildeo de busca e aqueles que natildeo atendem Presume-se que todos

os documentos recuperados satildeo de igual utilidade para o usuaacuterio Natildeo haacute nenhum

mecanismo pelos quais os documentos possam ser ordenados

bull O usuaacuterio leigo se natildeo tiver um treinamento apropriado formularaacute somente

buscas simples Para buscas com expressotildees mais complexas eacute necessaacuterio um

conhecimento da loacutegica booleana

21

bull Natildeo existe uma forma de atribuir importacircncia relativa aos diferentes termos da

expressatildeo booleana Assume-se implicitamente que todos os termos tecircm o mesmo

peso

222 Modelo Vetorial

O modelo vetorial segundo Baeza-Yates e Ribeiro-Neto (1999) reconhece que o uso

de pesos binaacuterios eacute tambeacutem limitante e propotildee uma estrutura em que eacute possiacutevel a resposta

(matching) parcial Isto eacute feito atribuindo-se pesos natildeo binaacuterios aos termos indexados em

querys e em documentos Esses pesos de termos satildeo enfim utilizados para calcular o grau de

similaridade entre cada documento armazenado no sistema e a expressatildeo de busca formulada

pelo usuaacuterio (querys) Como a classificaccedilatildeo dos documentos recuperados eacute feita em ordem

decrescente desse grau de similaridade o modelo vetorial leva em consideraccedilatildeo documentos

que se igualem aos termos de querys somente parcialmente

O modelo vetorial de acordo com Cardoso (2000) e Gonzalez (2000) representa

documentos e consultas como vetores de termos Os termos satildeo ocorrecircncias uacutenicas nos

documentos Os documentos retornados como resultado para uma consulta satildeo representados

similarmente isto quer dizer que o vetor resultado para uma consulta eacute montado atraveacutes de um

caacutelculo de similaridade Aos termos das consultas e dos documentos satildeo atribuiacutedos pesos que

especificam o tamanho e a direccedilatildeo de seu vetor de representaccedilatildeo O acircngulo formado por esses

vetores determina a proximidade da ocorrecircncia E o caacutelculo da similaridade eacute baseado no

acircngulo entre os vetores que representam o documento e a consulta

Cardoso (2000) descreve ainda que os pesos quantificam a relevacircncia de cada termo

para as consultas (Wiq) e para os documentos (Wid) no espaccedilo vetorial Segundo Cardoso

(2000 p 03) ldquopara o caacutelculo dos pesos Wiq e Wid utiliza-se uma teacutecnica que faz o

balanceamento entre as caracteriacutesticas do documento utilizando o conceito de frequumlecircncia de

um termo num documentordquo Desta forma se uma coleccedilatildeo possui N documentos e teremos o nti

que eacute a quantidade de documentos que possuem o termo ti com isto o inverso da frequumlecircncia

do termo na coleccedilatildeo ou idf (inverse documento frequency) eacute dado pela foacutermula de Cardoso

(2000) abaixo

idfi = log (Nni)

22

Esse valor eacute possiacutevel usando a foacutermula para calcular o peso Wid = freq(tid) x idfi

que eacute o produto da frequumlecircncia do termo no documento pelo inverso da frequumlecircncia do termo na

coleccedilatildeo

No modelo vetorial um documento eacute representado por um vetor em que cada

elemento representa o peso ou a relevacircncia do respectivo termo de indexaccedilatildeo para o

documento Cada elemento do vetor (peso) eacute normalizado de forma a assumir valores entre

zero e um Os pesos mais proacuteximos de um (1) indicam termos com maior importacircncia para a

descriccedilatildeo do documento E termos que natildeo estatildeo presentes em um determinado documento

possuem peso igual a zero

Da mesma forma que os documentos no modelo vetorial uma expressatildeo de busca

conforme Baeza-Yates e Ribeiro-Neto (1999) tambeacutem eacute representada por um vetor numeacuterico

em que cada elemento representa a importacircncia (peso) do respectivo termo na expressatildeo de

busca

Diversos documentos e termos de indexaccedilatildeo podem ser representados atraveacutes de uma

matriz na qual cada linha representa um documento e cada coluna representa a associaccedilatildeo de

um determinado termo aos vaacuterios documentos

Figura 5 O co-seno do acircngulo adaptado como similar (dj q) Fonte BAEZA-YATES RIBEIRO-NETO 1999

Um exemplo de uso do modelo vetorial eacute o sistema SMART7 citado anteriormente

este sistema representa por valor numeacuterico cada documento e seu respectivo termo na

descriccedilatildeo do documento Segundo Ferneda (2003) o sistema SMART fornece um meacutetodo

automaacutetico que trata aleacutem do caacutelculo dos pesos dos vetores que representam os documentos

tambeacutem trata os vetores das expressotildees de busca

As principais vantagens do modelo vetorial segundo Baeza-Yates e Ribeiro-Neto

(1999) satildeo (1) esquema de pesos de termos melhora o desempenho da recuperaccedilatildeo (2)

estrateacutegias de resposta (matching) parcial permitem a recuperaccedilatildeo de documentos que se

aproximem de condiccedilotildees de query e (3) foacutermula de classificaccedilatildeo do co-seno ordena os

documentos de acordo com o grau de similaridade da query A desvantagem desse modelo de

23

acordo com os autores diz respeito agraves dependecircncias de termos prejudicando especialmente o

desempenho

Cardoso (2000) considera como principais vantagens do modelo vetorial a sua

simplicidade a facilidade de se computarem similaridades com eficiecircncia e o fato de que se

comporta bem com coleccedilotildees geneacutericas

223 Modelo Probabiliacutestico

O modelo probabiliacutestico foi introduzido de acordo com Baeza-Yates e Ribeiro-Neto

(1999) em 1976 por Roberston e Sparck Jones que mais tarde tornou-se como o modelo

Binary Independence Retrieval (BIR)

Na Matemaacutetica a teoria das probabilidades estuda os experimentos aleatoacuterios que

conforme Ferneda (2003 p 35) repetidos em condiccedilotildees idecircnticas podem apresentar resultados diferentes e imprevisiacuteveis Isso ocorre por exemplo quando se observa a face superior de um dado apoacutes o seu lanccedilamento ou quando se verifica o naipe de uma carta retirada de um baralho Por apresentarem resultados imprevisiacuteveis eacute possiacutevel apenas estimar a possibilidade ou a chance de um determinado evento ocorrer Para descrever matematicamente um experimento aleatoacuterio eacute necessaacuterio inicialmente identificar o conjunto de todos os seus possiacuteveis resultados A este conjunto daacute-se o nome de espaccedilo amostral

Entendendo-se uma busca como um experimento aleatoacuterio segundo Robertson e

Jones eacute possiacutevel descrever o seu espaccedilo amostral como composto de quatro possibilidades

pois dada uma expressatildeo de busca pode-se dividir a base de documentos em quatro

subconjuntos distintos o conjunto dos documentos relevantes (Rel) o conjunto dos

documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o

conjunto dos documentos natildeo relevantes e natildeo recuperados O conjunto dos documentos

relevantes e recuperados (RR) eacute resultante da intersecccedilatildeo dos conjuntos Rel e Rec

(FERNEDA 2003)

O conjunto de documentos resultantes da primeira busca eacute ordenado atraveacutes de uma

forma de ordenaccedilatildeo padratildeo tradicional Tendo esse conjunto de documentos o usuaacuterio

seleciona alguns deles que considera relevantes para a sua necessidade O sistema utiliza essa

informaccedilatildeo para tentar melhorar os resultados subsequumlentes

A principal virtude do modelo probabiliacutestico estaacute em reconhecer que a atribuiccedilatildeo de

relevacircncia eacute uma tarefa do usuaacuterio Eacute o uacutenico modelo que segundo Baeza-Yates e Ribeiro-

7 SMART (Sistem for the Manipulation and Retrieval of Text)

24

Neto (1999) e Gonzalez (2000) incorpora explicitamente o processo de Relevance Feedback

como base para a sua operacionalizaccedilatildeo

Uma simplificaccedilatildeo bastante questionaacutevel estaacute no fato de o modelo considerar os

pesos dos termos de indexaccedilatildeo como sendo binaacuterios ou seja no modelo probabiliacutestico natildeo eacute

considerada a frequumlecircncia com que os termos ocorrem no texto dos documentos

Em geral os modelos de RI desconsideram o contexto das palavras informadas pelo

usuaacuterio por isso tendem a retornar poucos documentos relevantes em uma consulta Para isso

pretende-se mostrar no capiacutetulo seguinte com a ajuda da Linguumliacutestica possiacuteveis abordagens

que podem apoiar o usuaacuterio considerando o seu contexto de busca e listando documentos

relevantes

25

3 FUNDAMENTACcedilAtildeO TEacuteORICA

Neste capiacutetulo buscou-se apresentar uma siacutentese dos trabalhos que datildeo base ao

modelo apresentado nesta dissertaccedilatildeo Satildeo eles a Proposta de Kuramoto a Teoria do Leacutexico

Gerativo e o Modelo de Gonzalez A Proposta de Kuramoto baseia-se em uma hierarquizaccedilatildeo

em niacuteveis de Sintagmas Nominais Na Teoria do Leacutexico Gerativo de Pustejovsky mostram-se

as estruturas compostas e deu-se destaque agrave Estrutura de Qualia julgada mais adequada para a

aplicaccedilatildeo no trabalho proposto Analisou-se o estudo de Abrahatildeo a partir de Pustejovsky A

terceira teoria de Gonzalez apresenta uma proposta automatizada com o modelo TR+

31 A Proposta de Kuramoto

Neste capiacutetulo apresentam-se os conceitos e as caracteriacutesticas da proposta de

Kuramoto que se baseia na determinaccedilatildeo de Sintagmas Nominais (SN) de uma query A sua

proposta preocupa-se em buscar os SN uma vez que satildeo considerados como importante

elemento de uma frase sendo entendidos como o nuacutecleo significativo (cerne) de uma oraccedilatildeo

Em sua tese de doutorado Kuramoto relata que todo o trabalho de reconhecimento e

extraccedilatildeo de SN dos documentos foi realizado de forma natildeo automatizada Isto auxiliou na

elaboraccedilatildeo de um modelo para reconhecimento extraccedilatildeo e indexaccedilatildeo de SN inseridos na

amostra do protoacutetipo desenvolvido

O modelo proposto por Kuramoto refere-se ao aproveitamento dos SN organizado

hierarquicamente em ldquoaacutervoresrdquo criando um novo conceito de indexaccedilatildeo que pode introduzir

inovaccedilatildeo em termos de uma interface de busca

Esse modelo de interface de acordo com Kuramoto (2002) permitiria que o usuaacuterio

navegasse no conjunto de SN ateacute encontrar o que melhor atendesse agrave sua necessidade de

informaccedilatildeo Somente apoacutes esse procedimento o usuaacuterio teria entatildeo acesso aos documentos de

onde foram extraiacutedos os SN Tal processo proporcionaria ao usuaacuterio um maior conhecimento

sobre a base de dados que estaacute sendo consultada uma vez que lhe permitiria reconhecer a

estrutura de sintagmas nominais presentes nos documentos pertencentes ao sistema

Os processos de indexaccedilatildeo automaacutetica utilizados em modelos de RI segundo Michel

Le Guern (1984 apud KURAMOTO 1995) deveriam extrair dos documentos informaccedilotildees

26

que facilitassem a recuperaccedilatildeo para o usuaacuterio e natildeo siacutembolos sem referecircncia como considera

que satildeo as palavras

Para Silva e Koch (1993) toda frase de uma liacutengua constitui uma organizaccedilatildeo ou

seja uma combinaccedilatildeo de elementos linguumliacutesticos agrupados conforme certos princiacutepios que a

caracterizam como uma estrutura Para Baeza-Yates e Ribeiro-Neto (1999) grande parte da

semacircntica do documento ou da requisiccedilatildeo do usuaacuterio eacute perdida quando se substitui o texto

completo por um conjunto de palavras

Aparentemente um conjunto de frases de nossa liacutengua de acordo com Silva e Koch

(1993) tem pouco em comum variando quanto agrave extensatildeo ao sentido agraves palavras de que se

compotildeem e agrave ordem em que essas se apresentam Apesar da aparente diversidade as frases

possuem uma organizaccedilatildeo interna que segue princiacutepios gerais bem definidos de modo que o

falante seraacute capaz de dizer se uma sequumlecircncia de palavras a) se estaacute de acordo com o sistema

gramatical da liacutengua b) se se apresenta completa ou incompleta c) se eacute passiacutevel de

interpretaccedilatildeo semacircntica

Conforme Silva e Koch (apud ABREU et al 2004 p03) ldquoo sintagma consiste num

conjunto de elementos que constituem uma unidade significativa dentro da oraccedilatildeo e que

mantecircm entre si relaccedilotildees de dependecircncia e de ordemrdquo As palavras se combinam em conjuntos

em torno de um nuacutecleo Esses conjuntos os sintagmas desempenham uma funccedilatildeo no conjunto

maior que eacute a frase Para Liberato (apud PARREIRAS 2003) o SN eacute a parte do enunciado

que representa um conceito ou referente

Assim por exemplo nos conjuntos de sintagmas ndash David o estudante a menina

doente e minha filha ndash o nuacutecleo eacute um elemento nominal (nome ou pronome) tratando-se

portanto de sintagmas nominais Nos conjuntos ndash viajou de carro dormiu e levaraacute a

encomenda ndash o elemento fundamental eacute o verbo de modo que se tecircm nesses casos sintagmas

verbais

A natureza do sintagma depende portanto do tipo de elemento que constitui o seu

nuacutecleo aleacutem do sintagma nominal (SN) e do sintagma verbal (SV) existem os sintagmas

adjetivais (SA) que tecircm por nuacutecleo um adjetivo e os sintagmas preposicionais (SP) formados

normalmente de preposiccedilatildeo mais sintagma nominal (SILVA KOCH 1993)

Na estrutura da oraccedilatildeo em sua forma de base aparecem como constituintes

obrigatoacuterios o SN e o SV Por exemplo Os garotos (SN) empinavam papagaios de papel

(SV) Pode-se dizer que as regras baacutesicas de estrutura frasal satildeo as seguintes O = SN + SV

(SP) (o elemento O significa Oraccedilatildeo)

27

311 Extraccedilatildeo dos Sintagmas Nominais

O trabalho de Kuramoto compreendeu o desenvolvimento de um protoacutetipo de

interface de busca utilizando os sintagmas nominais como forma de acesso agrave informaccedilatildeo Para

testar esse protoacutetipo foram examinados e extraiacutedos segundo Kuramoto (2002) cerca de 8800

sintagmas nominais de uma amostra de 15 artigos selecionados aleatoriamente da revista

Ciecircncia da Informaccedilatildeo

Kuramoto (1995 p 6) relata que a extraccedilatildeo dos sintagmas nominais foi realizada de forma manual simulando uma extraccedilatildeo automaacutetica Este procedimento foi adotado em funccedilatildeo da natildeo-existecircncia ainda de um sistema de extraccedilatildeo automaacutetica de SN em acervos contendo documentos em Liacutengua Portuguesa

Como os SN nem sempre se apresentam de forma clara Kuramoto aponta a

ocorrecircncia normal em todo texto em linguagem natural de anaacuteforas8 e de elipses9 que

dificultou a identificaccedilatildeo dos SN Essas dificuldades segundo Kuramoto (1995) aumentam

em um processo automatizado Algumas das dificuldades encontradas por Kuramoto no

procedimento de extraccedilatildeo dos SN satildeo descritas a seguir

a) SN escondidos em frases com fatoraccedilatildeo

Para Kuramoto (1995 p 06) as ldquofrases com fatoraccedilatildeo satildeo aquelas que contecircm uma

sequumlecircncia de palavras que precedem um outro conjunto de palavras coordenadas pelas

conjunccedilotildees eou por exemplo o processo de negociaccedilatildeo dos setores privado e puacuteblicordquo

Percebe-se nesse exemplo que o SN de niacutevel 1 compreende tanto os setores privado

e puacuteblico visto que a referecircncia dos dois adjetivos estaacute contida na palavra em plural ldquosetoresrdquo

Existem outros exemplos de frases com fatoraccedilatildeo nas quais as palavras coordenadas aparecem

entre parecircnteses significando um complemento combinatoacuterio do termo ou da frase que

precede o parecircntese por exemplo profundas transformaccedilotildees (poliacuteticas econocircmicas

sociais tecnoloacutegicas)

b) Artigo Zero

8 Em Linguumliacutestica segundo Ducrot e Todorov (1972 apud KURAMOTO 1995) um segmento do discurso eacute dito anafoacuterico quando para interpretaacute-lo (inclusive do ponto de vista literaacuterio) for necessaacuterio se reportar a um outro segmento do mesmo discurso 9 A figura de sintaxe ldquoelipserdquo eacute definida por Cunha e Cintra (1991 apud KURAMOTO 1995) como sendo a omissatildeo de um termo que o contexto ou a situaccedilatildeo permitem facilmente suprimir

28

Um outro fator de dificuldade na extraccedilatildeo dos SN eacute a frequumlente ausecircncia de

determinantes10 na liacutengua portuguesa diferente da liacutengua francesa na qual satildeo raros os SN

com ausecircncia de um determinante Motivo pelos quais algumas regras estabelecidas para a

liacutengua francesa natildeo foram utilizadas De acordo com Kuramoto (1995 p 7) ldquono

procedimento de extraccedilatildeo dos SN constatou-se que 2889 dos SN natildeo eram precedidos de

qualquer determinante Em uma amostra de 6010 SN 1736 SN natildeo satildeo precedidos por

nenhum determinanterdquo Estes nuacutemeros demonstram que o modelo necessaacuterio deve considerar

este fator

c) Caacutelculo das anaacuteforas

Quando uma entidade eacute referenciada pela primeira vez em um texto segundo

Gasperin Goulart e Vieira (2003) a expressatildeo que a descreve eacute dita nova no discurso

Quando tal entidade eacute retomada no texto a expressatildeo que a descreve eacute dita anafoacuterica sendo

considerado o seu antecedente a expressatildeo anterior correferente

Para Kuramoto (1995 p 7-8) ldquoos elementos anafoacutericos em portuguecircs aparecem

frequumlentemente mediante partiacuteculas como os pronomesrdquo No entanto na proposta do autor

natildeo foi possiacutevel resolver dois casos de anaacuteforas

Um primeiro caso de anaacutefora ocorre nas palavras sem fonte expliacutecita no texto tais

como ldquonesse sentidordquo (em que sentido) ldquonossa experiecircnciardquo (de quem do autor dos

teacutecnicos de informaccedilatildeo) etc Como a interpretaccedilatildeo das ideacuteias estaacute contida no documento natildeo

fica evidente a soluccedilatildeo desse tipo de anaacutefora

O segundo caso eacute constituiacutedo de termos cujas fontes se encontram como por exemplo

na histoacuteria dos acontecimentos como ldquoesse periacuteodo preacute-industrial esse sistema de

comunicaccedilatildeordquo etc Por este motivo os SN foram extraiacutedos da mesma forma como se

encontravam no texto

d) Caacutelculo das elipses

Outra questatildeo que necessita um entendimento do contexto de uma frase eacute o problema

ligado a este tipo de figura de sintaxe Visto que depende da capacidade de percepccedilatildeo da falta

de alguma palavra no contexto de uma frase Segundo Kuramoto (1995) eacute preciso para

identificaacute-la analisar natildeo somente as frases precedentes mas tambeacutem as frases seguintes

Como neste exemplo ldquouma visatildeo de longo prazo que assegure natildeo soacute a sobrevivecircncia ()

10 Segundo Silva e Koch (1993) o determinante quando simples eacute representado por um artigo numeral ou pronome adjetivo

29

como tambeacutem o crescimento da organizaccedilatildeordquo Que promove o questionamento de ldquoqual o

complemento do termo lsquosobrevivecircnciarsquo lsquoSobrevivecircnciarsquo de quemrdquo A soluccedilatildeo encontrada

poderia estar na frase seguinte ldquoo crescimento da organizaccedilatildeordquo

Para promover a extraccedilatildeo completa da frase o SN seria ldquouma visatildeo de longo prazo

que assegure natildeo soacute a sobrevivecircncia da organizaccedilatildeo como tambeacutem o crescimento da

organizaccedilatildeordquo

3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais

A extraccedilatildeo automaacutetica de SN eacute considerada importante para a aacuterea de RI pois

segundo Chishman et al (2000) agiliza este processo e gera um percentual baixo de erros Jaacute

foi desenvolvido um extrator automaacutetico de sintagmas nominais para a liacutengua portuguesa no

acircmbito do projeto VISL chamado ldquoPalavrasrdquo11 que vem sendo usado pelo grupo de pesquisa

da UNISINOS

Segundo Abreu Goulart e Vieira (2004) para obter a anaacutelise das sentenccedilas dos

textos utiliza-se o analisador sintaacutetico ldquoPalavrasrdquo que eacute considerada uma ferramenta robusta

para a anaacutelise sintaacutetica do portuguecircs

A partir da saiacuteda do analisador sintaacutetico segundo Gasperin Goulart e Vieira (2003)

a ferramenta ldquoXtractorrdquo gera trecircs arquivos XML O primeiro eacute o arquivo de palavras o

segundo inclui as categorias morfossintaacuteticas e o terceiro eacute o arquivo com as estruturas

sintaacuteticas das sentenccedilas

Assim apoacutes todo esse processo eacute possiacutevel extrair de modo automaacutetico os sintagmas

nominais das sentenccedilas de um texto ressaltando-se que estes natildeo estatildeo ainda organizados

segundo a estrutura de niacuteveis que propotildee Kuramoto

312 A determinaccedilatildeo de uma estrutura para os SN

A essecircncia da proposta de Kuramoto (1995) reside na percepccedilatildeo que o autor teve de

que os SN organizam-se naturalmente numa estrutura de niacuteveis encadeados Kuramoto

percebeu nessa organizaccedilatildeo em niacuteveis um caminho para propiciar ao usuaacuterio mais facilidade

11 O analisador Palavras faz parte de um grupo de analisadores sintaacuteticos (softwares) do projeto VISL - Visual Interactive Sintax Learning do Institute of Language and Communication da University of Southern Denmark Disponiacutevel em lthttpvislsdudkvislptparsingautomaticgt (ABREU GOULART VIEIRA 2004)

30

no uso de um SRI levando tambeacutem a resultados mais precisos Para compreender a estrutura

proposta pelo autor apresenta-se a seguir o exemplo usado pelo proacuteprio Kuramoto

As Caracteriacutesticas do Meio Ambiente do Mundo dos Negoacutecios SN1 os negoacutecios SN2 o mundo dos negoacutecios SN3 o meio ambiente do mundo dos negoacutecios SN4 as caracteriacutesticas do meio ambiente do mundo dos negoacutecios

Figura 6 Exemplo da estrutura de niacuteveis de Sintagmas Nominais Fonte KURAMOTO 1995

Esse exemplo mostra o potencial da estrutura de relaccedilotildees de encadeamento de um

conjunto de SN Para o autor a anaacutelise do sintagma nominal no exemplo permitiu a extraccedilatildeo do SN ndash o meio ambiente do mundo dos negoacutecios A partir desse SN pode-se visualizar um outro SN embutido ndash o mundo dos negoacutecios ndash que por sua vez possui um quarto SN ndash os negoacutecios ndash que representa o niacutevel mais inferior12 Percebe-se nesse exemplo a existecircncia de quatro SN encadeados que enumerados em ordem crescente (do SN mais simples ao mais complexo) levam agrave classificaccedilatildeo do SN original como sendo de niacutevel 4 (KURAMOTO 1995 p04)

Com base nessas caracteriacutesticas apresentadas por Kuramoto (1995) os SN podem ser

organizados sob uma estrutura de aacutervore Esta estrutura possibilita que o Sistema de

Recuperaccedilatildeo de Informaccedilatildeo (SRI) possa atender agraves necessidades de consultas do usuaacuterio

Para atender esta demanda eacute preciso fornecer um centro de SN de seu interesse (como o

exemplo do autor ldquonegoacuteciosrdquo)

Para isso apresentam-se todos os SN1 relativos a essa busca inclusive o SN ldquoos

negoacuteciosrdquo A partir da lista encontrada de SN1 o usuaacuterio poderaacute restringir o seu perfil de

busca escolhendo um SN1 por exemplo ldquoos negoacuteciosrdquo e solicitar os SN2 relacionados a esse

SN1 O SRI apresenta todos os SN2 inclusive o SN ldquoo mundo dos negoacuteciosrdquo e assim

sucessivamente (KURAMOTO 1995)

Este autor afirma que esta passagem por vaacuterios niacuteveis promove um refinamento no

processo O processo de refinamento eacute realizado por meio da passagem pelos vaacuterios niacuteveis de uma estrutura arborescente de SN13 dado que o SN vai se tornando mais especiacutefico

12 Segundo Kuramoto (1995) os sintagmas nominais agrave medida que satildeo extraiacutedos de um outro SN satildeo classificados por niacuteveis Assim o sintagma mais simples eacute denominado SN de niacutevel 1 Constitui SN de niacutevel 2 aquele a partir do qual foi extraiacutedo o de niacutevel 1 e assim sucessivamente 13 Constatou-se empiricamente utilizando a maquete desenvolvida nesta experimentaccedilatildeo de acordo com Kuramoto (1995) que a quantidade de SN de segundo niacutevel em relaccedilatildeo a um dado SN de primeiro niacutevel pode ser maior que o total de SN de primeiro niacutevel Por exemplo a resposta agrave demanda do centro de SN ldquoinformaccedilatildeordquo foi de 122 SN de primeiro niacutevel e a resposta agrave demanda do SN de primeiro niacutevel ldquoa informaccedilatildeordquo foi de 172 SN de segundo niacutevel Por outro lado verificou-se que

31

agrave medida que se atingem os niacuteveis mais elevados da estrutura Ao percorrecirc-la o usuaacuterio estaacute na realidade delimitando ou melhor qualificando a sua necessidade de informaccedilatildeo Cabe portanto ao usuaacuterio identificar o niacutevel em que as suas necessidades de informaccedilatildeo seratildeo atendidas (KURAMOTO 1995 p 04-05)

Esta possibilidade de hierarquia permite uma interaccedilatildeo entre o usuaacuterio e maacutequina e

uma escolha individual de refinamento

313 Protoacutetipo Desenho da Interface de Busca

A Figura 7 descreve de maneira esquemaacutetica a interaccedilatildeo entre o usuaacuterio e o protoacutetipo

de Kuramoto (1995)

O protoacutetipo viabiliza a primeira interaccedilatildeo pois haacute uma tela em que permite ao

usuaacuterio fazer a sua solicitaccedilatildeo de informaccedilatildeo fornecendo uma palavra (centro de SN1) A

partir dessa palavra surgem outras interaccedilotildees como mostra o esquema de Kuramoto (1995) na

Figura 7 que ocorrem nas accedilotildees abaixo

Figura 7 Procedimentos de interaccedilatildeo usuaacuteriominusprotoacutetipo Fonte KURAMOTO 1995

o SN ldquoa informaccedilatildeordquo indexava 15 documentos na base enquanto o SN de segundo niacutevel ldquoa anaacutelise da informaccedilatildeordquo indexava apenas 1 (um) documento Confirma-se nesse exemplo que a passagem de um dado niacutevel a um superior na aacutervore de SN proporciona maior refinamento no processo de seleccedilatildeo dos documentos

32

314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de Busca

Na proposta de Kuramoto (1995) foram desenvolvidas as seguintes estruturas de busca

Figura 8 Estrutura de dados para acessar os Sintagmas Nominais de primeiro niacutevel a partir de uma palavra Fonte KURAMOTO 1995

Kuramoto (1995) mostra na Figura 8 a associaccedilatildeo das tabelas Palavras CS-SN1 e

SN1 Cada dado tem nomes dos elementos que estatildeo sublinhados e representam as chaves de

cada tabela Na tabela Palavras observa-se que o autor agrupa todas as palavras (centro) que

representam os centros de SN1 Haacute uma atribuiccedilatildeo de coacutedigo para cada ldquocentrordquo chamado

ldquocoacutedigo crdquo A tabela CS-SN1 eacute uma tabela de associaccedilatildeo dos coacutedigos dos centros de SN1 com

os coacutedigos dos SN1 Essa figura mostra que para cada centro de SN1 existem vaacuterios SN1 A indicaccedilatildeo na seta da associaccedilatildeo da tabela Palavras com a tabela CS-SN1 define que na tabela Palavras podem existir M ocorrecircncias de um coacutedigo de centro de SN1 O mesmo pode ocorrer na tabela CS-SN1 em que esse coacutedigo pode verificar-se N vezes Essa indicaccedilatildeo traduz a ideacuteia de que para cada SN1 pode existir mais de um centro de SN1 Isto se explica pela existecircncia no contexto de um SN de palavras que satildeo tatildeo importantes quanto o centro de sintagma (KURAMOTO 1995 p 11)

Observa-se o exemplo ldquoo sistema de informaccedilatildeordquo Nesse o autor define o SN1 de

ldquosistemardquo Todavia esta natildeo eacute a uacutenica palavra fundamental pois a palavra ldquoinformaccedilatildeordquo tem

tanta importacircncia quanto o proacuteprio centro de sintagma (sistema)

Kuramoto (1995 p 11) mostra ainda que existe associaccedilatildeo entre o centro de SN1 e a

vaacuterios SN de niacutevel 1 Cada centro de SN1 pode estar associado a mais de um SN1 Essa indicaccedilatildeo eacute dada pela seta que associa a tabela SN1 agrave tabela CS-SN1 onde o nuacutemero 1 significa que na tabela SN1 existe uma soacute ocorrecircncia de um determinado coacutedigo de SN1 enquanto na tabela CS-SN1 existem M ocorrecircncias desse coacutedigo

Outro elemento de dados importante na tabela SN1 eacute chamado ldquonuacutemerordquo que

segundo Kuramoto (1995 p 11-12) ldquoindica a quantidade de artigos de onde um determinado

33

SN1 foi extraiacutedordquo O nuacutemero de referecircncias de onde o SN foi extraiacutedo aparece para cada

apresentaccedilatildeo de SN1 relacionado com um centro de SN1 escolhido pelo usuaacuterio

Kuramoto (1995) ilustra numa outra figura (Figura 9) a estrutura de dados construiacuteda

para a busca dos SN2 a partir de um SN1 selecionado pelo usuaacuterio

Figura 9 Estrutura de dados para acessar os Sintagmas Nominais de segundo niacutevel a partir de Sintagmas Nominais de primeiro niacutevel Fonte KURAMOTO 1995

Nessa ilustraccedilatildeo observa-se que se manteacutem a estrutura da Figura 8 em uma

associaccedilatildeo de tabelas que busca facilitar a busca dos SN2 a partir de um SN1 escolhido pelo

usuaacuterio Segundo Kuramoto (1995 p 12) ldquopercebe-se analogamente que um dado SN1 pode

estar associado a vaacuterios SN2 e vice-versa Isto traduz a ideacuteia de que um SN2 pode ter

embutido mais de um SN1 Essa estrutura atende agraves caracteriacutesticas dos SN listados no iniacutecio

desta seccedilatildeordquo

A busca de informaccedilotildees se manteacutem na mesma estrutura para os SN de niacutevel 3 e 4 que

satildeo semelhantes agraves Figuras acima (SN1 e SN2) com diferenccedila apenas no nome de cada

elemento que eacute correspondente ao nuacutemero dos SN

O acesso aos documentos estaacute representado na Figura 10 que exemplifica uma

escolha no SN1

Figura 10 Estrutura de dados para o acesso aos tiacutetulos e textos dos artigos Fonte KURAMOTO 1995

34

Essa estrutura foi desenvolvida para que o protoacutetipo atenda a uma demanda do

usuaacuterio viabilizando a visualizaccedilatildeo de todos os tiacutetulos e textos de documentos de onde um

SN1 foi extraiacutedo Haacute outras associaccedilotildees semelhantes a essas da Figura 17 que servem para o

acessar os documentos a partir de SN de qualquer um dos quatro niacuteveis previstos no protoacutetipo

Kuramoto (1995 p 12-13) ressalta ainda as accedilotildees do coacutedigo numeacuterico Eacute importante observar que todas as tabelas contendo os SN nos seus vaacuterios niacuteveis tecircm como chave de acesso um coacutedigo numeacuterico uacutenico de SN Para tanto construiu-se uma tabela contendo os SN onde estes satildeo identificados por meio de um coacutedigo numeacuterico Natildeo existe nenhum impedimento teacutecnico por parte do sistema Access quanto ao uso do proacuteprio texto dos SN como chave de acesso agraves informaccedilotildees Deve-se ressaltar que apesar da lentidatildeo que este tipo de chave de acesso provoca as estruturas de dados seriam mais simples e faacuteceis de manusear Contudo optou-se pela utilizaccedilatildeo das chaves numeacutericas identificando cada SN com o intuito de obter maior velocidade de acesso aos SN e agraves informaccedilotildees

Finalizando esta apresentaccedilatildeo do modelo de Kuramoto cabe destacar que a utilizaccedilatildeo

da aacutervore de SN por niacuteveis permite uma visualizaccedilatildeo mais faacutecil do conteuacutedo da base de dados

e manteacutem o que haacute de mais significativo nos documentos sua semacircntica

As estruturas de Qualia e de Heranccedila Lexical do Leacutexico Gerativo de Pustejovsky a

serem apresentadas na proacutexima seccedilatildeo permitem tambeacutem da mesma forma considerar a

semacircntica dos itens lexicais atraveacutes da criaccedilatildeo de uma malharede de relaccedilotildees de palavras e

seus significados atraveacutes dos papeacuteis que compotildeem a EQ

32 A Teoria do Leacutexico Gerativo de Pustejovsky

Pustejovsky defende a ideacuteia de que assim como a gramaacutetica tem uma estrutura

(sintaxe) a semacircntica (significado) tambeacutem tem uma estrutura baacutesica Na estrutura baacutesica da

sintaxe das liacutenguas em geral segundo Souza e Silva (1993) as oraccedilotildees satildeo compostas de

Sintagma Nominal (SN) mais Sintagma Verbal (SV) basicamente Na busca da estrutura

semacircntica Pustejovsky (1991) delineia a teoria do Leacutexico Gerativo (LG) como uma

abordagem na aacuterea da semacircntica lexical que pretende dar conta da criatividade semacircntica do

uso das palavras em contexto

Segundo Rossi (2003) Ullmann concorda com essa dificuldade do uso das palavras

em contexto quando declara que ldquonatildeo satildeo raros os casos em que ocorre uma polivalecircncia das

palavras acarretando por consequumlecircncia fenocircmenos semacircnticos inerentes agraves liacutenguas naturais

entre eles a ambiguumlidade lexicalrdquo Essa ambiguumlidade eacute provocada em decorrecircncia de fatores

35

lexicais denominados de polissemia e de homoniacutemia ou na terminologia de Weinreich

conforme Rossi (2003) de ambiguumlidade complementar e ambiguumlidade contrastiva

respectivamente

No primeiro caso trata-se da polissemia que de um modo geral conforme Moura

(2001) ldquoeacute definida como um fenocircmeno que permite associar a um mesmo item lexical mais

de um sentido os quais mantecircm alguma relaccedilatildeo semacircntica entre sirdquo Assim a palavra ldquolivrordquo

por exemplo eacute polissecircmica pois expressa ao menos dois sentidos diferentes que possuem

entre si algum tipo de laccedilo semacircntico (a) objeto fiacutesico e (b) informaccedilatildeo

Jaacute no segundo caso o da ambiguumlidade contrastiva trata-se de homoniacutemia definida

por Pustejovsky como a situaccedilatildeo na qual um item lexical eacute associado com ao menos dois

sentidos diferentes e sem relaccedilatildeo entre si Desse modo a palavra ldquomangardquo por exemplo eacute

uma palavra homocircnima pois natildeo haacute nenhuma relaccedilatildeo semacircntica evidente entre os sentidos de

ldquofrutardquo e ldquoparte da blusardquo

Segundo Rossi (2003 p 14) Ullmann salienta que ldquoeacute difiacutecil em casos particulares

determinar onde termina a polissemia e onde comeccedila a homoniacutemia uma vez que natildeo eacute faacutecil e

nem sempre possiacutevel medir intuitivamente o grau de proximidade dos significadosrdquo

A polissemia loacutegica eacute denominada por Pustejovsky (1991) para restringir a

ambiguumlidade complementar abordada anteriormente nos casos em que ocorre uma relaccedilatildeo

loacutegica portanto previsiacutevel entre os sentidos de uma palavra polissecircmica Havendo mais de um

sentido eacute importante ressaltar que pode existir sobreposiccedilatildeo desses sentidos em um mesmo

contexto

Aleacutem de ter sido tratada como polissemia loacutegica por Pustejovsky segundo Rossi

(2003) desde Weinreich esse fenocircmeno da complementaridade dos sentidos tem sido

abordado como polissemia regular e polissemia sistemaacutetica

A teoria do Leacutexico Gerativo (LG) de Pustejovsky aponta o problema da

multiplicidade de significados das palavras e enfatiza um tratamento relacionado ao problema

da polissemia das palavras Segundo Neto (2003) nessa perspectiva Pustejovsky desenvolveu

o LG que eacute um modelo de processamento de liacutengua natural que trata da explicaccedilatildeo semacircntica

de itens lexicais tanto isolados quanto em contexto

Assim como a gramaacutetica caracteriza o comportamento sintaacutetico especiacutefico de uma

certa categoria de palavras Pustejovsky propotildee uma teoria gerativa do significado da palavra

E ainda pretende mostrar que seu modelo segundo Rossi (2003 p 47) ldquoeacute contraacuterio a

36

estaticidade presente em duas concepccedilotildees semacircnticas teoacutericas das deacutecadas de 60 e 70 as

baseadas em redes conexionistas e as baseadas em primitivos fixos14rdquo

Rossi (2003 p 47) afirma que a teoria de redes conexionistas organiza a semacircntica

das palavras atraveacutes de relaccedilotildees e elos para esta autora isso ldquodificulta a representaccedilatildeo de

sentidos que exibem polissemia regular haja vista a distacircncia na rede entre os sentidos que

mantecircm relaccedilatildeo sistemaacutetica entre sirdquo Por exemplo os sentidos de ldquoobjeto fiacutesicordquo e

ldquoinformaccedilatildeordquo satildeo naturalmente distantes no entanto mantecircm entre si relaccedilatildeo sistemaacutetica no

caso de ldquolivrordquo e de outras palavras

Jaacute no segundo caso o das teorias baseadas em primitivos semacircnticos fixos o leacutexico

eacute tratado como uma lista enumerativa de sentidos Por isso mesmo tais modelos satildeo

denominados por Pustejovsky (1991) de Sense Enumeration Lexicon (SEL) - leacutexico de

enumeraccedilatildeo de sentidos O problema segundo Pustejovsky (1991) eacute que essa caracterizaccedilatildeo

dos possiacuteveis sentidos de uma palavra postulada pelo modelo SEL eacute aplicada tanto para a

ambiguumlidade contrastiva como para a polissemia loacutegica

Fica evidente segundo Rossi (2003) que Pustejovsky se opotildee aos modelos SEL pois

apesar de eles proverem uma enumeraccedilatildeo exaustiva dos sentidos de um item lexical ainda se

mostram limitados natildeo dando conta dos objetivos baacutesicos da teoria semacircntico-lexical ou seja

o uso criativo de palavras a permeabilidade dos significados e as muacuteltiplas formas sintaacuteticas

das expressotildees

O objetivo principal do LG segundo Pustejovsky (1991) eacute prover uma descriccedilatildeo

formal da liacutengua que seja expressiva e flexiacutevel o suficiente para apreender a natureza gerativa

da criatividade lexical e extensatildeo de sentido Caracteriza assim o LG como um sistema

semacircntico de perspectiva loacutegica que envolve quatro niacuteveis de representaccedilatildeo um sistema de

tipos semacircnticos e trecircs tipos de mecanismos gerativos

No decorrer deste capiacutetulo seratildeo especificadas as noccedilotildees teoacutericas baacutesicas do modelo

gerativo de Pustejovsky que estruturam o leacutexico em quatro niacuteveis de representaccedilatildeo

(argumentos eventos qualia e heranccedila) sobre os quais atuam dispositivos gerativos (a

coerccedilatildeo de tipo a co-composiccedilatildeo e a ligaccedilatildeo seletiva)

321 Estruturas do Leacutexico Gerativo

14 Conforme Pustejovsky (1995) a teoria de primitivos fixos eacute defendida por autores como Lakoff (1971) Wilks (1975) Schank (1975) Katz (1977) Jaacute a teoria de redes conexionistas eacute defendida por Carnap (1956) Collins e Quillian (1969) Fodor (1975) Brachman (1979)

37

Para capturar o significado lexical estudou-se as estruturas de Pustejovsky (1991)

que propotildee quatro niacuteveis de representaccedilatildeo estrutura de argumento estrutura de evento

estrutura de qualia e estrutura de heranccedila lexical descritos abaixo

3211 Estrutura de Argumento

Para Pustejovsky (1991) essa estrutura eacute uma especificaccedilatildeo miacutenima que agrupa os

itens lexicais em quatro argumentos

bull verdadeiros ndash paracircmetros do item lexical que tecircm a necessidade de serem expressos

sintaticamente Ex Marta morou em Paris

bull apagados ndash paracircmetros que natildeo tecircm necessidade de serem realizados sintaticamente satildeo

argumentos opcionais Ex Joana coseu uma saia sem linha

bull sombreados ndash paracircmetros que jaacute estatildeo semanticamente presentes no item lexical e soacute

devem ser expressos atraveacutes de operaccedilotildees de subtipo ou especificaccedilatildeo de discurso Ex

Paulo salgou a carne com sal grosso

bull adjuntos verdadeiros ndash paracircmetros que mesmo sendo parte da interpretaccedilatildeo situacional

modificam uma expressatildeo loacutegica sem contudo estarem ligados agrave representaccedilatildeo

semacircntica de algum item lexical especiacutefico Esses paracircmetros introduzem expressotildees

adjuntivas de modificaccedilatildeo temporal ou espacial Ex David dormiu cedo

3212 Estrutura de Evento

Essa estrutura para Pustejovsky (1991) refere-se a organizaccedilatildeo de um conjunto de eventos

no que tange agrave ordenaccedilatildeo temporal de seus subeventos e a designaccedilatildeo de qual deles seraacute

considerado o principal em relaccedilatildeo ao evento matriz

bull Evento de estado ndash aquele cujo(s) argumento(s) natildeo sofre(m) alteraccedilatildeo durante o

intervalo temporal do evento Ex Kaacutetia mora em Florianoacutepolis

bull Evento de processo ndash aquele cujo(s) argumento(s) sofre(m) alteraccedilatildeo de estado ou

indica(m) o iniacutecio de alguma atividade sem uma culminaccedilatildeo precisa Ex Heloisa canta

bem

bull Evento de transiccedilatildeo - aquele cujo(s) argumento(s) sofre(m) alguma accedilatildeo de

temporalidade determinada e resulta(m) em um estado diferente do inicial Ex Tereza fez

uma boneca

38

A estrutura a seguir apresenta os atributos semacircnticos essenciais dos itens lexicais

(como por exemplo a categoria a composiccedilatildeo a funccedilatildeo e a origem) atraveacutes dos papeacuteis

formal constitutivo teacutelico e agentivo Eacute a estrutura principal responsaacutevel pela explicaccedilatildeo da

polissemia loacutegica abordada no texto (Pustejovsky 1991)

3213 Estrutura de Qualia

Devido a sua proximidade com o SN visto que trabalha por conceitos (nomes) esta

estrutura foi utilizada no desenvolvimento do modelo proposto pela pesquisa Trata de um

conjunto formado por quatro qualia que visam guiar o processo de entendimento a respeito de

um objeto ou uma relaccedilatildeo no mundo dando por consequumlecircncia um modo de especificar a

denotaccedilatildeo de tal objeto ou relaccedilatildeo Eacute dividida em quatro papeacuteis os quais satildeo descritos na

sequumlecircncia

a) Quale formal - faz a distinccedilatildeo de determinado item dentro de um domiacutenio maior levando

em consideraccedilatildeo sua

bull orientaccedilatildeo

bull magnitude

bull forma

bull dimensatildeo

bull cor

bull posiccedilatildeo

b) Quale constitutivo - estabelece a relaccedilatildeo entre um objeto e suas partes constituintes ou

proacuteprias a partir das propriedades

bull material

bull peso

bull partes e elementos componentes

Aleacutem disso o quale constitutivo informa tambeacutem de que classe um item eacute parte caso

haja tal relaccedilatildeo ou seja ele informa tanto uma relaccedilatildeo de hiperoniacutemia15 quanto de

meroniacutemia16

15 Hiperoniacutemia ocorre quando o significado de um lexema (palavra) abrange o significado de outro lexema O significado de um eacute mais geneacuterico que o significado de outro Por exemplo ldquoaeronaverdquo eacute um hiperocircnimo de ldquoteco-tecordquo

39

Estas relaccedilotildees satildeo utilizadas na modelagem do protoacutetipo de Gonzalez (2005) Este

protoacutetipo foi pesquisado e apreendido como parte integrante da proposta desta dissertaccedilatildeo e

seraacute descrito na seccedilatildeo 33 do capiacutetulo 3

c) Quale teacutelico - explicita a finalidade e a funccedilatildeo de um objeto

bull Propoacutesito de um agente ao realizar um ato

bull Funccedilatildeo interna ou objetivo que descreve certas atividades

d) Quale agentivo - determina os fatores envolvidos na origem ou causa de um objeto

partindo de consideraccedilotildees sobre

bull criador

bull artefato

bull tipo natural

bull cadeia causal

Figura 11 Representaccedilatildeo da matriz de um item lexical Fonte ROSSI 2003

Figura 12 Matriz superficial da Estrutura de Qualia do item lexical ldquolivrordquo Fonte ROSSI 2003

16 Meroniacutemia ocorre quando o significado de um lexema (palavra) faz parte ou eacute uma porccedilatildeo do significado de outro lexema Por exemplo as palavras ldquocapardquo e ldquofolhasrdquo satildeo merocircnimos de ldquolivrordquo

40

Eacute importante salientar que segundo Neto (2003a) a Estrutura de Qualia natildeo deve ser

considerada apenas como uma lista de fatos interessantes sobre um item lexical e sim como

um conjunto de propriedades que leva a uma explicaccedilatildeo mais clara de tal item

Isto equivale dizer que o objetivo da Estrutura de Qualia eacute abarcar o significado de

uma palavra e explicitar como se relaciona com o uso da liacutengua Assim essa estrutura salienta

a explicaccedilatildeo do uso da criatividade linguumliacutestica contextual natildeo como uma estrutura isolada

mas em conjunto com os mecanismos gerativos que seratildeo apresentados mais adiante

Seguem alguns exemplos da Estrutura de Qualia

Figura 13 Exemplo da Estrutura de Qualia do item lexical ldquoromancerdquo Fonte PUSTEJOVSKY 1991

Figura 14 Exemplo da Estrutura de Qualia do item lexical ldquodicionaacuteriordquo Fonte PUSTEJOVSKY 1991

3214 Estrutura de Heranccedila Lexical

Esta estrutura tambeacutem eacute de fundamental importacircncia porque nesta ocorre a relaccedilatildeo das

qualias ou seja satildeo estruturas lexicais que podem se organizar com outras estruturas em uma

grade de tipo e assim ajudar na organizaccedilatildeo geral do leacutexico Por exemplo na figura abaixo o

LG relaciona ldquodicionaacuteriordquo ldquolivrordquo e ldquopeccedilardquo atraveacutes de suas estruturas de qualia em que se

observa que os trecircs itens lexicais satildeo diferentes entre si no entanto mantecircm relaccedilotildees

semacircnticas

41

Figura 15 Exemplo do LG relacionando ldquodicionaacuteriordquo ldquolivrordquo e peccedila atraveacutes de suas EQ Fonte NETO 2003a

322 Sistema de Tipos Semacircnticos

Um sistema de tipos semacircnticos analisa o comportamento polissecircmico e loacutegico de

nomes implicitamente relacionais como por exemplo porta janela Pustejovsky mostra como

o leacutexico gerativo faz uso de estruturas de aspectos tiacutepicos e afirma que esses nomes tecircm dois

sentidos relacionais (ldquoobjeto fiacutesicordquo e ldquoaberturardquo) que satildeo logicamente parte do significado do

nome Essa habilidade que um item lexical tem de agrupar vaacuterios sentidos eacute chamada

ldquoparadigma leacutexico-conceptual (plc ou lcp)rdquo O plc eacute como um construtor de tipo por exemplo

em palavras como ldquoportardquo e1 significa objeto_fiacutesico e2 abertura e o tipo resultante eacute

ldquoobjeto_fiacutesicoabertura_plc = objeto_fiacutesicoabertura objeto_fiacutesicoaberturardquo

Figura 16 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquolivrordquo Fonte ROSSI 2003

42

Figura 17 Exemplo de polissemia loacutegica na representaccedilatildeo matricial da palavra ldquojornalrdquo Fonte ROSSI 2003

322 Mecanismos gerativos

O Leacutexico Gerativo apresenta ainda um conjunto de trecircs mecanismos que fazem uso

das estruturas ldquoeventordquo ldquoargumentordquo e ldquoqualiardquo os quais satildeo ditos gerativos pois relacionam

diferentes itens lexicais possibilitando a interpretaccedilatildeo composicional de palavras em contexto

3221 Coerccedilatildeo de tipo

Autoriza a mudanccedila de tipo e por extensatildeo de denotaccedilatildeo de nomes e expressotildees de

acordo com o contexto a que pertencem A coerccedilatildeo de tipo reconstroacutei a semacircntica do

complemento e soacute teraacute sucesso se o item lexical em questatildeo tiver um atalho para o tipo

desejado O exemplo claacutessico dado por Pustejovsky eacute ldquoJoatildeo comeccedilou um livrordquo em que o

predicado comeccedilar requer um tipo diferente do apresentado por livro ou seja o verbo requer

um complemento do tipo ldquoeventordquo que natildeo eacute satisfeito por ldquolivrordquo O termo ldquocomeccedilar um

livrordquo eacute interpretado como comeccedilar a ler (ou escrever) um livro

3222 Ligaccedilatildeo seletiva

Rege a relaccedilatildeo semacircntica que um modificador tem com o seu nuacutecleo ou seja ela

trata do problema da polissemia adjetival uma vez que os adjetivos satildeo interpretados a partir

da semacircntica do nuacutecleo Exemplos

(1) Um passeio raacutepido

(2) Um motorista raacutepido

43

(3) Um digitador raacutepido

(4) Um computador raacutepido

O primeiro problema estaacute claramente exemplificado com (1) em oposiccedilatildeo a (2) (3) e

(4) ou seja o primeiro trata de uma adjetivaccedilatildeo sobre um evento e os demais de uma

adjetivaccedilatildeo sobre indiviacuteduos Jaacute para o segundo problema diz-se que a interpretaccedilatildeo do

adjetivo vai ser selecionada por algum dos qualia do nuacutecleo do sintagma nominal ou seja

pela ligaccedilatildeo seletiva Esse mecanismo vai buscar a interpretaccedilatildeo de raacutepido para os exemplos

acima no quale teacutelico dos nuacutecleos

3223 Co-composiccedilatildeo

Os itens lexicais componentes de um determinado sintagma influenciam-se

mutuamente e um complemento pode adicionar um sentido ao seu nuacutecleo Pustejovsky

comeccedila exemplificando esse mecanismo com a polissemia de verbos como o ldquoassarrdquo que

apresenta dois sentidos uma mudanccedila de estado e outra de criaccedilatildeo do objeto Os exemplos

claacutessicos satildeo

(a) Letiacutecia assou as batatas

(b) Letiacutecia assou o bolo

Observa-se que em (1) houve apenas uma mudanccedila de estado pois as batatas jaacute

existiam antes de serem assadas em (2) um sentido de criaccedilatildeo de objeto eacute atribuiacutedo ao verbo

uma vez que antes da assadura o bolo natildeo existia Contudo Pustejovsky (1991) afirma que

ordinariamente soacute haacute um sentido para ldquoassarrdquo o de mudanccedila de estado pois tal verbo tem seu

tipo de evento modificado devido a informaccedilotildees que satildeo trazidas pelo complemento ou seja

essas leituras soacute satildeo possiacuteveis a partir de mecanismo de co-composiccedilatildeo em que os

complementos co-especificam o verbo

Por buscar formalizar a estrutura semacircntica de uma liacutengua o trabalho de Pustejovsky

eacute de grande importacircncia para a aacuterea de recuperaccedilatildeo de informaccedilatildeo Uma tentativa de

implementaccedilatildeo computacional da sua teoria foi realizada por Abrahatildeo (1997) envolvendo a

modelagem e a implementaccedilatildeo de um leacutexico semacircntico para a Liacutengua Portuguesa

Inicialmente este autor realizou um estudo de conceitos baacutesicos relacionados agrave semacircntica

Durante a sua pesquisa foram apresentadas teacutecnicas de representaccedilatildeo do conhecimento e do

significado que auxiliaram a seleccedilatildeo e o entendimento do modelo proposto por Pustejovsky

44

Como subsiacutedio para a implementaccedilatildeo de um leacutexico semacircntico para o portuguecircs

Abrahatildeo (1997) fez um estudo aprofundado da teoria de Pustejovsky onde salienta que os

problemas mais comuns agrave representaccedilatildeo do significado das palavras como ldquoambiguumlidade

lexical polissecircmicardquo por exemplo satildeo solucionados de forma eficiente e computacional

Como o modelo de Pustejovsky eacute voltado ao Inglecircs foram encontradas semelhanccedilas e

diferenccedilas entre a liacutengua origem do modelo e o Portuguecircs Variaccedilotildees verbais - facilita o mapeamento direto os verbos satildeo inseridos numa forma canocircnica (baacutesica ou infinitiva) no leacutexico variaccedilotildees de grau nos substantivos como alternativa de soluccedilatildeo satildeo armazenados em uma forma canocircnica palavras que se comportam como verbo e substantivo palavras que se comportam como adjetivo e substantivo tambeacutem satildeo mapeadas atraveacutes do uso da estrutura de lcps de Pustejovsky mapeamento de expressotildees - expressotildees devem ser inseridas no leacutexico pois expressam um significado especiacutefico substantivos compostos por mais de uma palavra acentuaccedilatildeo ndash itens lexicais do Inglecircs natildeo apresentam acentos Esta caracteriacutestica do Portuguecircs deve ser inserida no leacutexico pois diferencia o significado de suas palavras Deste modo esta informaccedilatildeo foi atribuiacuteda aos registros de informaccedilotildees semacircnticas atraveacutes de uma variaacutevel que conteacutem o tipo e a posiccedilatildeo na palavra em que o acento aparece (ABRAHAtildeO 1997 pgs 78-80)

Abrahatildeo (1997) construiu sua implementaccedilatildeo do leacutexico sobre uma estrutura em

aacutervore Trie17 que proporciona um maior poder de representaccedilatildeo na busca de informaccedilotildees e

baixa quantidade de dados armazenados As informaccedilotildees semacircnticas associadas aos itens

lexicais satildeo armazenadas em listas encadeadas a partir de uma estrutura denominada de

Descritor Semacircntico Um item lexical pertence ao leacutexico semacircntico se este item possui um

Descritor Semacircntico associado ao seu uacuteltimo caractere na aacutervore E ainda um Descritor

Semacircntico abrange os ponteiros essenciais para a busca das informaccedilotildees semacircnticas relativas

ao item lexical

De acordo com este autor as informaccedilotildees semacircnticas associadas aos itens lexicais

seguem o modelo de Pustejovsky (1991) sendo dividida em trecircs estruturas baacutesicas de

argumentos de eventos e de Qualia As estruturas de argumentos e de eventos satildeo

implementadas atraveacutes de uma lista de argumentos e uma lista de eventos A estrutura de

Qualia eacute composta de quatro listas de informaccedilotildees uma para cada papel (formal constitutivo

teacutelico e agentivo)

Segundo este autor todas as estruturas do leacutexico semacircntico foram desenvolvidas em

vetores A manipulaccedilatildeo destes vetores daacute-se sobre estruturas denominadas cabeccedilalhos Estes

cabeccedilalhos fornecem informaccedilotildees sobre a alocaccedilatildeo de vetores em memoacuteria ponteiros para os

vetores de informaccedilatildeo tamanhos dos vetores e os arquivos associados ao sistema O nuacutecleo de

17 Segundo Abrahatildeo (1997) ldquoeacute um tipo especial de estrutura onde cada caractere dos itens lexicais determina um nodo da aacutervorerdquo

45

dados do sistema eacute constituiacutedo de dois cabeccedilalhos cabeccedilalho da aacutervore Trie e o cabeccedilalho das

informaccedilotildees semacircnticas

A biblioteca de funccedilotildees conteacutem os procedimentos necessaacuterios para manutenccedilatildeo do

banco de dados lexical bem como procedimentos de busca de informaccedilotildees semacircnticas

Juntamente com a biblioteca uma interface graacutefica foi construiacuteda possibilitando a manutenccedilatildeo

do banco de dados e facilitando a visualizaccedilatildeo da semacircntica dos itens lexicais Esta interface

graacutefica eacute implementada na linguagem de programaccedilatildeo em C para as estaccedilotildees de trabalho SUN

sobre o sistema de janelas XVIEW18 (ABRAHAtildeO 1997)

Esta seccedilatildeo mostrou a importacircncia da teoria de Pustejovsky e suas possibilidades O

LG eacute fundamental para compreensatildeo semacircntica pois considera o contexto da palavra sendo

capaz de estruturar um domiacutenio especiacutefico atraveacutes da EQ e tambeacutem de identificar dentro de

um domiacutenio quando determinada palavra aparece em tal contexto Pelo desenvolvimento do

trabalho de Abrahatildeo pode-se perceber a dimensatildeo e os elementos necessaacuterios para o

significado de uma palavra reforccedilando-se assim o valor e a viabilidade da teoria de

Pustejovsky

A proacutexima seccedilatildeo apresenta o trabalho de Gonzalez (2005) que estudou Pustejovsky19

e posteriormente desenvolveu sua proacutepria concepccedilatildeo de uma estrutura de RI (toda

automatizada)

33 O Modelo TR+ de Gonzalez

O modelo TR+ eacute considerado um modelo para RI que utiliza duas fases para o

desenvolvimento de sua estrutura fase de indexaccedilatildeo e fase de busca

18 XVIEW ldquoeacute um sistema de janela orientado a objeto que permite ao programador criar e utilizar objetos tais como janelas textos paineacuteis iacutecones entre outros para construir uma aplicaccedilatildeo Seus objetos satildeo predefinidos e satildeo ricos em funcionalidade o que permite que o coacutedigo necessaacuterio para manipular essas janelas seja pequeno simples e muito faacutecil de se compreenderrdquo (ABRAHAtildeO 1997 p 86) 19 Realizou um trabalho individual no doutorado denominado ldquoO Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildeesrdquo de 2000a

46

Indexaccedilatildeo de textos segundo Baeza-Yates e Ribeiro-Neto (1999) e Gonzalez (2005)

eacute o processo que estipula descritores20 dos conteuacutedos dos textos de uma coleccedilatildeo de

documentos com objetivo de busca e classificaccedilatildeo dos mesmos para atender consultas em

sistemas de RI Descritores podem descrever conceitos atocircmicos sendo lsquotermosrsquo ou conceitos

complexos sendo lsquorelacionamentosrsquo O conjunto de descritores concebido na indexaccedilatildeo

favorece uma visatildeo loacutegica dos documentos com o propoacutesito de unir esses descritores termos

e relacionamentos a conceitos presentes nos textos dos documentos

Para os relacionamentos este autor classifica trecircs tipos explicando-os atraveacutes do

exemplo ldquo tecircm preocupado os pesquisadoresrdquo O primeiro tipo eacute o par modificado-

modificador como lsquopesquisador-preocupadorsquo O segundo eacute o bigrama (preocupado

pesquisador) e o terceiro eacute o Sintagma Nominal que para ele significa lsquopesquisador

preocupadorsquo e que para a pesquisa de Gonzalez ficaria na sua forma natural lsquopreocupado os

pesquisadoresrsquo O autor ainda cita que haacute outros formatos de relacionamentos como a

expressatildeo ternaacuteria (preocupaccedilatildeo-de-pesquisador) e a relaccedilatildeo binaacuteria

(preocupaccedilatildeopesquisador)

Gonzalez (2005) aponta dois tipos de relacionamentos como problemas os bigramas

por natildeo poderem descrever o conceito (ldquoferro sopardquo para ldquopanela de ferro com sopardquo) e os

termos com palavras comuns mas coadjuvantes importantes (ldquosentar bancordquo e ldquodepositar

bancordquo) os sintagmas nominais que para o autor representam tanto o conceito atocircmico quanto

o complexo (ldquonoiterdquo e ldquoboca da noiterdquo) Eacute importante perceber que a partir dessas

caracteriacutesticas e aspectos acima definidos Gonzalez (2005) propocircs um novo modelo de

espaccedilo de descritores (uniatildeo do conjunto de termos com o conjunto de relacionamentos) Este

novo modelo surgiu a partir de outros cinco modelos de descritores jaacute existentes

1 Unigrama conjunto de termos natildeo relacionados

2 N-grama (NG) conjunto de relacionamentos estatiacutesticos

3 Termo-Termo (TT) conjunto de termos relacionados estatiacutestica ou

sintaticamente

4 Termo-Relacionamento (TR) conjunto de termos e relacionamentos sintaacuteticos

20 A palavra descritores eacute usada para se tratar dos termos e relacionamentos enquanto os iacutendices se referem apenas aos termos O descritor lsquotermorsquo significa uma unidade lexical formada por uma uacutenica palavra ou por mais de uma denominada de lsquotermo compostorsquo E o descritor lsquorelacionamentorsquo ocorre entre termos ou seja satildeo relaccedilotildees de construccedilotildees sintaticamente diferentes que tecircm o mesmo significado (semacircntica) Exemplo lsquodefesa eficientersquo eacute igual a lsquodefender eficientementersquo e lsquofeira de domingorsquo eacute igual a lsquofeira dominicalrsquo Alguns autores como Baeza-Yates e Ribeiro-Neto (1999) utilizam a palavra lsquoiacutendicersquo ao inveacutes de descritores contudo Gonzalez ressalta que esta palavra refere-se apenas aos lsquotermosrsquo natildeo dando conta da semacircntica que envolve os lsquorelacionamentosrsquo

47

5 Relacionamento-Termo (RT) conjunto de relacionamentos sintaacuteticos e seus

componentes ldquoOs Sintagmas Nominais constituem os principais descritores neste

casordquo (GONZALEZ 2005 p41)

O modelo TR+ proposto por este autor combina aspectos dos modelos TR e RT

A Figura 18 daacute uma visatildeo geral do modelo TR+ de Gonzalez (2005) na fase de

indexaccedilatildeo com suas etapas essenciais e na fase de busca para a classificaccedilatildeo por relevacircncia

dos documentos em relaccedilatildeo agrave consulta

g

f

e

da a

b b

c

Figura 18 Visatildeo Geral do modelo TR+ Fonte Gonzalez 2005

O espaccedilo de descritores do modelo TR+ construiacutedo na fase de indexaccedilatildeo eacute com

de quatro processos principais

a) Preacute-processamento (toquenizaccedilatildeo e etiquetagem)

b) Nominalizaccedilatildeo

c) Captura de RLBs

d) Termos e RLBs

Na etapa ldquoardquo de preacute-processamento ocorrem duas accedilotildees fundamentais Toquen

e Etiquetagem A toquenizaccedilatildeo eacute a identificaccedilatildeo de cada item lexical (palavra e pontu

Na etiquetagem existe um etiquetador gramatical (part-of-speech tagger - parser

identifica atraveacutes de uma etiqueta (tag) a categoria gramatical de cada palavra do

(adjetivo substantivo verbo entre outras) Geralmente eacute morfoloacutegico (identifica som

c

posto

izaccedilatildeo

accedilatildeo)

) que

texto

ente a

48

categoria morfoloacutegica) ou morfossintaacutetico (identifica tambeacutem as funccedilotildees sintaacuteticas) Estes

processos satildeo realizados de forma automatizada21

Antes da nominalizaccedilatildeo eacute realizada a geraccedilatildeo de espaccedilo dos descritores que se

constitui na seleccedilatildeo e normalizaccedilatildeo dos descritores e ainda a contagem de frequumlecircncia de

ocorrecircncia dos descritores - termos (para o caacutelculo de seus pesos) que seraacute usada na etapa

ldquodrdquo

Faz parte do processo de seleccedilatildeo de descritores a eliminaccedilatildeo de stopwords22 que

podem ser descartadas na fase de indexaccedilatildeo e na consulta Essa exclusatildeo justifica-se segundo

o autor porque as stopwords satildeo consideradas palavras com pouca representatividade A

seleccedilatildeo dos descritores a quantidade dos mesmos e o peso de cada um podem ser afetados

pela normalizaccedilatildeo linguumliacutestica

A normalizaccedilatildeo segundo Gonzalez (2005) apresenta trecircs tipos conhecidos como

bull Sintaacutetica - que transforma frases semanticamente equivalentes mas

sintaticamente diferentes (ldquoeficiente processo raacutepidordquo e ldquoprocesso raacutepido

eficienterdquo)

bull Leacutexico-semacircntico ndash que utiliza relacionamentos semacircnticos (como a sinoniacutemia)

para substituir palavras morfologicamente distintas por uma uacutenica forma que

representa o conceito evidenciado

bull Morfoloacutegica ndash reduz as formas flexionais de uma palavra por meio da

conflaccedilatildeo23

No modelo TR+ foi utilizada a normalizaccedilatildeo lexical para o processo de

nominalizaccedilatildeo Este processo de nominalizaccedilatildeo constitui a etapa ldquobrdquo e significa a

transformaccedilatildeo de uma palavra (adveacuterbio adjetivo ou verbo) existente no texto em um

substantivo semanticamente equivalente constituiacutedo com regras vaacutelidas de formaccedilatildeo de

palavras (GONZALEZ 2005)

A tabela abaixo mostra exemplos de termos nominalizados Nesta etapa de

nominalizaccedilatildeo eacute utilizada a ferramenta CHAMA24

21 A ferramenta FORMA (Toquenizaccedilatildeo e Etiquetagem Morfoloacutegica) foi utilizada por Gonzalez O autor cita o nome desta ferramenta no seu site httpwwwinfpucrsbr~gonzaleztr+ Acesso em 14 de fevereiro de 2006 22 Stopwords satildeo palavras como preposiccedilotildees artigos e conjunccedilotildees 23 Conflaccedilatildeo satildeo processos realizados por algoritmos que combinam a representaccedilatildeo de duas ou mais palavras em um uacutenico termo Haacute dois meacutetodos mais comuns stemming que reduz a palavra para a parte fundamental semelhante ao radical e lematizaccedilatildeo que reduz a palavra variaacutevel agrave correspondente forma ldquocanocircnicardquo 24 A ferramenta CHAMA (nominalizaccedilatildeo de adjetivos verbos e adveacuterbios) foi desenvolvida por Marco Antonio Insaurriaga Gonzalez (doutor em Ciecircncia da Computaccedilatildeo pela UFRGS) Em sua tese de doutorado intitulada ldquoTermos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeordquo 2005

49

Tabela 1 Exemplos de nominalizaccedilatildeo Fonte Gonzalez 2005

Devido agraves diferentes variaccedilotildees que a nossa Liacutengua Portuguesa apresenta este autor

trabalha em seu modelo com palavras sem acentuaccedilatildeo e em letras minuacutesculas ocorrendo um

comprometimento do significado das palavras como por exemplo eacute citado por ele puacuteblica e

publica

A etapa ldquocrdquo de captura de Relaccedilotildees Lexicais Binaacuterias (RLBs) eacute segundo Gonzalez

(2005) o relacionamento entre termos nominalizados ou seja sintaticamente diferentes mas

semanticamente iguais25 Uma RLB pode ser classificada tambeacutem quanto agrave nominalizaccedilatildeo de

seus componentes Este autor sistematiza e classifica esta questatildeo conforme aparece em seus

exemplos abaixo (2005 p 47)

bull Original onde o termo natildeo recebeu o processo de nominalizaccedilatildeo

bull Derivada onde um dos termos pelo menos resulta do processo de

nominalizaccedilatildeo

Uma RLB de acordo com Gonzalez (2005) apresenta a seguinte aparecircncia

25 Gonzalez desenvolveu o software RELLEX para o reconhecimento de relaccedilotildees lexicais binaacuterias em sua tese de doutorado 2005

50

id (t1t2) onde

id significa o identificador de relaccedilatildeo e

t1 e t2 satildeo os termos nominalizados

Este autor aponta os trecircs tipos de RLBs quanto ao identificador id

bull Classificaccedilatildeo onde id eacute especificado com um sinal de igual (=) t1 representa

uma subclasse ou uma instacircncia de t2 e t2 representa uma classe

Exemplos =(caoanimal)

=(PET garrafa) Exemplo desenvolvido nesta dissertaccedilatildeo

bull Restriccedilatildeo onde id eacute uma preposiccedilatildeo t1 representa um elemento modificado e t2

representa um elemento modificador

Exemplos de(equipeatletismo)

com(supervisorexperiencia)

por(orientacaoministro)

bull Associaccedilatildeo onde id representa um evento t1 eacute um sujeito e t2 eacute um objeto

(direto ou indireto) ou um adjunto

Exemplos superacao(alunodificuldade)

interessea(propostanegociante)

moradiaem(presidentebrasilia)

As Relaccedilotildees Lexicais Binaacuterias conforme Gonzalez (2005) satildeo inseridas no espaccedilo

de descritores para ampliar o seu universo As RLBs descrevem relaccedilotildees semacircnticas lexicais

como as que satildeo apresentadas na estrutura de Qualia da teoria do Leacutexico Gerativo de

Pustejovsky (GONZALEZ 2000 PUSTEJOVSKY 1991) O estudo desta teoria motivou o

Gonzalez a desenvolver a proposta das RLBs como parte integrante de seu trabalho como um

modo de adequaacute-la a aplicaccedilotildees na aacuterea de RI

Como jaacute foi descrita na seccedilatildeo 32 a Estrutura de Qualia da teoria do Leacutexico

Gerativo descreve um item lexical atraveacutes de quatro papeacuteis formal constitutivo agentivo e

teacutelico O papel formal distingue um item lexical em um domiacutenio maior Em uma RLB

segundo Gonzalez (2005) do tipo classificaccedilatildeo como ldquo=(computadormaquina)rdquo por

exemplo o computador seria distinguido como uma maacutequina ou em ldquo=(ipmftributo)rdquo o ipmf

seria um tributo Portanto a RLB do tipo classificaccedilatildeo corresponde ao papel formal da

estrutura de Qualia

51

O papel constitutivo estabelece a relaccedilatildeo entre um item lexical X e suas partes

constituintes Em uma RLB do tipo restriccedilatildeo como ldquode(mesamadeira)rdquo por exemplo haveria

a indicaccedilatildeo de que a mesa eacute feita de madeira ou em ldquocom(massaalho)rdquo de que haacute alho na

massa O papel agentivo especifica os fatores envolvidos na origem ou causa de um item

lexical Em uma RLB para este autor do tipo restriccedilatildeo como ldquopor(publicacaoautor)rdquo por

exemplo seria especificado que a publicaccedilatildeo se deve ao autor ou em ldquopor(impedimentolei)rdquo

que a lei eacute a razatildeo do impedimento

O papel teacutelico explica qual a funccedilatildeo ou finalidade do item lexical Em uma RLB do

tipo associaccedilatildeo como ldquoconserto(encanadorvazamento)rdquo por exemplo explica que a funccedilatildeo

do encanador eacute o conserto do vazamento ou em uma RLB do tipo restriccedilatildeo como

ldquopara(leituraaprendizado)rdquo que a finalidade da leitura eacute o aprendizado (GONZALEZ 2005)

Este autor salienta que natildeo se quer que as RLBs ldquointerpretemrdquo o texto com

distinccedilotildees indicaccedilotildees especificaccedilotildees ou explicaccedilotildees dos tipos apresentados O propoacutesito eacute de

que as RLBs sejam descritores de tais fatos mas sem classificaccedilatildeo (etiquetas) Por isto os

identificadores de relaccedilatildeo natildeo satildeo rotulados com os papeacuteis descritos A uacutenica exceccedilatildeo eacute o

identificador das RLBs do tipo classificaccedilatildeo O indicador ldquo=rdquo eacute o roacutetulo inevitaacutevel para o

claacutessico ldquoeacute umrdquo porque natildeo haacute outro papel possiacutevel nesse tipo de relaccedilatildeo

No modelo TR+ estaacute envolvido aleacutem da coleccedilatildeo de documentos constituiacuteda por

descritores (termos e relacionamentos) tambeacutem os seus respectivos pesos que dependem de

uma formulaccedilatildeo matemaacutetica denominada de lsquocaacutelculo de representatividadersquo dos descritores

em cada documento que eacute um diferencial deste modelo e estaacute na fase ldquodrdquo onde os termos e

RLBs seratildeo armazenados

Para ocorrer o caacutelculo do peso dos descritores eacute aplicado o conceito de evidecircncia26

Este conceito natildeo depende apenas da frequumlecircncia de ocorrecircncia de um descritor mas de um

outro mecanismo ldquoa representatividade de um descritor depende aleacutem de sua frequumlecircncia de

ocorrecircncia no texto da ocorrecircncia de mecanismos de coesatildeo fraacutesicardquo (GONZALEZ 2005

p48) A coesatildeo fraacutesica determina uma junccedilatildeo significativa entre os componentes de uma

frase27 Esta junccedilatildeo aliada com a frequumlecircncia de ocorrecircncia constitui o conceito de evidecircncia

como um dos aspectos essenciais da Tese de Gonzalez (2005)

A evidecircncia dos termos eacute realizada de forma direta com a frequumlecircncia e a coesatildeo

fraacutesica mas a evidecircncia de um relacionamento natildeo pois esta eacute dependente primeiramente das

26 Evidecircncia significa qualidade daquilo que eacute evidente que eacute incontestaacutevel que todos vecircem ou podem ver e verificar (Dicionaacuterio Eletrocircnico Michaelis) Como descreve Gonzalez (2005) ldquoeacute aquilo natildeo oferece ou natildeo daacute margem agrave duacutevidardquo 27 Site httpacdufrjbr~peadtema09coesaogramaticalhtml

52

evidecircncias de seus termos Este conceito estaacute inserido no caacutelculo de representatividade de um

descritor

O caacutelculo da representatividade eacute um caacutelculo de relevacircncia do termo ou

relacionamento que varia de acordo com as abordagens (booleana vetorial e probabiliacutestica) e

pode ser realizado apenas com a frequumlecircncia da palavra no documento ou ainda com a

frequumlecircncia vinculada com a sua informaccedilatildeo morfoloacutegica ou sintaacutetica (GONZALEZ 2005)

Para realizar o caacutelculo da representatividade dos descritores haacute duas estrateacutegias de

determinaccedilatildeo que satildeo os modelos com unigramas que tratam os termos de forma

independente (abordagens vetorial e probabiliacutestica) e os modelos com dependecircncia entre

termos Estas dependecircncias envolvem conjuntos diferentes de conhecimentos que satildeo os

estatiacutesticos e os linguumliacutesticos28 Os conhecimentos linguumliacutesticos satildeo ldquoleacutexico morfoloacutegico

fonoloacutegico sintaacutetico semacircntico e pragmaacuteticordquo (ABRAHAtildeO 1997 p11)

Estes dois modelos descritos acima satildeo apresentados como mais significativos

poreacutem ainda utilizam a abordagem booleana Isto porque Gonzalez (2005) define como o

caminho mais promissor a combinaccedilatildeo da abordagem booleana (individualmente limitadora)

com a uniatildeo dos conhecimentos estatiacutesticos e linguumliacutesticos entre si que permitem mais

interaccedilatildeo com o usuaacuterio

O caacutelculo da representatividade ao mesmo tempo que eacute uma propriedade baacutesica de

um descritor apresenta diferentes formas de acordo com as abordagens vetorial e

probabiliacutestica (capiacutetulo 2) e gera diversas interpretaccedilotildees Por isto Gonzalez (2005) propotildee um

novo caacutelculo que compreenda a importacircncia do contexto nas foacutermulas inseridas no seu modelo

TR+

O outro momento de seu modelo (Figura 18) compreende a lsquofase de buscarsquo que inclui

Preacute-Processamento (toquenizaccedilatildeo e etiquetagem) Nominalizaccedilatildeo e Captura de RLBs Estas

etapas ocorrem da mesma maneira que na fase de indexaccedilatildeo Inclui tambeacutem as etapas

Formulaccedilatildeo de consulta booleana Busca e Classificaccedilatildeo

Na etapa ldquoerdquo (Formulaccedilatildeo de Consulta Booleana) Gonzalez (2005) explica que se a

consulta q em linguagem natural formulada pelo usuaacuterio for por exemplo ldquopintura

restauradardquo entatildeo seraacute formulada no formato Booleano conforme o modelo TR+ a seguinte

consulta qb

28 Estes conhecimentos envolvem niacuteveis leacutexico-morfoloacutegico e sintaacutetico sintagmas nominais (sujeito objeto direto e indireto e adjunto adnominal) A vantagem destes eacute a capacidade de identificar relacionamentos entre palavras natildeo adjacentes como ldquoalgoritmosrdquo e ldquoconcorrentesrdquo em ldquoalgoritmos sequumlenciais e concorrentesrdquo

53

r1 OU r2 OU ( (n1 (p1) OU n2(p1) ) E (n1 (p2) OU n2(p2) ) ) onde

r1 = de(restauracaopintura)

r2 = r1rsquo = diferente_de(restauracaopintura)

n1(p1) = (elemento vazio)

n2(p1) = pintura

n1(p2) = restauracao

n2(p2) = restaurador

p1 = pintura e

p2 = restaurada

Tabela 2 Exemplo de uma consulta qb Fonte Gonzalez 2005 p 51

Na fase de busca a etapa ldquofrdquo ocorre uma relaccedilatildeo entre a etapa ldquoerdquo e a etapa ldquodrdquo Esta

uacuteltima acontece ainda na fase de indexaccedilatildeo visto que ldquoestando os termos e as RLBs definidas

e calculados os pesos a classificaccedilatildeo dos documentos depende do valor de relevacircncia dos

mesmos e da formulaccedilatildeo Booleana da consultardquo (GONZALEZ 2005 p 50)

A etapa ldquogrdquo (Classificaccedilatildeo) eacute resultado de um caacutelculo sobre os dados obtidos no

procedimento anterior que identifica o valor de relevacircncia de cada documento recuperado-os

em ordem decrescente Um exemplo de classificaccedilatildeo eacute indicado por Gonzalez (2005) atraveacutes

da foacutermula de uma consulta denominada q Nesta consulta encontram-se os termos t1 e t2 e a

RLB r e se estes dois termos estatildeo relacionados atraveacutes de r em um documento d estes teratildeo

dupla contribuiccedilatildeo no caacutelculo do valor de relevacircncia de d poreacutem se t1 e t2 ocorrem em d mas

natildeo estatildeo relacionados atraveacutes de r o autor considera que esta contribuiccedilatildeo seraacute simples e

assim d tende a perder posiccedilotildees na classificaccedilatildeo por relevacircncia a q

Os documentos recuperados classificam-se em dois grupos (a) grupo superior de maior relevacircncia documentos que atendem agraves condiccedilotildees estabelecidas na consulta Booleana ou seja possuem pelo menos uma das RLBs da consulta ou na falta de todas elas possuem obrigatoriamente todos os termos conforme especificado (b) grupo inferior de menor relevacircncia documentos que natildeo atendem a todas as condiccedilotildees estabelecidas na consulta Booleana mas possuem pelo menos um dos termos da consulta Os documentos satildeo classificados em ordem decrescente do valor de relevacircncia tanto nos grupos superior como inferior (GONZALEZ 2005 p 51)

Eacute importante ressaltar que toda a proposta de Gonzalez (Modelo TR+) foi

automatizada testada e aprovada Foi utilizado o software FORMA para a etapa de preacute-

processamento e os demais softwares como CHAMA (nominalizaccedilatildeo) e RELLEX (regras de

54

identificaccedilatildeo de RLBs) foram desenvolvidos pelo autor Diversos algoritmos juntamente com

abordagens de RI (booleana probabiliacutestica e vetorial) foram desenvolvidos para as fases

posteriores do seu trabalho como o caacutelculo do peso dos descritores a busca e a classificaccedilatildeo

de documentos

As experimentaccedilotildees desenvolvidas por Gonzalez (2005) em seu trabalho lograram

comprovar que o processo de nominalizaccedilatildeo como processo de normalizaccedilatildeo lexical

proporciona melhores resultados de recuperaccedilatildeo que os produzidos pelos processos

tradicionais (lematizaccedilatildeo e stemming) a identificaccedilatildeo de RLBs (obtenccedilatildeo de informaccedilatildeo

linguumliacutestica) contribui de forma positiva para a descriccedilatildeo de dependecircncias de termos

ampliando o espaccedilo de descritores o caacutelculo da representatividade dos descritores baseado em

evidecircncia melhora a classificaccedilatildeo de relevacircncia dos documentos com vantagem sobre o

caacutelculo baseado em frequumlecircncia de ocorrecircncia o uso de consultas com operadores Booleanos

trata-se de uma forma eficaz de complementar a especificaccedilatildeo de dependecircncias de termos e

tambeacutem a inclusatildeo de conhecimento linguumliacutestico como a realizada no modelo proposto pelo

autor apresenta relaccedilatildeo custobenefiacutecio viaacutevel dentro do atual estaacutegio de desenvolvimento da

pesquisa em RI

O proacuteximo capiacutetulo descreve o novo modelo proposto para esta dissertaccedilatildeo baseado

na identificaccedilatildeo das possibilidades de ampliaccedilatildeo de siacutentese e de sistematizaccedilatildeo do modelo de

Kuramoto com a estrutura de Gonzalez Pode ser considerada uma soluccedilatildeo hiacutebrida de um

modelo de RI que une trecircs teorias Sintagmas Nominais de Kuramoto Leacutexico Gerativo de

Pustejovsky e Modelo TR+ de Gonzalez Apresentar-se-aacute os paracircmetros gerais norteadores e

justificadores do modelo a descriccedilatildeo narrativa da sua funcionalidade os resultados dos testes

e a descriccedilatildeo formal UML do modelo

55

4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO

A proposta desta dissertaccedilatildeo eacute de integrar a aplicaccedilatildeo praacutetica do projeto dos

Sintagmas Nominais de Kuramoto sistematizando e associando com o modelo TR+ de

Gonzalez (2005)

Na descriccedilatildeo do modelo do sistema proposto foi utilizado o meacutetodo denominado de

Processo Unificado (UP) que envolve as fases de concepccedilatildeo elaboraccedilatildeo construccedilatildeo e

transiccedilatildeo e utilizou-se a Linguagem de Modelagem Unificada (UML) que eacute fortemente

relacionada com a metodologia utilizada segundo Wazlawick (2004)

Neste capiacutetulo desenvolve-se o modelo conceitual da aplicaccedilatildeo proposta para a qual

foram realizadas as etapas de levantamento e anaacutelise de requisitos representada pelo

diagrama e pela descriccedilatildeo dos casos de uso e de construccedilatildeo dos diagramas de classes e de

sequumlecircncia relacionados

41 Procedimentos desenvolvidos utilizando o modelo de SN de Kuramoto e a proposta

Gonzalez - ldquoEstrutura SINTR+rdquo

Esta dissertaccedilatildeo optou por realizar uma relaccedilatildeo entre propostas diferenciadas utilizar

o modelo de SN de Kuramoto para a organizaccedilatildeo dos conceitos mais significativos dos

documentos e a proposta de Gonzalez para a busca dessas informaccedilotildees que estaratildeo

estruturadas atraveacutes da dependecircncia entre termos Esta relaccedilatildeo foi desenvolvida na criaccedilatildeo da

ldquoEstrutura SINTR+rdquo que tem como especificidade a busca nos documentos a partir do banco

de dados dos Sintagmas Nominais Esta escolha de unir em uma estrutura proacutepria os SN e o

Modelo TR+ pautou-se pelo intuito de orientar mais objetivamente o usuaacuterio na definiccedilatildeo da

sua query de busca atraveacutes de uma navegaccedilatildeo sobre a estrutura de SN presentes no

documento e de posterior apresentaccedilatildeo de lista de documentos efetivamente relevantes

O objetivo eacute trabalhar com os Sintagmas Nominais evidenciando e potencializando

uma uniatildeo com o modelo TR+ de Gonzalez (2005) O modelo abaixo (Figura 19) apresenta

uma nova proposta pautada na junccedilatildeo sistematizada e analiacutetica da extraccedilatildeo dos SN na

Estrutura de Kuramoto (1999) com o Modelo TR+ de Gonzalez (2005) ldquoEstrutura SINTR+rdquo

56

Documentos

Extraccedilatildeo de SN

Preacute-processamento

Nominalizaccedilatildeo

4

Captura de RLBs

Referecircncia aos

documentos classificados

Classificaccedilatildeo

Lista de SN de Niacutevel Requerido

Lista dos demais Preacute-

3

2

85

3

2

1

Consulta em

LN

7

6

(Fase d

O mo

extraccedilatildeo de tod

o preacute-processam

de acontecer co

de forma mais

foco de anaacutelise

subsequumlentes

Antes

descritores con

frequumlecircncia de o

Etapa 5

Em se

mudanccedila de um

concreto eou a

Te

R

e indexaccedilatildeo)

Figura

delo propost

os os seus Si

ento onde o

m todas as p

objetiva e raacute

somente so

do processo d

stituiacuteda na s

correcircncia dos

guida ocorre

a palavra (ad

bstrato Na E

rmos e

LBs

Busca

Formulaccedilatildeo de consulta Booleana

11

(Fase

19 Visatildeo Geral do Modelo Proposto ldquoEstr

o se inicia a partir dos document

ntagmas Nominais (Etapa 1) Extra

correm a Toquenizaccedilatildeo e a Etiquet

alavras do documento como ocorr

pida apenas diretamente sobre os

bre os termos inclusos nos SN pe

e nominalizaccedilatildeo na Etapa 3 eacute exec

eleccedilatildeo e normalizaccedilatildeo dos descrit

descritores - termos (para o caacutelculo

o processo de nominalizaccedilatildeo que c

veacuterbio adjetivo ou verbo) existen

tapa 4 ocorre a identificaccedilatildeo das

niacuteveis de SN processamento

Nomin

Captura

9

de busca)

utura SINTR+rdquo

os a serem inse

iacutedos os SN na E

agem que Essa e

e no modelo TR

termos constant

rmanece para to

utada a geraccedilatildeo

ores e ainda na

de seus pesos)

onstitui a Etapa

te nos SN em u

RLBs nos SN q

alizaccedilatildeo

de RLBs 0

ridos com a

tapa 2 eacute feito

tapa ao inveacutes

+ eacute realizada

es nos SN O

das as etapas

de espaccedilo dos

contagem da

a ser usada na

3 e significa a

m substantivo

ue significa o

1

1

1

57

relacionamento entre termos nominalizados Estas etapas acima satildeo constituiacutedas para a

geraccedilatildeo do espaccedilo de descritores (termos e RLBs) referentes agrave Etapa 5

Na lsquofase de buscarsquo primeiramente o usuaacuterio digita uma palavra por exemplo

ldquoplaacutesticosrdquo A resposta para o usuaacuterio ocorreraacute pois internamente foi feita uma programaccedilatildeo

(a ser implementada) para identificar o niacutevel do SN solicitado pelo usuaacuterio para que

posteriormente apareccedila para este a lista de todos os SN do niacutevel apresentado contendo a query

solicitada

No caso do exemplo ldquoplaacutesticosrdquo o processo avanccedila na Etapa 6 listando todos os

sintagmas nominais de primeiro niacutevel (SN1) dos documentos (uma vez que a solicitaccedilatildeo

referia-se ao niacutevel 1) Nesta etapa o usuaacuterio poderaacute escolher um dos sintagmas de primeiro

niacutevel ou confirmar a sua escolha (query) inicial O processo continua com a escolha de uma

dentre as opccedilotildees de i) ver a lista de documentos relacionados ao SN1 definido ou ii) solicitar

a relaccedilatildeo de sintagmas de seu segundo niacutevel A visualizaccedilatildeo da lista de sintagmas de niacutevel

superior permitiria ao usuaacuterio filtrar mais a sua consulta Para a determinaccedilatildeo da lista de SN

de segundo niacutevel como por exemplo ldquoa reciclagem de plaacutesticosrdquo ldquoa induacutestria de plaacutesticosrdquo

(Figura 20) tambeacutem foi feita uma programaccedilatildeo especiacutefica que seraacute descrita posteriormente

Na continuidade do processo o usuaacuterio pode prosseguir o refinamento da sua busca

atraveacutes da seleccedilatildeo de SN de maior niacutevel ou pode dar-se por satisfeito com o resultado (Etapa

7) solicitando diretamente a lista dos documentos associados ao SN definidos Nesse caso a

lista eacute apresentada na ordem de classificaccedilatildeo oportunizada pela Estrutura TR+ conforme o

descrito nas proacuteximas etapas

O processamento proposto para a determinaccedilatildeo da relaccedilatildeo dos sintagmas de um

determinado niacutevel foi pensado com vista a gerar economia de espaccedilo de memoacuteria utilizada

uma vez que seratildeo armazenados na base de dados os documentos e seus SN de uacuteltimos niacuteveis

e manipulados apenas os uacuteltimos niacuteveis da estrutura de SN Os niacuteveis anteriores relativos ao

SN seratildeo determinados na programaccedilatildeo desenvolvida a partir da identificaccedilatildeo do nuacutemero de

preposiccedilotildees que o SN apresenta Nesta programaccedilatildeo se houver apenas um termo (ou mesmo

apenas um termo composto) o SN eacute considerado um SN de 1ordm niacutevel A presenccedila de um termo

composto com mais uma preposiccedilatildeo indica a existecircncia de um SN de 2ordm niacutevel Jaacute trecircs termos

com duas preposiccedilotildees vatildeo indicar a presenccedila de um SN de 3ordm niacutevel e finalizando quatro ou

mais termos com 3 (ou mais) preposiccedilotildees remetem ao SN de 4ordm niacutevel

Ao optar pela apresentaccedilatildeo da lista de documentos seratildeo desenvolvidas

(internamente) na programaccedilatildeo conforme o proposto pela Estrutura TR+ de Gonzalez as

etapas de Preacute-processamento (toquenizaccedilatildeo e etiquetagem ndash Etapa 8) Nominalizaccedilatildeo (Etapa

58

9) Captura de RLBs (Etapa 10) Formulaccedilatildeo de consulta Booleana (Etapa 11) Busca (Etapa

12) e por fim Classificaccedilatildeo (Etapa 13)

Na Etapa 11 eacute trabalhado no formato Booleano uma consulta formulada pelo usuaacuterio

conforme o modelo TR+ A Etapa 12 ocorre uma relaccedilatildeo entre a Etapa 11 e a Etapa 5 (esta

etapa ocorre ainda na fase de indexaccedilatildeo) A Etapa 13 eacute a uacuteltima e resulta do caacutelculo que

identifica o valor de relevacircncia de cada documento recuperando-os em ordem decrescente

Eacute importante reforccedilar que o sistema iraacute verificar o preacute-processamento nominalizaccedilatildeo

e a captura de RLBs jaacute realizadas na fase de indexaccedilatildeo comparando-as Apoacutes esta

identificaccedilatildeo o sistema usa a formulaccedilatildeo de consulta Booleana para a busca chegando agrave

classificaccedilatildeo dos documentos de acordo com o peso dos descritores (termos e RLBs)

formulados na fase de indexaccedilatildeo e definidos na fase de busca (de acordo com o termo

escolhido e a coleccedilatildeo dos documentos)

Exemplificando o paraacutegrafo acima a Figura 20 mostra o funcionamento inicial desta

estrutura no que se refere aos Sintagmas Nominais

Pesquisa

Usuaacuterio escolha uma opccedilatildeo (Sintagma Nominal) que mais se identifique com a sua consulta Logo em seguida escolha se deseja ir para o Proacuteximo Niacutevel de Sintagma Nominal ou Estrutura TR+

Buscar (SN) Plaacutesticos

SN1 Os plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN2 A reciclagem de plaacutesticos A separaccedilatildeo de plaacutesticos A induacutestria de plaacutesticos

Proacuteximo niacutevel SN Estrutura TR+

SN3 A induacutestria de reciclagem de plaacutesticos

Estrutura TR+ Proacuteximo niacutevel SN

SN4 -----

Estrutura TR+

Figura 20 Descriccedilatildeo inicial do modelo proposto

59

Buscando analisar as vantagens que a proposta do modelo SINTR+ apresenta vale

lembrar que o modelo TR+ de Gonzalez jaacute apresenta benefiacutecios como

bull O processo de nominalizaccedilatildeo propicia melhores resultados de recuperaccedilatildeo do que

os produzidos pelos processos tradicionais (lematizaccedilatildeo e stemming)

bull A identificaccedilatildeo de RLBs colabora para a descriccedilatildeo de dependecircncia de termos que

ampliam o espaccedilo de descritores

bull O caacutelculo da representatividade dos descritores baseado em evidecircncia melhora a

classificaccedilatildeo da relevacircncia de documentos em relaccedilatildeo agravequela obtida atraveacutes da

extraccedilatildeo e do caacutelculo por frequumlecircncia de ocorrecircncia

bull O uso de consultas com operadores Booleanos oferece uma forma eficaz de

complementar a especificaccedilatildeo de co-dependecircncia semacircntica entre termos

As vantagens antevistas na elaboraccedilatildeo da proposta SINTR+ expandem as jaacute obtidas

pelo modelo de Gonzalez29 pois une a elas a vantagem do modelo de hierarquia de niacuteveis de

SN de Kuramoto Estas vantagens satildeo a ldquoEstrutura SINTR+rdquo executa em um menor tempo na

fase de indexaccedilatildeo dos documentos a ldquoEstrutura SINTR+rdquo conteacutem um tamanho menor de

arquivos de iacutendice e a ldquoEstrutura SINTR+rdquo proporciona facilidade na fase de nominalizaccedilatildeo

visto que os SN satildeo o nuacutecleo de maior significaccedilatildeo de um texto30

Os documentos (textos) usados como campo empiacuterico desta dissertaccedilatildeo foram artigos

retirados da Internet sobre o tema ldquoLixordquo Neste contexto fazem parte da coleccedilatildeo de

documentos temas como ldquoCuidados com o Lixordquo ldquoLixo Industrialrdquo ldquoO destino do lixo

quiacutemicordquo entre outros Como ainda natildeo havia disponiacuteveis extratores automaacuteticos de SN por

hierarquia em niacuteveis foi feita uma leitura dos textos dos quais se retirou manualmente seus

sintagmas Os SN significativos com o tema ldquoLixordquo foram extraiacutedos de dois (2) documentos

(que estatildeo nos ANEXOS A e B) e satildeo apresentados no Anexo C

Apoacutes esta etapa foram extraiacutedos todos os sintagmas nominais (somente do

documento1 - ANEXO A) que estatildeo sublinhados no texto independentes do tema para

exemplificar a extraccedilatildeo da consulta

Para avaliar preliminarmente a extensatildeo com que as vantagens antevistas no modelo

proposto realmente se verificariam foi realizado um teste com o documento1 (ANEXO A)

composto de 9 paraacutegrafos e 1006 palavras (Figura 21)

29 Este modelo foi testado e aprovado na sua proposta de doutorado que estaacute inserida no contexto do grupo de pesquisa da PUCRS no qual o autor participa de estudos na aacuterea haacute mais de uma deacutecada 30 Isto pode ser observado do Anexo A (Documento1) em que os SN satildeo destacados no texto

60

Figura 21 Nuacutemero de palavras do Documento1

O documento1 (ANEXO A) foi o escolhido para dimensionar a reduccedilatildeo no total de

palavrastermos a serem incluiacutedos na base de dados demonstrando a importacircncia do modelo

apresentado conforme tabela abaixo

Categorias Texto Total SNs Total de palavrastermos 1006 640

Substantivos 369 334 Adveacuterbios 41 04

Verbos 133 Ausecircncia de verbos Adjetivos 73 55

Figura 22 Tabela comparativa Texto Total e SNs

O texto possui um total de 1006 palavrastermos sendo destes 369 substantivos 41

adveacuterbios 133 verbos e 73 adjetivos (Figura 22) Do texto todo foi extraiacutedo um total de 139

sintagmas nominais E destes o nuacutemero total de palavrastermos eacute de 640 sendo 334

substantivos 04 adveacuterbios e 55 adjetivos

61

Documento1 - Cresce a induacutestria de reciclagem de plaacutesticos

369

41

133

7355

nordm de substantivos

nordm de adveacuterbios

nordm de verbos

nordm de adjetivos

nordm de adjetivosinseridos nos SN

Figura 22 Nuacutemero de substantivos adveacuterbios verbos e adjetivos do Documento1

Relacionando o nuacutemero de adjetivos do texto todo e os adjetivos inseridos nos SN

pode-se notar um ganho expressivo pois se tem uma reduccedilatildeo de 18 adjetivos Destes dados

133 verbos foram descartados (novamente afirma-se da importacircncia dos SN que representam a

unidade significativa do texto) Tambeacutem se observa que 37 adveacuterbios natildeo foram incluiacutedos

diminuindo assim o nuacutemero de descritores

Estes dados apontam aspectos positivos que consolidam a importacircncia da utilizaccedilatildeo

dos SN na diminuiccedilatildeo de descritores com consequumlente reduccedilatildeo do uso de memoacuteria e ainda

melhora na fase de busca pelo tempo de resposta

A Figura 23 apresenta o comparativo entre o percentual do nuacutemero de palavras do

texto com o percentual do nuacutemero de palavras dos Sintagmas Nominais Isto mostra que o

percentual de SN de 64 tem um valor reduzido colaborando para um nuacutemero menor de

descritores desta forma restringe-se tambeacutem o uso de memoacuteria (neste caso ocupado na fase

de indexaccedilatildeo) reduzem-se os descritores e diminui-se o tempo de resposta na fase de busca

Estes dados natildeo satildeo somente relevantes frente a um modelo de RI mas corroboram para a

manutenccedilatildeo do seu funcionamento

62

Dados Comparativos - Nordm de palavras restantes e dos SNs

64

36 Nordm de palavras dossintagmas nominaisNordm de palavras restantes

100 - nordm total de palavras

Figura 23 Nuacutemero de palavras restantes x Sintagmas Nominais

A Figura 24 mostra que existe um percentual de 28 de adjetivos inseridos nos

Sintagmas Nominais Esses adjetivos durante o processo de nominalizaccedilatildeo conforme

Gonzalez (2005) satildeo transformados em substantivos concretos eou abstratos (se houver) Isto

aponta um nuacutemero bem inferior comparado a um texto inteiro o que promove uma diminuiccedilatildeo

de substituiccedilotildees de um adjetivo por um substantivo concreto eou abstrato que pode inferir

no significado do documento e a reduccedilatildeo destas substituiccedilotildees evita possiacuteveis erros de

interpretaccedilatildeo

Dados Comparativos - Sintagmas Nominais e adjetivos

72

28nordm de sintagmas nominais

nordm de adjetivos inseridosnos SN

Figura 24 Sintagmas Nominais e adjetivos inseridos nos SN

A extraccedilatildeo dos Sintagmas Nominais corresponde agrave primeira etapa Depois desta

extraccedilatildeo manual se agrupou os SN em quatro niacuteveis 1 2 3 e 4 (ANEXO C)

Para o desenvolvimento das demais etapas (toquenizaccedilatildeo etiquetagem morfoloacutegica

nominalizaccedilatildeo e as relaccedilotildees lexicais binaacuterias) foi escolhido o paraacutegrafo 6 do documento1

(ANEXO A)

63

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilada avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Tabela 3 Paraacutegrafo 6 do documento1

Na etapa de toquenizaccedilatildeo e etiquetagem satildeo identificadas classes de palavras como

substantivos adjetivos adveacuterbios preposiccedilotildees artigos conjunccedilotildees e inclusive ponto No

Anexo D eacute possiacutevel visualizar essas informaccedilotildees em duas ferramentas de extraccedilatildeo

disponiacuteveis nos sites do Projeto de Linguumliacutestica Computacional Hermes da Fundaccedilatildeo

Universidade Federal do Rio Grande (FURGBrasil) e do Programa de LAEL da PUC-SP -

Programa de Estudos Poacutes-Graduados em Linguumliacutestica Aplicada e Estudos da Linguagem da

Pontifiacutecia Universidade Catoacutelica de Satildeo Paulo31

A partir desta identificaccedilatildeo adjetivos adveacuterbios e verbos satildeo transformados em

substantivos (concreto eou abstrato) quando for possiacutevel Ou ateacute mesmo o adjetivo seja o

mesmo nome (grafia) para substantivos Esse processo de nominalizaccedilatildeo no trabalho de

Gonzalez (2005) foi realizado atraveacutes da ferramenta CHAMA desenvolvida por ele mesmo

Apoacutes o processo de nominalizaccedilatildeo satildeo identificadas as RLBs (Relaccedilotildees Lexicais

Binaacuterias) conforme descrito nesta seccedilatildeo Gonzalez (2005) desenvolveu tambeacutem a ferramenta

RELLEX para identificaccedilatildeo das RLBs Para o caso do teste optou-se por fazer manualmente32

(ANEXO E) devido agrave indisponibilidade destas duas ferramentas Esta etapa tem uma

importacircncia muito grande onde satildeo reconhecidos os relacionamentos das palavras no texto

atraveacutes de identificadores A tabela 4 mostra as RLBs identificadas do paraacutegrafo 6 do

documento1 (ANEXO A) de forma manual

RLBs classificaccedilatildeo =(textil industria)

RLBS restriccedilotildees

de (industria reciclagem) de (reciclagem plastico)

de (reaproveitamento PET) de (segmento monofilamento) de (mercado potencialidade)

de (plastico totalidade) de (conjunto medida)

Tabela 4 RLBs identificadas no paraacutegrafo 6 do documento1

31 As paacuteginas disponiacuteveis satildeo hermessourceforgenethermeswebhtml e httpwww2laelpucspbrcorporaetiquetagemindexhtml32 Dicionaacuterios consultados MICHAELIS Dicionaacuterio Eletrocircnico Acesso em mar de 2006 e FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 1999

64

42 Descriccedilatildeo Formal do Modelo Proposto SINTR+

Os Sintagmas Nominais de Kuramoto em conjunto com as abordagens utilizadas no

modelo TR+ de Gonzalez promovem a utilizaccedilatildeo de conceitos orientados a objetos (OO)

porque eacute considerada a melhor metodologia para projeto de software permite uma

organizaccedilatildeo aprimorada do coacutedigo tem uma proximidade com a UML (Linguagem de

Modelagem Unificada) proporciona uma facilidade de manutenccedilatildeo do coacutedigo apresenta

menor grau de replicaccedilatildeo do coacutedigo e possibilita uma aplicaccedilatildeo em camadas o MVC33 um

padratildeo de projeto atraveacutes da Linguagem Orientada a Objetos Para compreender estes

conceitos e o desenvolvimento da modelagem proposta ressaltaram-se alguns aspectos baacutesicos

de seus fundamentos

A Linguagem UML segundo Larman (2000) expressa a modelagem de sistemas e

utiliza os conceitos orientados a objetos Como na aplicaccedilatildeo proposta trabalhar-se-aacute

especificamente apenas nas etapas de anaacutelise e projeto considera-se importante o uso da

linguagem UML por ser esta uma linguagem poderosa para expressar de modo claro e preciso

o processo de geraccedilatildeo de projetos de software Para Wazlawick (2004) esta linguagem daacute

suporte a que esse processo gere uma estrutura faacutecil de ser compreendida Para o autor isto

ocorre quando se utiliza um software autodocumentado e de faacutecil entendimento tanto em niacutevel

macro quanto em detalhes

Este autor define que o Processo Unificado (UP) estaacute associado agrave notaccedilatildeo UML e

indica que suas fases satildeo concepccedilatildeo elaboraccedilatildeo construccedilatildeo e transiccedilatildeo Conforme

Wazlawick (2004) eacute na primeira fase que se faz o levantamento dos principais requisitos e

compreende-se o sistema de forma abrangente A fase de elaboraccedilatildeo eacute constituiacuteda de anaacutelise e

projeto e a fase de construccedilatildeo corresponde agrave implementaccedilatildeo e testes

A anaacutelise de requisitos ainda segundo este autor (2004 p 24) ldquoestaacute associada ao

processo de descobrir quais satildeo as operaccedilotildees que o sistema deve realizar e quais satildeo as

restriccedilotildees que existem sobre elasrdquo Jaacute a anaacutelise de domiacutenio ldquoestaacute relacionada agrave descoberta das

informaccedilotildees gerenciadas pelo sistema ou seja agrave representaccedilatildeo e transformaccedilatildeo da

informaccedilatildeordquo (2004 p 26)

No caso de um sistema de informaccedilotildees sobre uma instituiccedilatildeo de ensino (Moacutedulo

controle de alunos) por exemplo possivelmente a anaacutelise de requisitos permitiria descobrir

que o sistema deveria controlar a data o curso e a turma em que o aluno foi matriculado o

iniacutecio e teacutermino do curso calcular automaticamente os pagamentos gerar relatoacuterios de

65

contrato especificando as claacuteusulas legais de direito e dever do aluno na Instituiccedilatildeo etc Essas

operaccedilotildees satildeo chamadas de ldquorequisitos funcionaisrdquo

Haacute tambeacutem relacionados a um sistema em construccedilatildeo os requisitos natildeo funcionais

que dizem respeito agrave operaccedilatildeo e agrave usabilidade do sistema Um exemplo de requisito natildeo-

funcional seria a necessidade de fazer a matriacutecula via Internet Essa eacute uma restriccedilatildeo de

operaccedilatildeo Um outro exemplo seria uma central de acidentes de tracircnsito onde o registro de um

dado acidente devesse ser feito em no maacuteximo 10 segundos o que demandaria um

processamento e uma interface bastante eficiente constituindo-se esse em um requisito de

usabilidade

Para as etapas de levantamento e anaacutelise de requisitos costuma ser utilizado o

diagrama de casos de uso Segundo Guedes (2004) esse diagrama possibilita a compreensatildeo

do comportamento externo do sistema por qualquer pessoa Entendem-se aqui casos de uso

segundo Larman (2000) como um documento narrativo que descreve a sequumlecircncia de eventos

(accedilotildees) de um ator (um agente externo) que usa um sistema para completar um processo e

descreve tambeacutem as respostas do sistema Pode se dizer que caso de uso eacute um cenaacuterio com

atores e ambientes Criam-se as cenas e as narrativas das mesmas ajudando a entender o que

se quer do sistema O interessante dos casos de uso eacute que os mesmos permitem que o projeto

seja construiacutedo de forma participativa por um grupo de pessoas uma vez que sua descriccedilatildeo se

daacute em uma linguagem textual e diagramaacutetica

A partir dos casos de uso eacute possiacutevel construir o modelo conceitual Conforme Larman

(2000 p 99) ldquoo modelo conceitual ilustra os conceitos significativos em um domiacutenio de

problemardquo Para Wazlawick (2004 p 102) ldquoo modelo conceitual deve descrever a

informaccedilatildeo que o sistema vai gerenciar trata-se de um artefato do domiacutenio do problema e

natildeo do domiacutenio da soluccedilatildeordquo

Eacute importante ressaltar que o modelo conceitual representa somente o aspecto estaacutetico

da informaccedilatildeo Os elementos que representam informaccedilatildeo satildeo conceitos (representados por

classes) atributos (informaccedilotildees alfanumeacutericas ligadas diretamente aos conceitos) e

associaccedilotildees (tipo de informaccedilatildeo que liga diferentes conceitos entre si)

O diagrama de casos de uso do sistema proposto foi desenvolvido no software JUDE

Community Ferramenta de Modelagem UML Um software freeware muito utilizado para a

criaccedilatildeo deste tipo de diagramas Neste software podem tambeacutem ser desenvolvidos os outros

tipos de diagramas do UML tais como de classes sequumlecircncia colaboraccedilatildeo graacuteficos de

estados

33 A sigla significa Model View e Controller

66

Os casos de uso identificados para esta aplicaccedilatildeo foram descritos em duas situaccedilotildees

A primeira eacute referente agrave pesquisa do usuaacuterio e a segunda ao gerenciamento e operaccedilatildeo do

banco de dados (BD) no niacutevel de administrador Para descobrir estes casos de uso foi

necessaacuterio primeiramente identificar os atores envolvidos com o sistema (usuaacuterio e

administrador) E na sequumlecircncia a cada grande processo reconhecido correspondeu a um caso

de uso do sistema

As Figuras 25 e 26 satildeo diagramas na UML que representam casos de uso e seus

atores As elipses significam casos de uso e os bonecos representam atores Para cada uma das

situaccedilotildees (pesquisa e gerenciamento de operaccedilatildeo do BD no niacutevel de administrador) foram

identificados os seguintes casos de uso

Figura 25 Diagrama de casos de uso da UML do sistema proposto ndash Pesquisa do Usuaacuterio

67

Figura 26 Diagrama de casos de uso da UML do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no

niacutevel de administrador

Deve-se lembrar que na proposta deste trabalho para economia de espaccedilo de

memoacuteria foram sistematizados dois momentos o 1ordm em um armazenamento na base de dados

do documento apenas para a lista final do usuaacuterio e outro com os Sintagmas Nominais que

seratildeo armazenados na base de dados no 4ordm ou no uacuteltimo niacutevel apresentado (Figura 19) Os

niacuteveis anteriores relativos ao SN seratildeo procurados por uma programaccedilatildeo desenvolvida

relacionada diretamente com os Sintagmas Com isto natildeo haveraacute necessidade de acesso agrave

memoacuteria da base de documentos em todas as accedilotildees e esta serviraacute somente na uacuteltima escolha

do usuaacuterio tendo um ganho significativo quanto agrave rapidez de acesso aos dados da base e a natildeo

existecircncia de duplicaccedilatildeo de dados

Os casos de uso costumam ser documentados conforme Guedes (2004) por meio de

uma linguagem bastante simples fornecendo a funccedilatildeo em linhas gerais dos casos de uso

quais atores interagem com os mesmos quais etapas devem ser executadas pelo ator e pelo

sistema quais paracircmetros devem ser fornecidos e quais restriccedilotildees o caso de uso deve possuir

As Tabelas abaixo (5 a 15) apresentam as descriccedilotildees dos casos de uso do sistema proposto

referente ao gerenciamento e operaccedilatildeo do BD no niacutevel de administrador

68

Nome do Caso de Uso Inserir novo documento Caso de Uso Geral natildeo possui Ator Principal Administrador Atores secundaacuterios natildeo possui Resumo Permite ao administrador do sistema inserir arquivos na base de dados de documentos iniciando o processo de alimentaccedilatildeo de todas as demais bases de dados Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Anexar um documento 2) Verificar se documento jaacute natildeo existe na base de dados 3) Inserir o documento Restriccedilotildeesvalidaccedilotildees Apenas documentos vaacutelidos34 deveratildeo ser aceitos

Tabela 5 Descriccedilatildeo do caso de uso ndash Inserir novo documento Nome do Caso de Uso Alimentar base de dados (Documentos) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Armazenar em meio fiacutesico e com seguranccedila os documentos inseridos pelo Administrador atraveacutes do sistema Preacute-condiccedilotildees Administrador anexa um documento vaacutelido Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema 1) Armazenar em base de dados os documentos anexados Restriccedilotildeesvalidaccedilotildees natildeo possui

Tabela 6 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Documentos) Nome do Caso de Uso Extrair SN de 4ordm ou uacuteltimo niacutevel Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Extrair do documento inserido na base de dados todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel

Preacute-condiccedilotildees o documento estar devidamente validado e inserido na base de dados Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) realizar a anaacutelise do documento inserido extraindo todos os sintagmas nominais de 4ordm ou uacuteltimo niacutevel enviando informaccedilotildees para alimentaccedilatildeo de base de dados de sintagmas

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 7 Descriccedilatildeo do caso de uso ndash Extrair SN de 4ordm ou uacuteltimo niacutevel

34 Documentos vaacutelidos satildeo considerados aqui apenas os documentos em formato de texto (como doc txt)

69

As accedilotildees do sistema da tabela 7 seguem as regras estabelecidas na seccedilatildeo 41 da paacutegina 66 Nome do Caso de Uso Tratar regras verbais Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Realizar o tratamento de regras verbais dos sintagmas nominais de 4ordm ou uacuteltimo niacutevel extraiacutedos do documento Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) aplicar rotinas de tratamento de regras verbais e palavras no infinitivo

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 8 Descriccedilatildeo do caso de uso ndash Tratar regras verbais

Nome do Caso de Uso Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Aplicar regras de extraccedilatildeo de sintagmas de niacuteveis 3 2 e 1 (niacuteveis anteriores) Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Definir o niacutevel apropriado de cada sintagma a partir do 4ordm ou uacuteltimo niacutevel enviando informaccedilatildeo para o usuaacuterio

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 9 Descriccedilatildeo do caso de uso ndash Extrair SN de niacuteveis 3 2 e 1 (niacuteveis anteriores)

A tabela 9 segue a mesma regra da tabela 7

Nome do Caso de Uso Alimentar base de dados (Sintagmas) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees extraiacutedas nos casos de uso ldquoExtrair SN de 4ordm ou uacuteltimo niacutevelrdquo Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar na base de dados o 4ordm ou uacuteltimo niacutevel de sintagma extraiacutedo do documento inserido

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 10 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Sintagmas)

70

Nome do Caso de Uso Toquenizar e etiquetar Caso de Uso Geral natildeo possui Ator Principal Software Forma Atores secundaacuterios natildeo possui Resumo Submeter os sintagmas extraiacutedos ao software Forma Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Toquenizaccedilatildeo e Etiquetagem dos sintagmas extraiacutedos e armazenados em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 11 Descriccedilatildeo do caso de uso ndash Toquenizar e etiquetar

Nome do Caso de Uso Nominalizar Caso de Uso Geral natildeo possui Ator Principal Software Chama Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Toquenizaccedilatildeo e Etiquetagem ao software Chama Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Aplicar o conceito de Nominalizaccedilatildeo das informaccedilotildees do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 12 Descriccedilatildeo do caso de uso ndash Nominalizar

Nome do Caso de Uso Capturar RLBs Caso de Uso Geral natildeo possui Ator Principal Software Rellex Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Nominalizaccedilatildeo ao software Rellex Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Realizar o processo de captura de RLBs a partir das informaccedilotildees extraiacutedas do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 13 Descriccedilatildeo do caso de uso ndash Capturar RLBs

71

Nome do Caso de Uso Calcular peso dos descritores Caso de Uso Geral natildeo possui Ator Principal Software Peso dos Descritores Atores secundaacuterios natildeo possui Resumo Submeter as informaccedilotildees resultantes do processo de Captura de RLBs ao software Peso de Descritores Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Calcular o peso dos descritores ao resultado obtido atraveacutes da captura de RLBs do documento

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 14 Descriccedilatildeo do caso de uso ndash Calcular peso dos descritores

Nome do Caso de Uso Alimentar base de dados (Termos e RLBs) Caso de Uso Geral natildeo possui Ator Principal natildeo possui Atores secundaacuterios natildeo possui Resumo Persistir as informaccedilotildees obtidas nos casos de uso ldquoNominalizarrdquo ldquoCapturar RLBsrdquo e ldquoCalcular peso dos descritoresrdquo na base de dados de Termos e RLBs Preacute-condiccedilotildees natildeo possui Poacutes-condiccedilotildees natildeo possui Accedilotildees do ator Accedilotildees do sistema

1) Armazenar as informaccedilotildees relativas aos Termos e RLBs extraiacutedos do documento em base de dados

Restriccedilotildeesvalidaccedilotildees natildeo possui Tabela 15 Descriccedilatildeo do caso de uso ndash Alimentar base de dados (Termos e RLBs)

Apoacutes a identificaccedilatildeo dos casos de uso e suas descriccedilotildees partiu-se para o modelo

conceitual da aplicaccedilatildeo proposta

72

Figura 27 Modelo Conceitual do sistema proposto

O diagrama de classes segundo Guedes (2004) eacute considerado o mais importante e o

mais utilizado diagrama da UML Eacute o diagrama de classes que permite a visualizaccedilatildeo das

classes que iratildeo compor o sistema com os seus respectivos atributos e meacutetodos Demonstra

como as classes se relacionam complementam e transmitem informaccedilotildees entre si Pode-se

dizer que esse diagrama serve ainda como base para a construccedilatildeo de outros diagramas da

linguagem UML

A Figura 28 apresenta o diagrama de classes do modelo proposto referente agrave Pesquisa

do usuaacuterio

Foi construiacutedo um diagrama de classes (Pesquisa de Usuaacuterio) seguindo estas

definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de pesquisa (ou seja uma

linguagem para Web) ou tambeacutem a uma interface graacutefica (GUI) para computador

desktop (cliente)

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe Sintagma bean responsaacutevel por instanciar e classificar sintagmas de

diferentes niacuteveis usa o meacutetodo setSintagma para receber informaccedilotildees vindas da

paacutegina passando pelo controlador

Classe ListaSintagma cria instacircncia de array de Sintagma associando-os a

instacircncias de Documento Realiza a busca e classificaccedilatildeo destes retornando ao

controlador e posteriormente agrave paacutegina atraveacutes do meacutetodo getDocumentos

73

Classe Documento instacircncia de Documento armazenado em base de dados de

documentos

Figura 28 Diagrama de classes do sistema proposto ndash Pesquisa de Usuaacuterio

A Figura 29 apresenta o diagrama de classes do modelo proposto referente ao

Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Foi construiacutedo um segundo diagrama de classes seguindo estas definiccedilotildeesaccedilotildees

Paacutegina de Consulta refere-se a uma paacutegina HTML de inclusatildeo de documentos

Controlador da Paacutegina conteacutem a loacutegica de negoacutecio da aplicaccedilatildeo

Classe DocumentoBase bean responsaacutevel por instanciar um objeto que iraacute conter

o documento a inserir bem como realizar os processos de toquenizaccedilatildeo e

etiquetagem (trocando mensagens com o software FORMA) nominalizaccedilatildeo

(trocando mensagens com o software CHAMA) gerando termos e RLBs

(trocando mensagens com o software RELLEX) e por fim inserindo as

informaccedilotildees nas bases de dados

Classes Termo e RLB indicam as instacircncias de objetos termos e RLBs e deveratildeo

ser modeladas conforme especificaccedilatildeo do software RELLEX

74

Figura 29 Diagrama de classes do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de

administrador

O diagrama de sequumlecircncia segundo Guedes (2004) procura determinar a sequumlecircncia de

eventos que ocorrem em um determinado processo isto eacute quais meacutetodos devem ser disparados

entre os objetos envolvidos quais condiccedilotildees devem ser satisfeitas e em que ordem durante o

processo especiacutefico Foram construiacutedos os diagramas de sequumlecircncia abaixo (Figuras 30 e 31) da

aplicaccedilatildeo proposta

75

Figura 30 Diagrama de Sequumlecircncia do sistema proposto ndash Pesquisa de Usuaacuterio

76

Figura 31 Diagrama de Sequumlecircncia do sistema proposto ndash Gerenciamento e Operaccedilatildeo do BD no niacutevel de administrador

Na elaboraccedilatildeo dos diagramas e descriccedilotildees dos casos de uso e dos diagramas de

classes e de sequumlecircncia observou-se a importacircncia do modelo conceitual porque permitiu

orientar as etapas de desenvolvimento do modelo proposto Visto que no modelo conceitual

foram criados conceitos atributos e associaccedilotildees referentes agrave particularidade da pesquisa que

puderam ser utilizados para a construccedilatildeo das etapas dos diagramas

77

5 CONCLUSAtildeO

Neste capiacutetulo apresentam-se as consideraccedilotildees finais incluindo os aspectos relativos

agraves dificuldades aos progressos e limitaccedilotildees encontradas durante o desenvolvimento da

pesquisa bem como as sugestotildees para a continuidade deste trabalho

O objetivo geral que norteou este trabalho levou ao estudo dos modelos de busca e ao

desenvolvimento de uma proposta para a melhoria dos processos de recuperaccedilatildeo de

informaccedilotildees

Centrando-se no tema Recuperaccedilatildeo de Informaccedilatildeo foram analisados os modelos de

Kuramoto (1999) e posteriormente de Gonzalez (2005) O modelo de Kuramoto baseado

em uma estrutura hieraacuterquica de sintagmas nominais possibilita ao usuaacuterio definir melhor a

sua query de busca A Estrutura de Qualia do Leacutexico Gerativo de Pustejovsky contribuiu para

o entendimento das relaccedilotildees e da estrutura de construccedilatildeo de significado entre as palavras

permitindo o tratamento de questotildees semacircnticas como a polissemia loacutegica A proposta de

Gonzalez apropriando-se dos resultados de Pustejovsky evidencia caracteriacutesticas

morfoloacutegicas e relaccedilotildees de coesatildeo importantes na descriccedilatildeo de conceitos presentes em um

texto propiciando que um texto possa computacionalmente significar mais do que uma

sequumlecircncia de palavras

Buscou-se uma siacutentese dessas propostas identificando as possibilidades de ampliaccedilatildeo

do modelo de Kuramoto pela junccedilatildeo da teoria do Leacutexico Gerativo de Pustejovsky utilizadas

nesta dissertaccedilatildeo a partir do modelo de Gonzalez que se manteve adequado devido ao fato de

que o autor apresenta processos para as fases de indexaccedilatildeo busca e classificaccedilatildeo de RI Os

termos e relacionamentos inseridos na base de dados do modelo TR+ de Gonzalez estatildeo

implicitamente relacionados com a Estrutura de Qualia do LG

O novo modelo SINTR+ aleacutem do suporte ao usuaacuterio envolve a anaacutelise a

sistematizaccedilatildeo e a ampliaccedilatildeo do modelo de Kuramoto com a utilizaccedilatildeo da estrutura TR+ de

Gonzalez (2005) para a melhoria e a otimizaccedilatildeo do processo de seleccedilatildeo dos documentos

recuperados em uma busca

O estudo e a descriccedilatildeo do modelo em UML permitiu por ser uma linguagem

poderosa expressar de modo mais claro e preciso o modelo SINTR+ Foi construiacuteda a anaacutelise

de domiacutenio do sistema desejado incluindo o desenvolvimento de diagramas de casos de uso

bem como suas descriccedilotildees do modelo conceitual de diagramas de classes e de sequumlecircncia As

78

fases de anaacutelise e projeto desenvolvidas para a aplicaccedilatildeo proposta datildeo suporte agrave continuidade

do seu desenvolvimento

O novo modelo desenvolvido foi projetado como um sistema de recuperaccedilatildeo de

informaccedilatildeo (SRI) aplicaacutevel a bases de dados natildeo distribuiacutedas abrangendo a um determinado

domiacutenio de aplicaccedilatildeo a sua adequaccedilatildeo e expansatildeo para uso na Web constitui-se em uma

importante linha de continuidade de pesquisa

A principal contribuiccedilatildeo deste trabalho estaacute na sistematizaccedilatildeo e siacutentese das teorias de

Kuramoto com Gonzalez indicando o uso dessas teorias como uma nova alternativa para a

melhoria da busca de recuperaccedilatildeo de informaccedilotildees Os modelos de recuperaccedilatildeo simplesmente

buscavam as informaccedilotildees solicitadas pelo usuaacuterio O novo modelo proposto SINTR+ baseia-

se na interaccedilatildeo entre o usuaacuterio e a maacutequina atraveacutes de Sintagmas Nominais por niacuteveis e

tambeacutem nas relaccedilotildees das palavras conforme o modelo de Gonzalez

Com este trabalho natildeo se pretendeu desenvolver uma implementaccedilatildeo completa do

modelo construiacutedo Mas o trabalho conseguiu mostrar a exequumlibilidade desta implementaccedilatildeo

computacional descrevendo os diagramas e as descriccedilotildees dos casos de uso e a sua modelagem

conceitual culminando com a construccedilatildeo dos diagramas de classes e de sequumlecircncia A proacutexima

etapa que permitiria detalhar as potencialidades e limitaccedilotildees do modelo de forma ampla

poderia se constituir em amplos estudos de casos onde se determinaria a complexidade

computacional da implementaccedilatildeo requerida

Os dados apresentados no capiacutetulo 4 jaacute indicam aspectos positivos que consolidam a

importacircncia da utilizaccedilatildeo dos Sintagmas Nominais na diminuiccedilatildeo de descritores para

manipulaccedilatildeo com um ganho bastante significativo porque os iacutendices possuem informaccedilotildees

relevantes dos documentos (conceitos significativos de uma sentenccedila) e com isto agiliza-se a

pesquisa na base de dados Quer-se crer aqui e um estudo mais amplo poderia determinar que

essa reduccedilatildeo de descritores natildeo deve ter nenhum impacto na qualidade da busca realizada

Outro aspecto significativo eacute a reduccedilatildeo do uso de memoacuteria tanto na fase de indexaccedilatildeo

como na de busca tornando mais raacutepido o processo interno

Outro aspecto positivo se refere agrave melhoria de desempenho como um todo pois

quanto menor o traacutefego em uma rede menos informaccedilotildees o servidor vai processar e estaraacute

mais disponiacutevel E quanto melhor for o processo de indexaccedilatildeo menos memoacuteria o servidor vai

utilizar E com isto o tempo de resposta na fase de busca diminui e o resultado qualitativo da

pesquisa se amplia

79

Uma outra vantagem eacute que no modelo SINTR+ seratildeo armazenados na base de dados

os documentos e seus SN de uacuteltimos niacuteveis e manipulados apenas os uacuteltimos niacuteveis da

estrutura de SN Seraacute soacute atraveacutes de uma programaccedilatildeo que seratildeo classificados por niacuteveis

diminuindo assim o volume duplicado de dados na manipulaccedilatildeo

Os diagramas construiacutedos referentes ao gerenciamento e operaccedilatildeo do BD no niacutevel do

administrador satildeo fundamentais para o entendimento do funcionamento e da manutenccedilatildeo do

banco de dados facilitando processos como a inserccedilatildeo de novos documentos e outras accedilotildees

contribuindo tambeacutem para o diferencial deste trabalho

80

6 REFEREcircNCIAS BIBLIOGRAacuteFICAS

ABRAHAtildeO Paulo Ricardo Carneiro Modelagem e Implementaccedilatildeo de um Leacutexico Semacircntico para o Portuguecircs Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS 1997

ABREU Sandra C GOULART Rodrigo VIEIRA Renata (2004) Identificaccedilatildeo de Expressotildees Anafoacutericas e Natildeo Anafoacutericas com Base na Estrutura do Sintagma 2ordm Workshop em Tecnologia da Informaccedilatildeo e da Linguagem Humana (TIL 2004) - SalvadorBA - 05 e 06 de agosto de 2004 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoestilsandra04pdf Acesso em nov de 2004

BAEZA-YATES Ricardo RIBEIRO-NETO Berthier Modern Information Retrieval New York Addison-Wesley 1999

CARDOSO Olinda N P Recuperaccedilatildeo de Informaccedilotildees In Infocomp-Journal of Computer Science vol 2 n 1 Lavras MG 2000 p33-38 Disponiacutevel em httpwwwdccuflabrinfocompartigosv21olindapdf Acesso em mar de 2004

CHISHMAN Rove et al Extraccedilatildeo de Sintagmas Nominais para o Processamento de Co-Referecircncia In V Encontro para o processamento computacional do Portuguecircs escrito e falado (PROPOR 2000) Atibaia - Satildeo Paulo Anais do V Encontro para o processamento computacional do Portuguecircs escrito e falado Satildeo Carlos ICMCUSP 2000 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratoriopublicacoespropor00pdf Acesso em jan de 2005

FERNEDA Edberto Recuperaccedilatildeo de Informaccedilatildeo anaacutelise sobre a contribuiccedilatildeo da ciecircncia da computaccedilatildeo para a ciecircncia da informaccedilatildeo Tese (Doutorado) Satildeo Paulo USP Escola de Comunicaccedilatildeo e Artes 2003 Disponiacutevel em httpwwwtesesuspbrtesesdisponiveis2727143tde-15032004-130230 Acesso em set de 2004

FERREIRA Aureacutelio Buarque de Holanda Novo Aureacutelio Seacuteculo XXI o dicionaacuterio da liacutengua portuguesa 3ed Rio de Janeiro Nova Fronteira 1999

GASPERIN C GOULART R VIEIRA R Uma ferramenta para Resoluccedilatildeo Automaacutetica de Co-referecircncia Anais do Encontro Nacional de Inteligecircncia Artificial (ENIA) Campinas SP 2003 Disponiacutevel em httpwwwexatecunisinosbr~renatalaboratoriopublicacoesart1pdf Acesso em set de 2004

81

GONZALEZ Marco Antocircnio Insaurriaga Representaccedilatildeo Semacircntica de Sentenccedilas em Linguagem Natural e sua aplicaccedilatildeo na Recuperaccedilatildeo de Informaccedilatildeo Trabalho Individual 2 Doutorado Porto Alegre PPCC da PUCRS 2000

________ O Leacutexico Gerativo de Pustejovsky sob o enfoque da Recuperaccedilatildeo de Informaccedilotildees Trabalho Individual 1 Doutorado Porto Alegre PPCC da PUCRS 2000a

________ Termos e Relacionamentos em Evidecircncia na Recuperaccedilatildeo de Informaccedilatildeo Tese (Doutorado) Porto Alegre PPGC da UFRGS 2005

GUEDES Gilleanes T A UML uma abordagem praacutetica Satildeo Paulo Novatec 2004

HILL Brad Pesquisa na Internet Rio de Janeiro Campus 1999

KURAMOTO Heacutelio Proposition drsquoum Systegraveme de Recherche drsquoInformation Assisteacutee par Ordinateur Tese (Doutorado) LrsquoUniversiteacute Lumiegravere ndash Lyon - Franccedila 1999

________ Uma abordagem alternativa para o tratamento e a recuperaccedilatildeo de informaccedilatildeo textual os sintagmas nominais Ciecircncia da Informaccedilatildeo (Brasiacutelia) v25 n2 1995 Disponiacutevel em httpdiciibictbrarchive0000016901Ci[1]Inf-2004-476pdf Acesso em mar de 2004

________ Sintagmas Nominais uma nova proposta para a recuperaccedilatildeo de informaccedilatildeo DataGramaZero Revista de Ciecircncia da Informaccedilatildeo v3 n1 fev 2002 Disponiacutevel em httpwwwdgzeroorgfev02Art_03htm Acesso em mar de 2004

LARMAN Craig Utilizando UML e Padrotildees uma introduccedilatildeo agrave anaacutelise e ao projeto orientado a objetos Porto Alegre Bookman 2000

MARTINS Dileta Silveira ZILBERKNOP Luacutebia Scliar Portuguecircs Instrumental 20ordf ed Porto Alegre Sagra Luzzatto 1999

MOURA Heronides M de M A determinaccedilatildeo de sentidos lexicais no contexto Cadernos de Estudos Linguumliacutesticos v 41 Campinas SP 2001 NETO Magdiel Medeiros Aragatildeo A polissemia em palavras designativas de objetos fiacutesicos e eventos 2003 Disponiacutevel em httpwwwabralinorgbranaishtm Acesso em mai de 2004

________A Polissemia de acordo com a Teoria do Leacutexico Gerativo Satildeo Miguel do Oeste SC Revista do Centro de Ciecircncias da Comunicaccedilatildeo e Artes n6 maiago 2003a

82

PUSTEJOVSKY James The Generative Lexicon Association for Computational Linguistics Computer Science Department Brandeis University Cambridge MA The MIT Press 1991 Disponiacutevel em httpportalacmorgcitationcfmid=176324 Acesso em set de 2004

ROSSI Albertina Palavras Polissecircmicas entre evento e informaccedilatildeo e seu tratamento nos dicionaacuterios Aureacutelio e Houaiss Tese (Doutorado) Florianoacutepolis USFC Centro de Comunicaccedilatildeo e Expressatildeo - Programa de Poacutes-Graduaccedilatildeo em LetrasLinguumliacutestica 2003

SILVA Edna Luacutecia da Metodologia da pesquisa e elaboraccedilatildeo de dissertaccedilatildeo Edna Luacutecia da Silva Estera Muszkat Menezes ndash 2a ed revndash Florianoacutepolis Laboratoacuterio de Ensino a Distacircncia da UFSC 2001 Disponiacutevel em httpprojetosinfufscbrarquivosMetodologia20da20Pesquisa203a20edicaopdf Acesso em mai de 2005

SILVA Maria C de S KOCH Ingedore V Linguumliacutestica aplicada ao portuguecircs sintaxe 5ed Satildeo Paulo Cortez 1993

WAZLAWICK Raul Sidnei Anaacutelise e Projeto de Sistemas de Informaccedilatildeo Orientados a Objetos Rio de Janeiro Elsevier 2004

61 Bibliografia Consultada

BRAumlSCHER Marisa A Ambiguumlidade na Recuperaccedilatildeo da Informaccedilatildeo Revista Ciecircncia da Informaccedilatildeo (Brasiacutelia) v3 n1 2002 Disponiacutevel em httpwwwdgzorgbrfev02Art_05htm Acesso em abr de 2004

CARVALHO Niacutevea M de Melo Recuperaccedilatildeo da informaccedilatildeo implementaccedilatildeo e avaliaccedilatildeo de sistema de recuperaccedilatildeo de informaccedilatildeo utilizando o modelo vetorial Dissertaccedilatildeo (Mestrado) Amazonas Universidade Federal do Amazonas Programa de Poacutes-Graduaccedilatildeo em Informaacutetica 2002 Disponiacutevel em httpposfacomufubr~reneacervosriRI-ModeloVetorial-NiveaCarvalhopdf Acesso em Ago de 2004

FODOR Jerry LEPORE Ernie The emptiness of the Lexicon Critical Reflections on J Pustejovskyrsquos The Generative Lexicon Rutgers University Center for Cognitive Science

83

GOMES Andreacuteia de Faacutetima R O singular nu e a sentenccedila geneacuterica no portuguecircs brasileiro Dissertaccedilatildeo (Mestrado) Florianoacutepolis UFSC Programa de Poacutes-Graduaccedilatildeo em Linguumliacutestica 2001

GONZALEZ Marco LIMA Vera L S de Sintagma Nominal em Estrutura Hieraacuterquica Temaacutetica na Recuperaccedilatildeo de Informaccedilatildeo Anais ENIA 2001 Fortaleza 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocssnehtpdf Acesso em dez 2005

________ T-Lex Thesaurus com Estruturaccedilatildeo Semacircntica e Operaccedilotildees Gerativas XXVII Conferencia Latinoamericana de Informatica (CLEI2001) Ciudad de Meacuterida Venezuela 2001 Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsartigotlexpdf Acesso em jan de 2006 (httpwwwinfpucrsbr~gonzalezpesqqhtm)

________ Recuperaccedilatildeo de Informaccedilatildeo e Processamento da Linguagem Natural XXIII Congresso da Sociedade Brasileira de Computaccedilatildeo Campinas 2003 Anais do III Jornada de Mini-Cursos de Inteligecircncia Artificial Disponiacutevel em httpwwwinfpucrsbr~gonzalezdocsminicurso-jaia2003pdf Acesso em jan de 2006

HEIDE Ann Guia do Professor para a Internet completo e faacutecil 2ed Porto Alegre Artes Meacutedicas Sul 2000

MOURA Heronides M de M Linguagem e cogniccedilatildeo na interpretaccedilatildeo de metaacuteforas Universidade Federal de Juiz de Fora Editora UFJF 2003 Disponiacutevel em httpwwwrevistaveredasufjfbrvolumesv6n1cap11pdf Acesso em jan de 2006

PARREIRAS Fernando O uso de sintagmas nominais como fonte de descritores para textos de perioacutedicos cientiacuteficos Escola de Ciecircncia da Informaccedilatildeo Belo Horizonte 2003 Disponiacutevel em httpwwwfernandoparreirasnombrpublicacoessnpdf Acesso em set de 2004

PEacuteREZ Claacuteudia C C GASPERIN Caroline VIEIRA Renata Extraccedilatildeo Semi-Automaacutetica de Conhecimento a partir de Textos 2003 Disponiacutevel em httpwwwinfunisinosbr~renatalaboratorio publicacoesenia2003-submittedpdf Acesso em ago de 2005

PIZZATO Luiz A Estrutura Multitesauro para Recuperaccedilatildeo de Informaccedilotildees Dissertaccedilatildeo (Mestrado) Porto Alegre PUCRS Faculdade de Informaacutetica - Poacutes-Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2003 Disponiacutevel em httpwwwpucrsbrunipoainfoposdissertacoesarquivospizzatopdf Acesso em ago de 2004

84

PUSTEJOVSKY James Type Construction and the logic of concepts Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Metaphysics of Words in Context (2000) Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

________ The Semantics of Agentive Nominals Disponiacutevel em httpwwwcsbrandeisedu~jamesparticlesindexhtml Acesso em set de 2004

WORDNET a lexical database for the English language Cognitive Science Laboratory Princeton University Disponiacutevel em httpwordnetprincetonedu Acesso em jan de 2006

85

ANEXOS

86

ANEXO A - DOCUMENTO1

Endereccedilo na Web http wwwreciclaveiscombranamghtm

Segunda-feira 28 de agosto de 2000 - Nuacutemero 599 Cresce a induacutestria de reciclagem de plaacutesticos Poreacutem potencial do lixo domeacutestico ainda eacute pouco aproveitado no estado A induacutestria de reciclagem foi a que mais cresceu no setor plaacutestico de Santa Catarina nos uacuteltimos cinco anos No periacuteodo o volume reprocessado no estado cresceu 1664 ao ano atingindo 169 mil toneladas em 1999 Isso equivale a 37 do total transformado pelo setor em Santa Catarina Os dados fazem parte de estudo elaborado pela empresa de consultoria MaxiQuim de Porto Alegre para o Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina (Simpesc) Contudo esse crescimento reflete mais o reaproveitamento de resiacuteduos gerados em processos industriais do que a reciclagem de lixo domeacutestico como embalagens e garrafas o chamado plaacutestico ldquopoacutes-consumordquo Este segmento cresce de maneira menos acelerada devido a problemas como a necessidade de escala de produccedilatildeo falta de linhas de financiamento e ausecircncia de legislaccedilatildeo que estimule a atividade ldquoEmbora a reciclagem do material poacutes-consumo como sacos embalagens e garrafas esteja aumentando em Santa Catarina a maior parte do crescimento verificado entre 1995 e 1999 refere-se a empresas que utilizam resiacuteduos industriais como mateacuteria-primardquo explica o diretor da MaxiQuim Joatildeo Luiz Zuntildeeda Normalmente chamadas de aparas esses resiacuteduos incluem tambeacutem as peccedilas que natildeo atingiram a qualidade necessaacuteria para ir ao mercado As oito empresas catarinenses de reciclagem de plaacutestico tecircm 383 empregados sem considerar o pessoal que trabalha na coleta de lixo atividade que geralmente eacute informal O valor da produccedilatildeo atingiu R$ 4249 milhotildees em 1999 com crescimento meacutedio de 1526 ao ano nos uacuteltimos cinco anos jaacute descontando a inflaccedilatildeo As empresas de transformaccedilatildeo de plaacutestico estatildeo cada vez mais preocupadas em recuperar o material que antes era perdido devido ao alto custo da resina virgem diz Nelson Pradella proprietaacuterio da empresa Recicle-Ville ldquoIsso eacute fundamental para que elas sejam competitivas pois vendendo os resiacuteduos do processo industrial como sucata as empresas obtecircm menos de 20 do valor da resina virgemrdquo Cobrando 30 do preccedilo da resina virgem a Recicle-Ville devolve para a induacutestria seus resiacuteduos em condiccedilotildees de serem utilizados normalmente no processo produtivordquo explica A empresa de Joinville foi uma das firmas que ajudou a elevar os iacutendices desta induacutestria no estado Ateacute agora ela estava trabalhando apenas com mateacuteria-prima gerada nos processos industriais mas isso deve mudar a partir desta semana Criada haacute um ano a empresa reprocessa cerca de 220 toneladas de plaacutestico por mecircs e estaacute aumentando a sua capacidade para 310 toneladas Ela ainda opera basicamente como terceirizada de empresas de processamento de plaacutesticos reprocessando para elas os resiacuteduos que geram e devolvendo essa mateacuteria em forma granular mesmo estado da resina virgem Como a mateacuteria prima reciclada seraacute utilizada para fazer o mesmo produto que originou a

4

3

2

1

87

apara a qualidade final natildeo eacute afetada Mas a Recicle-Ville estaacute ingressando tambeacutem no segmento de reciclagem do plaacutestico poacutes-consumo A partir desta semana a empresa coloca em funcionamento um sistema de coleta junto a escolas do municiacutepio para recolher materiais plaacutesticos como sacos garrafas e tampinhas apostando principalmente no PET Com isso ela tem a vantagem de receber material mais limpo A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico eacute justamente um dos principais problemas para o crescimento da induacutestria da reciclagem do lixo domeacutestico A simples separaccedilatildeo do lixo orgacircnico do seco jaacute traria um impulso importante para o setor diz Ana Flores diretora do departamento de meio ambiente e desenvolvimento sustentado da Federaccedilatildeo das Induacutestrias do Estado de Satildeo Paulo (Fiesp) e autora do livro ldquoO dinheiro estaacute no lixo ndash recicle essa ideacuteiardquo ldquoDeveriam ser criados mecanismos de estiacutemulo para a reciclagem Na Holanda por exemplo uma Coca-Cola custa US$ 220 Devolvendo a garrafa acontece o reembolso de US$ 1 Vocecirc acha que algueacutem vai jogaacute-la no lixordquo diz A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura Para a diretora da Fiesc os principais entraves satildeo o aspecto cultural a tributaccedilatildeo incidente na reciclagem do plaacutestico a falta de linhas de financiamento e a ausecircncia de uma legislaccedilatildeo ambiental mais rigorosa ldquoHaacute um contra-senso ecoloacutegico que forccedila a clandestinidade no Brasil onde para fabricar garrafa PET virgem paga-se IPI de 10 e para a reciclagem 12rdquo critica Ana afirma que essa tributaccedilatildeo decorre do interesse governamental em incentivar a induacutestria quiacutemica Outro problema apontado eacute que ao contraacuterio da induacutestria do alumiacutenio que eacute concentrada o predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico dificulta que sejam criadas grandes empresas para reprocessar o lixo Para Flores o sucesso brasileiro na reciclagem do alumiacutenio (o iacutendice eacute de 65 um dos mais altos do mundo) decorre da existecircncia de poucas grandes empresas capitalizadas ldquoAs pequenas empresas natildeo tecircm acesso agraves linhas de creacutedito e isso dificulta a abertura de novas recicladorasrdquo diz Flores Mas haacute quem aponte outros desafios a superar ldquoEmbora seja um mercado que deve crescer muito a reciclagem de plaacutestico natildeo eacute tatildeo simples como normalmente aparece na televisatildeo O volume miacutenimo para que a atividade seja economicamente viaacutevel atendendo a todas as exigecircncias legais eacute de 100 toneladas mecircsrdquo diz Ronaldo Cerri soacutecio da Moinhos Rone de Satildeo Paulo que fabrica equipamentos utilizados na moagem do plaacutestico uma das primeiras etapas da reciclagem Aleacutem disso explica a coleta do plaacutestico eacute mais complicada porque ao contraacuterio das latas de alumiacutenio - que podem ser amassadas o volume fiacutesico eacute maior ldquoHoje entre 70 e 80 dos moinhos que vendemos satildeo para reciclagem de resiacuteduos industriaisrdquo informa (Elmar Meurer de Joinville)

copy GAZETA MERCANTIL

9

8

7

6

5

88

ANEXO B - DOCUMENTO2

Cuidados com o Lixo

Endereccedilo na Web httpwwwpoupetempocombrambientelixohtm

Todos os seres vivos quando morrem apodrecem plantas e animais se decompotildeem e satildeo destruiacutedos por larvas bacteacuterias e fungos e reabsorvidos pela terra pela aacutegua pelo ar Eacute o ciclo da natureza morte decomposiccedilatildeo nova vida e crescimento Tudo o que eacute fabricado pelo homem acaba virando lixo Muito desse lixo natildeo se decompotildee facilmente como a mateacuteria orgacircnica e passa a ser um problema Plaacutesticos latas e vidros demoram muitos anos para se decompor e poluem o meio-ambiente Por isso a importacircncia da reciclagem do lixo fabricado pelo ser humano O lixo eacute formado por resiacuteduos soacutelidos natildeo biodegradaacuteveis e que demoram para se decompor Restos de alimentos folhas e frutas satildeo chamados lixo orgacircnico Existem tambeacutem aleacutem do lixo domiciliar o lixo industrial o de vias puacuteblicas e o hospitalar que necessitam de tratamentos especiais pois oferece perigo agrave sauacutede das pessoas Devido ao aumento da populaccedilatildeo das grandes cidades e com o aumento do consumo de produtos a quantidade de lixo tambeacutem tem aumentado O acuacutemulo de lixo eacute um dos principais problemas nas grandes cidades Muitos materiais que vatildeo para o lixo natildeo podem ser desperdiccedilados podendo ser reaproveitados e reutilizados Material orgacircnico Tudo o que eacute resto de comida de animais de plantas e frutas eacute considerado lixo propriamente dito Ou seja vocecirc deve acondicionaacute-los num uacutenico recipiente Essa material eacute recolhido pela prefeitura e levado para aterros sanitaacuterios onde vatildeo sofrer a decomposiccedilatildeo natural Material reciclaacutevel Eacute praticamente tudo o que eacute fabricado pelo homem material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel etc Se vocecirc mora em casa reuacutena-se com sua famiacutelia e com seus funcionaacuterios para estabelecer um meacutetodo de separaccedilatildeo desse material Dependendo do seu volume diaacuterio de lixo escolha 4 recipientes coloridos para acondicionaacute-los azul para papel vermelho para plaacutestico verde para vidro e amarelo para metal ou nomeie cada um deles conforme sua classificaccedilatildeo Se vocecirc mora em condomiacutenio faccedila esse mesmo trabalho reunindo os moradores estabelecendo regras e instruindo os empregados Observaccedilatildeo o lixo orgacircnico deve estar separado daquilo que eacute reciclaacutevel Exemplos Providencie uma caixa resistente ou sacolas e fixe nelas um papel com a identificaccedilatildeo do tipo de lixo vidro e nela vaacute acumulando as garrafas Retire aneacuteis e roacutetulos e lave as garrafas para natildeo acumular insetos Na outra caixa vaacute juntando o lixo papel aparas embalagens de papelatildeo as perdas da impressora jornais e revistas velhas etc Latas de conserva satildeo de ferro e as de refrigerante satildeo de alumiacutenio Elas devem ser acumuladas limpas sem roacutetulo e em caixas separadas As de alumiacutenio podem ser amassadas como uma sanfoninha o que economizaraacute espaccedilo Quando as caixas estiverem cheias elas devem ser encaminhadas para entidades que trabalham com material reciclaacutevel ou simplesmente recolhida pela empresa de sua cidade responsaacutevel pela coleta seletiva Consulte a prefeitura local

89

A destinaccedilatildeo do material para reciclagem pode ser feita de vaacuterias formas Uma famiacutelia mais pobre pode utilizar esse material vendendo para cooperativas e empresas especializadas e conseguir um dinheiro extra Os condomiacutenios de melhor padratildeo econocircmico podem utilizar o resultado da separaccedilatildeo do lixo para reciclagem em benefiacutecio de seus funcionaacuterios propiciando a eles um ganho extra na ajuda da triagem desse material Uma outra forma eacute simplesmente entregar todo o material para as prefeituras que jaacute possuem o meacutetodo de coleta seletiva Ajude a melhorar o meio-ambiente Eacute simples pense antes de comprar Metade do que noacutes compramos eacute lixo Satildeo embalagens que quase sempre natildeo servem para nada e vatildeo direto para o lixo Evite embalagens plaacutesticas elas satildeo pouco reciclaacuteveis enquanto o vidro eacute totalmente reciclaacutevel e muito mais uacutetil no seu reaproveitamento Algumas informaccedilotildees sobre materiais produzidos pelo homem TEMPO DE DECOMPOSICcedilAtildeO DE ALGUNS MATERIAIS

Lenccedilo de papel 3 meses Palito de foacutesforo 6 meses Caroccedilo de maccedilatilde 6 a 12 meses Ponta de cigarro 1 a 2 anos Chiclete 5 anos Lata de accedilo 10 anos Garrafa de plaacutestico 100 anos Garrafa de vidro Mais de 1000 anos Lata de alumiacutenio Natildeo se corroacutei nunca

Plaacutestico riacutegido Leve resistente e praacutetico eacute o material que compotildee cerca de 60 das embalagens plaacutesticas como garrafas de refrigerantes recipientes para produtos de limpeza e higiene e potes de alimentos eacute tambeacutem mateacuteria-prima baacutesica de bombonas fibras tecircxteis tubos e conexotildees calccedilados eletrodomeacutesticos aleacutem de baldes utensiacutelios domeacutesticos e outros produtos Ele pode ser reprocessado gerando novos artefatos plaacutesticos e energia Papel ondulado eacute usado em caixas para transporte de produtos para faacutebricas depoacutesitos escritoacuterios e residecircncias Normalmente chamado de papelatildeo este material tem uma camada intermediaacuteria de papel entre suas partes exteriores disposta em ondulaccedilotildees na forma de uma sanfona O material eacute de faacutecil coleta em grandes volumes comerciais sendo facilmente identificadas quando misturadas com outros tipos de papel por isso seu susto de processamento eacute relativamente baixo Embalagens longa vida satildeo compostas de vaacuterias camadas de material dupleacutex polietileno e alumiacutenio As embalagens cartonadas precisam ser lavadas apoacutes o consumo porque os restos de alimentos contidos nelas dificultam o reprocessamento do material Para aproveitar melhor o espaccedilo as embalagens podem ser amassadas O papel existente nas embalagens cartonadas pode ser compostado para a produccedilatildeo de huacutemus utilizado em hortas e jardins Pneus a borracha e sua reciclagem eacute capaz de devolver ao processo de produccedilatildeo insumo regenerado por menos da metade do custo da borracha natural ou sinteacutetica aleacutem disso economiza energia e poupa petroacuteleo usado como mateacuteria-prima virgem e ateacute melhora as propriedades de materiais feitos com borracha Latas de alumiacutenio aleacutem de reduzir o lixo que vai para os aterros a reciclagem desse material proporciona significativo ganho energeacutetico Para reciclar uma tonelada de latas gasta-se 5 da

90

energia necessaacuteria para produzir a mesma quantidade de alumiacutenio pelo processo primaacuterio Isto significa que cada latinha reciclada equivale ao consumo de um aparelho de TV durante 3 horas A reciclagem evita a extraccedilatildeo da bauxita o mineral beneficiado para a fabricaccedilatildeo da alumina que eacute transformada em liga de alumiacutenio Vidro a metade dos recipientes de vidro eacute fabricados no Paiacutes eacute retornaacutevel Aleacutem disso o material eacute de faacutecil reciclagem pode voltar a produccedilatildeo de novas embalagens substituindo o produto virgem sem perda da qualidade Pet (polietileno tereftalato) as garrafas recicladas satildeo transformadas em cordas e fios de costura carpetes bandejas de frutas e ateacute mesmo novas garrafas Sua reciclagem aleacutem de desviar lixo plaacutestico dos aterros utiliza apenas 30 da energia necessaacuteria para a produccedilatildeo da resina virgem e tem a vantagem de poder ser reciclado vaacuterias vezes sem prejudicar a qualidade do produto final Latas de accedilo Quando reciclado o accedilo volta ao mercado em forma de automoacuteveis ferramentas vigas para construccedilatildeo civil arames vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas Plaacutestico filme eacute uma peliacutecula plaacutestica normalmente usada como sacolas de supermercados sacos de lixo embalagens de leite lonas agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas Cerca de 44 eacute papel e 4 eacute folha de alumiacutenio Ajude a melhorar o meio-ambiente

bull Reaproveite sobras e natildeo jogue fora o que puder aproveitar bull Doe roupas que possam ser reformadas ou consertadas bull Doe livros para bibliotecas ou instituiccedilotildees beneficentes bull Use produtos biodegradaacuteveis ou reciclaacuteveis bull Deixe o oacuteleo usado do motor no posto para ser reciclado bull Leve pneus sem uso para os borracheiros bull Evite jogar lixo na rua Jogue o lixo na lixeira bull Embale o lixo corretamente sempre que possiacutevel encaminhe plaacutesticos vidros e papel

para a reciclagem

91

ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS

DOCUMENTO1 Linha Sintagma Nominal Niacutevel

1 Plaacutesticos 1 1 Reciclagem de plaacutesticos 2 1 Induacutestria de reciclagem de plaacutesticos 3 2 Lixo 1 2 Lixo domeacutestico 1 2 Potencial do lixo domeacutestico 2 3 Reciclagem 1 3 Induacutestria de reciclagem 2 3 Plaacutestico 1 3 Setor Plaacutestico 1 3 Setor Plaacutestico de Santa Catarina 2 7 Plaacutestico 1 7 Material Plaacutestico 1 7 Induacutestria de Material Plaacutestico 2 7 Sindicato da Induacutestria de Material Plaacutestico 3 7 Sindicato da Induacutestria de Material Plaacutestico no Estado de Santa Catarina 4 8 Resiacuteduos 1 8 Reaproveitamento de resiacuteduos 2 9 Lixo 1 9 Lixo domeacutestico 1 9 Reciclagem do lixo domeacutestico 2 10 Embalagens 1 10 Garrafas 1 10 Embalagens e garrafas 2 10 Plaacutestico 1 10 Plaacutestico poacutes-consumo 1 13 Reciclagem 1 13 Reciclagem de material 2 13 Reciclagem de material poacutes-consumo 2 13 Sacos 1 13 Embalagens 1 13 Garrafas 1 13 Sacos embalagens e garrafas 2 15 Resiacuteduos 1

92

15 Resiacuteduos industriais 1 15 Resiacuteduos industriais como mateacuteria-prima 2 18 Reciclagem 1 18 Reciclagem de plaacutesticos 2 18 Empresas catarinenses de reciclagem de plaacutesticos 3 19 Lixo 1 19 Coleta de lixo 2 22 Plaacutestico 1 22 Transformaccedilatildeo de plaacutestico 2 22 As empresas de transformaccedilatildeo de plaacutestico 3 27 Resiacuteduos 1 32 Plaacutestico 1 34 Plaacutesticos 1 34 Processamento de plaacutesticos 2 34 Empresas de processamento de plaacutesticos 3 34 Terceirizada de empresas de processamento de plaacutesticos 4 34 Os resiacuteduos 1 36 Reciclada 1 36 Mateacuteria-prima reciclada 1 38 Reciclagem 1 38 Reciclagem de plaacutestico 2 38 Reciclagem de plaacutestico poacutes-consumo 2 38 Segmento de reciclagem de plaacutestico poacutes-consumo 3 39 Coleta 1 39 Coleta junto a escolas do municiacutepio 2 39 Um sistema de coleta junto a escolas do municiacutepio 3 40 Plaacutesticos 1 40 Materiais plaacutesticos 1 40 Materiais plaacutesticos como sacos garrafas e tampinhas 2 41 PET 1 43 Lixo 1 43 Lixo orgacircnico 1 43 A contaminaccedilatildeo do plaacutestico 2 43 A contaminaccedilatildeo do plaacutestico pelo lixo orgacircnico 3 44 Lixo 1

93

44 Lixo domeacutestico 1 44 Reciclagem de lixo domeacutestico 2 44 Induacutestria da reciclagem do lixo domeacutestico 3 44 O crescimento da induacutestria da reciclagem do lixo domeacutestico 4 44 Lixo 1 44 Lixo orgacircnico 1 44 A simples separaccedilatildeo do lixo orgacircnico 2 44 A simples separaccedilatildeo do lixo orgacircnico do seco 3 49 A garrafa 1 50 Lixo 1 51 Reciclagem 1 51 Reciclagem do plaacutestico 2 51 A induacutestria da reciclagem do plaacutestico 3 51 A induacutestria da reciclagem do plaacutestico no Brasil 4 52 Reaproveitamento 1 52 Reaproveitamento do PET 2 53 A reciclagem 1 55 Plaacutestico 1 56 Reciclado 1 58 Reciclagem 1 58 Reciclagem do plaacutestico 2 58 Tributaccedilatildeo incidente na reciclagem do plaacutestico 3 61 Garrafa 1 61 Garrafa PET 1 61 Reciclagem 1 63 Induacutestria Quiacutemica 1 64 Alumiacutenio 1 64 Induacutestria do alumiacutenio 2 65 Plaacutestico 1 65 Transformaccedilatildeo do plaacutestico 2 65 Empresas na transformaccedilatildeo do plaacutestico 3 65 Predomiacutenio das pequenas empresas na transformaccedilatildeo do plaacutestico 4 66 Lixo 1 69 Recicladoras 1 69 A abertura de novas recicladoras 2

94

71 Reciclagem 1 71 Reciclagem de Plaacutestico 2 74 Plaacutestico 1 74 Moagem do plaacutestico 2 74 Reciclagem 1 74 Primeiras etapas da reciclagem 2 75 Coleta 1 75 A coleta do plaacutestico 2 77 Reciclagem 1 77 Reciclagem de resiacuteduos 2 77 Reciclagem de resiacuteduos industriais 3

DOCUMENTO2

Linha Sintagma Nominal Niacutevel1 Lixo 1 1 Cuidados com o lixo 2 5 Lixo 1 5 Lixo 1 6 Mateacuteria Orgacircnica 1 6 Plaacutesticos latas e vidros 2 7 Lixo 1 7 Reciclagem do lixo 2 7 A importacircncia da reciclagem do lixo 3 9 O lixo 1 9 Resiacuteduos 1 9 Resiacuteduos soacutelidos 1 9 Resiacuteduos soacutelidos natildeo-biodegradaacuteveis 1 9 Restos de alimentos folhas e frutas 2 10 Lixo 1 10 Lixo orgacircnico 1 11 Lixo 1 11 Lixo domiciliar lixo industrial o de vias puacuteblicas e o hospitalar 3 13 Lixo 1 13 A quantidade de lixo 2

95

15 Lixo 1 15 O acuacutemulo de lixo 2 15 O lixo 1 17 Material orgacircnico 1 18 Restos de comida de animais de plantas e frutas 4 18 Lixo 1 20 Aterro sanitaacuterio 1 20 A decomposiccedilatildeo 1 20 A decomposiccedilatildeo natural 1 21 Reciclaacutevel 1 21 Material reciclaacutevel 1 22 Material plaacutestico latas de alumiacutenio e ferro garrafas de refrigerante de

vidro e PET caixas de papel e papelatildeo jornais revistas livros aparas de papel

4

24 Lixo 1 24 Volume diaacuterio de lixo 2 31 O lixo 1 31 O lixo orgacircnico 1 31 Reciclaacutevel 1 33 Lixo 1 33 Tipo de lixo 2 33 vidro 1 34 As garrafas 1 35 As garrafas 1 36 O lixo 1 36 O lixo papel aparas embalagens de papelatildeo as perdas da impressora

jornais e revistas velhas 3

38 Ferro 1 38 Alumiacutenio 1 42 Reciclaacutevel 1 42 Material reciclaacutevel 1 42 Coleta 1 42 Coleta seletiva 1 44 Reciclagem 1 44 Material para reciclagem 2 44 A destinaccedilatildeo do material para reciclagem 3

96

47 Lixo 1 47 Separaccedilatildeo do lixo 2 47 Separaccedilatildeo do lixo para reciclagem 3 47 O resultado da separaccedilatildeo do lixo para reciclagem 4 50 Coleta 1 50 Coleta seletiva 1 50 O meacutetodo de coleta seletiva 2 53 Lixo 1 53 Embalagens 1 53 O lixo 1 54 Embalagens plaacutesticas 1 54 Pouco reciclaacuteveis 1 54 O vidro 1 57 Decomposiccedilatildeo 1 57 Decomposiccedilatildeo de alguns materiais 2 57 Tempo de decomposiccedilatildeo de alguns materiais 3 67 Plaacutestico 1 67 Plaacutestico riacutegido 1 67 Embalagens plaacutesticas 1 67 Embalagens plaacutesticas como garrafas de refrigerantes recipientes para

produtos de limpeza e higiene e potes de alimentos 4

72 Papel ondulado 1 74 Coleta 1 74 Coleta em grandes volumes comerciais 2 74 Faacutecil coleta em grandes volumes comerciais 2 76 Processamento 1 76 Custo de processamento 2 77 Embalagens 1 77 Embalagens longa vida 1 79 reprocessamento 1 79 Reprocessamento do material 2 82 Hortas e jardins 2 83 Pneus 1 83 Reciclagem 1 83 A borracha e sua reciclagem 2

97

84 Borracha 1 84 Borracha natural ou sinteacutetica 1 84 O custo da borracha natural ou sinteacutetica 2 86 Latas de alumiacutenio 1 86 O lixo 1 86 A reciclagem 1 88 Reciclada 1 88 Latinha reciclada 1 89 A reciclagem 1 91 vidro 1 91 Vidro 1 91 Recipiente de vidro 2 91 Faacutecil reciclagem 1 94 PET 1 94 Recicladas 1 94 Garrafas recicladas 1 95 Reciclagem 1 95 Lixo 1 95 Lixo plaacutestico 1 95 Lixo plaacutestico dos aterros 2 97 Reciclado 1 97 Reciclado vaacuterias vezes 1 98 Latas de accedilo 2 98 Automoacuteveis ferramentas vigas para construccedilatildeo civil arames

vergalhotildees utensiacutelios domeacutesticos e inclusive novas latas 3

100 Plaacutestico filme 1 100 Sacolas de supermercado sacos de lixo embalagens de leite lonas

agriacutecolas e proteccedilatildeo de alimentos na geladeira ou microondas 3

102 Folha de alumiacutenio 2 107 Reciclaacuteveis 1 107 Produtos biodegradaacuteveis ou reciclaacuteveis 1 110 Lixo 1 110 Lixo na rua 2 110 O lixo 1 110 O lixo na lixeira 2

98

111 O lixo 111 Reciclagem 1 111 Plaacutesticos vidros e papel para reciclagem 3

99

ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web hermessourceforgenethermeswebhtml

Texto processado (Paraacutegrafo 6 do Documento1)

A induacutestria da reciclagem do plaacutestico no Brasil tem crescido bastante em funccedilatildeo do reaproveitamento do PET que eacute usado no segmento de monofilamentos em artigos como vassouras e na induacutestria tecircxtil Conforme Ana Flores a reciclagem gera 250 mil empregos no Paiacutes dos quais 70 satildeo informais Poreacutem a maior parte do potencial de mercado ainda estaacute sendo desperdiccedilado avalia ldquoCerca de 15 do total de plaacutestico que eacute industrializado no Paiacutes eacute reciclado Em dez anos poderiacuteamos chegar a 60 como nos Estados Unidos desde que fosse implementado um conjunto de medidas incentivando essa praacuteticardquo assegura

Resultado

A_ART induacutestria_N da_PREP+ART reciclagem_N do_PREP+ART plaacutestico_N no_PREP+ART Brasil_NP tem_VTD crescido_ADJ bastante_ADV em_PREP funccedilatildeo_N do_PREP+ART reaproveitamento_N do_PREP+ART PET_N _ que_PR eacute_VLIG usado_ADJ no_PREP+ART segmento_N de_PREP monofilamentos_N _ em_PREP artigos_N

100

como_CONJSUB vassouras_ADJ e_CONJCOORD na_PREP+ART induacutestria_N tecircxtil_NP _ Conforme_CONJSUB Ana_NP Flores_N _ a_ART reciclagem_N gera_N 250_NC mil_NC empregos_N no_PREP+ART Paiacutes_N _ dos_PREP+ART quais_PR 70_NC satildeo_VLIG informais_ADJ _ Poreacutem_VTD _ a_ART maior_ADJ parte_N do_PREP+ART potencial_N de_PREP mercado_N ainda_ADV estaacute_VLIG sendo_VLIG desperdiccedilado_VTD _ avalia_N _ Cerca_N de_PREP 15_NC do_PREP+ART total_ADJ de_PREP plaacutestico_N que_PR eacute_VLIG

101

industrializado_VTD no_PREP+ART Paiacutes_N eacute_VLIG reciclado_VTD _ Em_PREP dez_NC anos_N poderiacuteamos_VTD chegar_VTI a_ART 60_NC _ como_CONJSUB nos_PREP+ART Estados_NP Unidos_NP _ desde_PREP que_PR fosse_VLIG implementado_ADJ um_ART conjunto_N de_PREP medidas_N incentivando_VTD essa_PD praacutetica_N _ assegura_VTD _

102

ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM

Endereccedilo na Web httplaelpucspbrcorporaetiquetagem

A ARTD induacutestria N da CPR reciclagem N do CPR plaacutestico N no CPR Brasil N tem V crescido PART bastante ADV em PRP funccedilatildeo N do CPR reaproveitamento N do CPR PET N PT que PRN eacute V usado PART no CPR segmento N de PRP monofilamentos N PT em PRP artigos N como ADV vassouras N e CJ na CPR induacutestria N tecircxtil ADJ PT Conforme ADJ Ana N Flores N PT a ARTD reciclagem N gera V 250 NUM mil N

103

empregos N no CPR Paiacutes N PT dos CPR quais PRN 70 NUM PT satildeo V informais ADJ PT Poreacutem CJ PT a ARTD maior ADJ parte N do CPR potencial N de PRP mercado N ainda ADV estaacute V sendo V desperdiccedilado PART PT avalia V PT ldquoCerca PRP de PRP 15 NUM PT do CPR total N de PRP plaacutestico N que PRN eacute V industrializado PART no CPR Paiacutes N eacute V reciclado PART PT Em PRP dez NUM anos N poderiacuteamos V chegar V a ARTD 60 NUM PT

104

PT como ADV nos CPR Estados N Unidos N PT desde PRP que PRN fosse V implementado PART um ARTI conjunto N de PRP medidas N incentivando V essa PRN praacuteticardquo N PT assegura V PT

105

ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO Palavra Original Classe Substantivo Abstrato Substantivo Concretotem Verbo E E crescido Verbo no particiacutepio crescimento E bastante Adveacuterbio E E eacute Verbo E E usado Verbo no particiacutepio uso usador tecircxtil Adjetivo E tecido informal Adjetivo informalidade E maior Adjetivo maioridade E potencial Adjetivo potencialidade E ainda Adveacuterbio E E estaacute Verbo E E sendo Verbo E E desperdiccedilado Verbo no particiacutepio desperdiacutecio desperdiccedilador total Adjetivo totalidade totalizador industrializado Verbo no particiacutepio industrial induacutestria reciclado Verbo no particiacutepio E reciclagem poderiacuteamos Verbo E E chegar Verbo E chegada fosse Verbo E E implementado Verbo no particiacutepio implemento implementador incentivando Verbo Incentivo incentivador

E = ausecircncia de nominalizaccedilatildeo

  • AGRADECIMENTOS
  • IacuteNDICE DE FIGURAS
  • IacuteNDICE DE TABELAS
  • SIGLAS
  • RESUMO
  • ABSTRACT
  • SUMAacuteRIO
  • 1 INTRODUCcedilAtildeO
    • 11 Objetivos
      • 111 Objetivo Geral
      • 112 Objetivos Especiacuteficos
        • 12 Metodologia
        • 13 Resultados Esperados e Limitaccedilotildees do Trabalho
        • 14 Estrutura da Dissertaccedilatildeo
          • 2 RECUPERACcedilAtildeO DE INFORMACcedilAtildeO
            • 21 Histoacuterico
            • 22 Modelos Claacutessicos de Recuperaccedilatildeo de Informaccedilatildeo
              • 221 Modelo Booleano
                • 2211 Operadores Booleanos
                • 2212 Operadores de Proximidade
                  • 222 Modelo Vetorial
                  • 223 Modelo Probabiliacutestico
                      • 3 FUNDAMENTACcedilAtildeO TEacuteORICA
                        • 31 A Proposta de Kuramoto
                          • 311 Extraccedilatildeo dos Sintagmas Nominais
                            • 3111 Extraccedilatildeo Automaacutetica de Sintagmas Nominais
                              • 312 A determinaccedilatildeo de uma estrutura para os SN
                              • 313 Protoacutetipo Desenho da Interface de Busca
                              • 314 Organizaccedilatildeo dos Sintagmas Nominais como Estrutura de B
                                • 32 A Teoria do Leacutexico Gerativo de Pustejovsky
                                  • 321 Estruturas do Leacutexico Gerativo
                                    • 3211 Estrutura de Argumento
                                    • 3212 Estrutura de Evento
                                    • 3213 Estrutura de Qualia
                                    • 3214 Estrutura de Heranccedila Lexical
                                      • 322 Sistema de Tipos Semacircnticos
                                      • 322 Mecanismos gerativos
                                        • 3221 Coerccedilatildeo de tipo
                                        • 3222 Ligaccedilatildeo seletiva
                                        • 3223 Co-composiccedilatildeo
                                            • 33 O Modelo TR+ de Gonzalez
                                              • Fonte Gonzalez 2005
                                                  • 4 APRESENTACcedilAtildeO E DISCUSSAtildeO DO MODELO PROPOSTO
                                                    • 41 Procedimentos desenvolvidos utilizando o modelo de SN de
                                                    • 42 Descriccedilatildeo Formal do Modelo Proposto SINTR+
                                                      • 5 CONCLUSAtildeO
                                                      • 6 REFEREcircNCIAS BIBLIOGRAacuteFICAS
                                                        • 61 Bibliografia Consultada
                                                          • ANEXO A - DOCUMENTO1
                                                          • ANEXO B - DOCUMENTO2
                                                          • ANEXO C - EXTRACcedilAtildeO MANUAL DE SN DOS DOCUMENTOS
                                                            • DOCUMENTO2
                                                              • ANEXO D - FERRAMENTA1 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO D - FERRAMENTA2 DE TOQUENIZACcedilAtildeO E ETIQUETAGEM
                                                              • ANEXO E - PROCESSO DE NOMINALIZACcedilAtildeO
Page 11: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 12: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 13: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 14: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 15: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 16: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 17: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 18: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 19: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 20: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 21: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 22: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 23: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 24: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 25: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 26: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 27: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 28: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 29: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 30: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 31: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 32: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 33: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 34: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 35: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 36: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 37: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 38: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 39: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 40: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 41: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 42: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 43: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 44: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 45: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 46: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 47: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 48: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 49: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 50: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 51: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 52: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 53: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 54: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 55: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 56: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 57: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 58: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 59: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 60: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 61: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 62: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 63: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 64: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 65: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 66: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 67: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 68: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 69: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 70: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 71: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 72: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 73: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 74: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 75: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 76: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 77: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 78: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 79: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 80: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 81: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 82: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 83: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 84: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 85: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 86: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 87: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 88: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 89: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 90: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 91: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 92: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 93: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 94: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 95: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 96: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 97: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 98: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 99: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 100: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 101: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 102: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 103: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 104: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 105: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 106: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 107: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 108: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação
Page 109: ESTRUTURA SINTR+: UM MODELO DE SUPORTE AO USUÁRIO NA ... · Figura 16: Exemplo de polissemia lógica na representação matricial da palavra “livro”.....41 Figura 17: ... Operação