luana morellato.projeto final

Upload: antoniobalan

Post on 17-Jul-2015

78 views

Category:

Documents


0 download

TRANSCRIPT

Luana Vieira Morellato

SIDSN Sistema Identicador de Sintagmas Nominais

Vitria - ES, Brasil 17 de Julho de 2007

Luana Vieira Morellato

SIDSN Sistema Identicador de Sintagmas NominaisMonograa apresentada para obteno do Grau de Bacharel em Cincia da Computao pela Universidade Federal do Esprito Santo.

Orientador:

Srgio Antnio Andrade de Freitas

D EPARTAMENTO DE I NFORMTICA C ENTRO T ECNOLGICO U NIVERSIDADE F EDERAL DO E SPRITO S ANTO

Vitria - ES, Brasil 17 de Julho de 2007

Monograa de Projeto Final de Graduao sob o ttulo SIDSN - Sistema Identicador de Sintagmas Nominais defendida por Luana Vieira Morellato e aprovada em 17 de Julho de 2007, em Vitria, Estado do Esprito Santo, pela banca examinadora constituda pelos membros:

Prof. Srgio Antnio A. de Freitas, D. Sc. Orientador

Prof. Ayrton Monteiro Cristo Filho, M. Sc. Examinador

Carlos Roberto de Souza Rodrigues, B. Sc Examinador

ResumoEste trabalho trata de um sistema que identica, automaticamente, sintagmas nominais em sentenas escritas em portugus. Os sintagmas so formados por grupos de palavras que constituem uma unidade dentro da frase com comportamento de sujeito ou de objeto. As literaturas apresentam a utilizao de sintagmas nominais em sistemas de Recuperao de Informaes (RI), por exemplo, como termos de ndices para sistemas de indexao de documentos, no lugar das palavras-chave, normalmente usadas. Na anlise semntica, heursticas baseadas em resoluo de anforas consideram sintagmas nominais como possveis antecedentes para expresses anafricas O Sistema de Identicao de Sintagmas Nominais (SIDSN) desenvolvido composto de dois mdulos para obteno de sintagmas a partir de textos digitalizados. O primeiro faz o prprocessamento no texto, estruturando-o em frases; a partir da, o mdulo Identicador realiza a anlise sinttica da sentena e extra os sintagmas nominais identicados.

DedicatriaDedico este trabalho minha famlia, papai, mame, Lice e Dinho, razo da minha vida.

AgradecimentosAgradeo a Deus, fora maior que nos rege, por estar sempre presente em minha vida. Aos professores que contriburam em minha formao acadmica, obrigado pela pacincia e a dedicao ao transformar o desconhecido em sabedoria. Em especial, aos docentes do departamento de informtica. Ao Srgio pela conana e disponibilidade como professor e orientador. Mesmo com inmeras atividades, trabalhos e reunies, sempre respondeu a emails, tirou dvidas e, nos momentos de aio da minha parte, a insistente pergunta surgia: Voc t bem?. Agradeo aos meus pais por dedicarem, ao longo desses anos, o que fosse preciso para que eu pudesse seguir os caminhos que escolhi. Ao papai por ser, para mim, exemplo de honestidade, responsabilidade e tica, e a mame, pelo amor dedicado e demostrado, seja em sucos levados at o quarto, quando passava horas fazendo trabalho, ou em ligaes preocupadas quando eu esquecia de avisar que ia chegar tarde. vov Teresinha por ser a minha maior puxa-saco e sempre ter meu biscoito favorito e um caf quentinho ao passar em sua casa. madrinha e ao padrinho pelo carinho, e Marlcia por ser a prim, a prima-irm em quem posso conar. Alice por acumular papis de irm, amiga, condente, e por se propor a entender o que era uma rvore vermelho-preto s para me ajudar a encontrar o motivo de um segmentation full inexplicvel. Amo-te de maneira imensurvel. Cris pela amizade incondicional dedicada desde a poca que Cincia da Computao era s uma opo no vestibular. Obrigado por acreditar, sonhar e lutar junto, pelo sorriso, teimosia, pelas conversas no Transcol ou no sof de casa em tardes de domingo. Nick pela desenvoltura e exibilidade demonstrada nos timos momentos vividos, por me deixar fazer da sua repblica a minha segunda casa, por esperar (dormindo na janela) que eu chegasse, por me deixar falar por horas. Magdssima pela sinceridade, alegria e companheirismo em todos os momentos, e por sempre me dizer o que eu precisava e no o que eu queria ouvir. Bruna pelas muitas, e foram muitas mesmo, histrias que, graas ela, tenho para contar. Obrigada pelos colches divididos, roupas emprestadas, pelas fotos ociais e por

me ajudar a acreditar que vale a pena. querida amiga rtemis Sass, pela simplicidade, fora e conana. Agradeo ao Tat, o amigo japa mais legal do cantinho, por me ensinar que vrgula um sinal de pontuao e no deve ser usado de forma duvidosa. Graas a voc, hoje bebo muito cappucino e me jogo de cabea, mas tambm sei a quem procurar quando surge a questo E agora, o que fao?. Muito obrigado por fazer parte da minha vida. Aos amigos de Santana (Wellington, Deivid, Lilian e Sheilla) e da PJ, Pastoral da Juventude que, mesmo no havendo a alegria da convivncia, continuam a ser muito importantes e queridos. Lu por ser o recurso humano responsvel pelos esclarecimentos e correes lingsticas deste trabalho e, tambm, por cuidar da Lice na minha ausncia. Aos grandes amigos que adquiri durante o curso, em especial, aos 66,666... % das meninas da sala, Dbora e Mary, pela cumplicidade feminina e por formarmos as programadoras superpoderosas. Aos amados amigos e scios da Top Three, Salomo e Kbelo, pelos trabalhos em duplas (realizados em trio), os estudos em vspera de prova, pelas brincadeiras e os papos-cabea, os rocks na cachoeira do Brother e o minha preta. Sem a presena de vocs, chegar at aqui seria muito mais difcil e menos divertido. Ao Jo pelo companherismo, pelas vezes que o z de google, e por aprender antes para me explicar depois. Agradeo ao Victo pela sinceridade e franqueza, ao Camilo pela amizade e ternura, e ao Paulim pelo apoio, por compartilhar indecises e por sempre lembrar que Dormir para os fracos!. Ao Guilherme, Ckin, Macarro, Lufe, Digo, Gazzela e outros meninos da turma pela companhia em aula, trabalhos e momentos de descontrao. E a todos que no foram citados, mas, de alguma maneira, zeram e fazem parte da minha histria.

Sumrio

Lista de Figuras Lista de Tabelas 1 Introduo 1.1 1.2 1.3 1.4 1.5 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reviso bibliogrca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estrutura da monograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11 p. 11 p. 11 p. 12 p. 13 p. 13 p. 14 p. 14 p. 15 p. 16 p. 16 p. 16 p. 18 p. 18 p. 19 p. 20 p. 20 p. 21

2 Lingstica Computacional 2.1 2.2 2.3 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Processamento da Linguagem Natural . . . . . . . . . . . . . . . . . . . . . Analisadores Sintticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 2.3.2 Lxico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gramticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2.1 2.3.3 Formalismo . . . . . . . . . . . . . . . . . . . . . . . . .

Mtodos de Anlise . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.4

Gramtica Sintagmtica do Portugus . . . . . . . . . . . . . . . . . . . . . 2.4.1 Os Sintagmas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1.1 2.4.1.2 Sintagma Nominal . . . . . . . . . . . . . . . . . . . . . . Sintagma Verbal . . . . . . . . . . . . . . . . . . . . . . .

2.4.1.3

Sintagma Adjetival e Preposicional . . . . . . . . . . . . .

p. 21 p. 23 p. 23 p. 24 p. 25 p. 26 p. 27 p. 29 p. 30 p. 30 p. 32 p. 34 p. 35 p. 36 p. 39 p. 39 p. 39 p. 43 p. 50 p. 51 p. 54 p. 57

3 SIDSN, um identicador de sintagmas nominais 3.1 3.2 3.3 Denio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . O Pr-processador de Textos . . . . . . . . . . . . . . . . . . . . . . . . . . Identicador de Sintagmas Nominais . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Regras Gramaticais . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1.1 3.3.1.2 3.3.1.3 3.3.1.4 3.3.1.5 3.3.2 DCG - Denite Clause Grammar . . . . . . . . . . . . . . Nomes e Verbos Composto . . . . . . . . . . . . . . . . . Sintagma Preposicional . . . . . . . . . . . . . . . . . . . Sintagma Verbal . . . . . . . . . . . . . . . . . . . . . . . Sintagma Nominal . . . . . . . . . . . . . . . . . . . . .

Dicionrio de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2.1 Classicao das palavras . . . . . . . . . . . . . . . . . .

3.3.3

Interface de Comunicao . . . . . . . . . . . . . . . . . . . . . . .

4 Testes e Avaliao dos Resultados 4.1 4.2 4.3 4.4 4.5 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testes por Grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anlise Qualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anlise do Dicionrio de Dados . . . . . . . . . . . . . . . . . . . . . . . .

5 Concluses e trabalhos futuros Referncias

Lista de Figuras1 2 3 4 5 6 7 8 9 10 11 Modelo de implementao do SIDSN . . . . . . . . . . . . . . . . . . . . . Exemplo de entrada e sada dos mdulos do SIDSN . . . . . . . . . . . . . . Descrio do Identicador de Sintagma Nominal . . . . . . . . . . . . . . . rvore de derivao sinttica de uma frase . . . . . . . . . . . . . . . . . . . Exemplos de frases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelo do Dicionrio de Dados . . . . . . . . . . . . . . . . . . . . . . . . Estrutura da Interface de Comunicao . . . . . . . . . . . . . . . . . . . . . Grco de Mdia e Desvio Padro dos Grupo de Testes . . . . . . . . . . . . Grcos de anlise do dicionrio de dados: Grupos Informal e Formal . . . . Grcos de anlise do dicionrio de dados: Grupos Noticirio e Cientco . . Grcos de anlise do dicionrio de dados: Grupos Tcnico e Narrativa . . . p. 23 p. 24 p. 26 p. 26 p. 29 p. 34 p. 36 p. 50 p. 52 p. 52 p. 53

Lista de Tabelas1 2 3 4 5 6 7 8 9 10 11 Resultados dos Testes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . Resultados de Testes Posteriores . . . . . . . . . . . . . . . . . . . . . . . . Resultado Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40 p. 42 p. 43 p. 44 p. 45 p. 46 p. 47 p. 48 p. 49 p. 50 p. 55

Textos Informais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Textos Formais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Textos Tcnicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Textos Noticirios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Textos Narrativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Textos Cientcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anlise Qualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tempos de execuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

1

Introduo

1.1 MotivaoO Processamento de Linguagem Natural (PLN) voltado ao desenvolvimento de sistemas que possam interpretar, planejar e produzir informao em linguagem natural. Com o grande volume de informaes armazenadas, atualmente, em formato digital, existe a preocupao em se obter (e melhorar) ferramentas que possibilitem, dentre outras funcionalidades, organizar, representar e facilitar a busca nestes dados. Torna-se interessante, ento, o desenvolvimento de sistemas de interpretao de linguagem natural como aplicao especca ou, ainda, para auxiliar outros programas. O SIDSN, ao identicar sintagmas nominais, pode ser utilizado por softwares de PLN, principalmente, da rea de Recuperao de Informao (RI), para obter informaes de documentos. O trabalho de Jnior [Jnior 2007] prope uma metodologia para recuperar informaes relevantes a partir da resoluo das anforas de um documento. A recuperao de informaes dada pela estrutura proposta por Freitas, [Freitas 2005]. Essa estrutura permite acompanhar as entidades que se mantm em evidncia ao longo do discurso. No processo de resoluo de anforas e na obteno desta estrutura, faz-se necessria a identicao dos sintagmas nominais contidos no documento.

1.2 ObjetivosO objetivo deste trabalho construir um sistema para identicar e recuperar, automaticamente, sintagmas nominais contidos em textos escritos. Os textos so irrestritos em relao aos assuntos tratados, origem e estruturao de escrita. A lngua adotada nos textos, disponveis por meio de documentos digitais, o Portugus. O sistema desenvolvido deve ser capaz de processar documentos para obteno de textos em estrutura de frases, alm de analisar sintaticamente cada uma para obter a sua composio,

1.3 Reviso bibliogrca

12

de acordo com a gramtica sintagmtica da lngua portuguesa. Deve ser capaz, tambm, de identicar todos os sintagmas nominais da frase, recuperar os elementos e informaes morfolgicas que os compem, as caractersticas sintticas e a funo exercida pelos mesmos na frase.

1.3 Reviso bibliogrcaA rea de Processamento de Linguagem Natural contm trabalhos que implementam a recuperao de sintagmas nominais e trabalhos que utilizam os SNs como parte da soluo. Esta seo apresenta brevemente alguns exemplos encontrados nas literaturas. Miorelli [Miorelli 2001] desenvolveu um mtodo denominado ED-CER, de extrao de sintagmas nominais, constitudo de dois mdulos. O mdulo Seletor elimina palavras que no fazem parte de um sintagma nominal (como verbos, locues e pontuao), encontrando candidatos a SN. O mdulo Analisador recebe esses candidatos, realiza anlise sinttica, vericando a sua conformidade com as regras da gramtica e, ento, o sintagma nominal reconhecido. Vieira, em [Vieira et al. 2001], apresenta um trabalho de extrao semi-automtica de sintagmas nominais para resolver co-referncia textual para a Lngua Portuguesa. A extrao dos sintagmas nominais foi feita por meio de rvores sintticas geradas pelo software interativo do projeto Visual Interactive Syntax Learning (VISL) em forma de listas PROLOG. As correes nos sintagmas obtidos foi feita manualmente. O trabalho utilizou um corpus constitudo por um conjunto de textos do jornal Correio do Povo. Kuramoto [Kuramoto 1996] aborda o uso de sintagmas nominais como uma alternativa na recuperao da informao. Prope, por meio da construo de um prottipo, um sistema de recuperao de informao capaz de navegar em uma estrutura em rvore de SNs. Em [Kuramoto 2002], procurou explicitar e analisar as freqncias de ocorrncias de cada estrutura possvel para os sintagmas nominais. Souza [Souza 2005], em sua tese de doutorado, investiga o potencial de uso dos sintagmas nominais em processos de indexao automtica, partindo do pressuposto que estes tm maior grau de informao semntica embutida e, assim, podem vir a se tornar mais ecazes do que as palavras-chave normalmente utilizadas como descritores em processos automatizados de representao de documentos ou em sistemas de leitura das palavras oferecidas pelo autor dos documentos. Em [Freitas 2005] proposto, por Freitas, um mtodo de resoluo de anforas nominais

1.4 Metodologia

13

denida. Tal tarefa, dependendo do seu tipo, feita mediante a procura de um antecedente, tendo como estrutura uma lista de entidades explcitas, composta por sintagmas nominais indenidos, pronomes e elipses e uma implcita com sintagmas nominais denidos. O conceito de denido e indenido est associado ao tipo do artigo que acompanha o sintagma.

1.4 MetodologiaA metodologia adotada para o desenvolvimento deste trabalho iniciou-se com uma reviso bibliogrca, incluindo estudos relacionados ao conhecimento sobre processamento de linguagem natural, linguagem de programao lgica e armazenamento de dados por meio de banco relacional; alm da realizao de estudos da gramtica da lngua portuguesa. Logo aps a reviso bibliogrca, deniram-se as ferramentas para implementar o identicador de sintagmas nominais e iniciou-se o processo de desenvolvimento. A seguir, foram realizados testes no sistema e, paralelamente, foi produzido um cronograma para a elaborao da monograa, seguido at sua concluso.

1.5 Estrutura da monograaO presente trabalho est estruturado da seguinte forma: O captulo 2 apresenta pontos tericos relacionados ao sistema. Os conhecimentos computacionais abrangem na rea Processamento de Linguagem Natural o estudo de Analisadores Sintticos. A descrio de conceitos da Gramtica da Lngua Portuguesa relativos aos sintagmas so encontrados na seo 2.4 No captulo 3, apresentado o SIDSN, o modelo de implementao, as etapas envolvidas e ferramentas utilizadas. O captulo 4 trata dos testes efetuados e da anlise dos resultados obtidos. As consideraes nais, concluses e trabalhos futuros so descritas no captulo 5.

14

2

Lingstica Computacional

Neste captulo apresentam-se os principais conceitos relacionados ao desenvolvimento de um identicador de sintagmas nominais.

2.1 IntroduoA Lingstica Computacional a rea de conhecimento que explora as relaes entre lingstica e informtica, tornando possvel a construo de sistemas com capacidade de reconhecer e produzir informao apresentada em linguagem natural [Vieira e Lima 2001]. Envolve conhecimentos de lingstica terica e aplicada como, por exemplo, a sintaxe, a semntica, a pragmtica e anlise de discurso, normalmente provenientes de estudiosos linguistas, e de linguagens de programao e software para processar as lnguas naturais. A Lingstica Computacional pode ser dividida em duas reas: Lingstica baseada em Corpus e Processamento de Linguagem Natural (PLN). A Lingstica baseada em Corpus utiliza um conjunto de textos, corpus, com a nalidade de obter informaes como freqncia de palavras, de formas, fazer comparaes entre a lngua falada e escrita, analisar usos da lngua em diferentes pocas, encontrar diferenas entre o portugus do Brasil e de Portugal, dentre outras. Existem corpus de diferentes fontes e tipos como os de linguagem falada, linguagem escrita literria, textos de jornal, dentre outros. Nessa rea da lingstica, a utilizao da computao limita-se a auxiliar na obteno das informaes e no armazenamento dos dados, no se destinando diretamente construo ou aperfeioamento de algum software ou aplicativo. O Processamento de Linguagem Natural (PLN) voltado construo de softwares, aplicativos e sistemas computacionais especcos que possam interpretar, planejar e produzir informao em linguagem natural. Sendo necessrio diversos subsistemas para dar conta dos diferentes aspectos da lngua: sons, palavras, sentenas e discurso nos nveis estruturais, de signicado e de uso, [Vieira e Lima 2001].

2.2 Processamento da Linguagem Natural

15

Analisadores sintticos, tambm chamados de parsers, chatterbots (programas que simulam a conversao humana), tradutores automticos, reconhecedores de voz e geradores de resumo so alguns exemplos de sistemas desenvolvidos pelo PLN. Este trabalho compreende o Processamento de Linguagem Natural para o desenvolvimento de um software especco que identique sintagmas nominais.

2.2 Processamento da Linguagem NaturalO Processamento de Linguagem Natural um subcampo da Inteligncia Articial (IA) e da lingstica que estuda os problemas de gerao automtica e entendimento da linguagem natural, [Wikipdia]. O PLN envolve sistemas para tratar a linguagem escrita e falada. Na linguagem falada tem-se o desenvolvimento de sistemas de reconhecimento e de sntese da fala. O reconhecimento da fala compreende a interpretao dos sons e a ligao destes com os smbolos existentes na linguagem. A sntese da fala contm programas capazes de gerar uma sada sonora a partir de um texto. Os conhecimentos em lingstica considerados englobam estudo de fontica, que consiste na anlise da fala humana num nvel siolgico de produo, e fonologia, que estuda as regras e princpios da distribuio dos sons da lngua. As reas da Lingstica de grande importncia para o desenvolvimento de programas que manipulam linguagem escrita so a morfologia, a sintaxe, a semntica e, em alguns casos, a pragmtica e o discurso. Aplicativos nessa rea podem fazer tradues automticas de textos, gerao de resumos, correo ortogrca e gramatical, anlise sinttica, dentre outras funcionalidades. Segundo [Xavier 1992], a sintaxe a rea da lingistica que estuda as regras, as condies e os princpios subjacentes organizao estrutural dos constituintes das frase, ou seja, o estudo da ordem dos constituintes das frases. Os analisadores sintticos, parsers, so os programas responsveis pela interpretao automtica (ou semi-automtica) de sentenas de linguagem natural. A semntica a rea que estuda o signicado tal como ele estruturado nas lnguas, [Xavier 1992]. a parte do estudo da linguagem que se ocupa do signicado das expresses da lngua, enquanto a pragmtica relaciona o signicado com o contexto no qual est inserido. A pragmtica , ento, denida como a rea que estuda os princpios da linguagem em situao de uso, na qual os comunicadores e o contexto so as categorias principais que determinam a interpretao lingstica, [Xavier 1992].

2.3 Analisadores Sintticos

16

O sistema identicador de sintagmas nominais lida com o tratamento em nvel sinttico de linguagem natural, fundamentado na obteno de um analisador sinttico que classica palavras e expresses sintagmticas em sentenas e dene uma estrutura de relao entre estas, de acordo com uma gramtica denida.

2.3 Analisadores SintticosO analisador sinttico tem a funo de reconhecer uma seqncia de palavras e armar se esta compe uma frase da lngua. As relaes entre as palavras que constituem uma frase podem ser mostradas por meio de uma representao grca dada por uma rvore de derivao. A anlise sinttica determina a sintaxe de uma linguagem, dada pelas regras de uma gramtica. Estas so denidas pela combinao de um conjunto de palavras, denominado lxico. necessrio, tambm, especicar um mtodo de anlise para o processo de analisador sinttico, [Louden 2004].

2.3.1 LxicoO lxico, tambm conhecido como dicionrio, a estrutura que contm os itens lexicais e suas informaes morfolgicas. Os itens podem ser palavras isoladas ou composies vocabulares e, dentre as informaes associadas a eles, tem-se a classe gramatical, alm de valores como gnero, nmero, grau, pessoa, tempo, modo, regncia e, em alguns casos, representaes ou descries semnticas. A morfologia estuda a constituio das palavras e sua classicao em categorias, sendo necessria na composio do lxico de um analisador. Trata do conhecimento da estrutura das palavras, que podem ser consttudas por unidades bsicas, chamadas de morfemas, e elementos adicionais, como suxos e prexos. Tambm a morfologia que classica as palavras em diferentes categorias gramaticais como substantivos, verbos, adjetivos, preposies etc. Uma palavra pode ser classicada em mais de uma categoria, dependendo do contexto no qual est inserida e de sua funo na frase.

2.3.2 GramticasA gramtica utilizada num analisador sinttico deve ser capaz de reconhecer as sentenas vlidas da lngua, alm de mostrar sua expressividade. composta por regras por meio das

2.3 Analisadores Sintticos

17

quais possvel obter os elementos da linguagem. A classicao de gramticas, segundo [Chomsky 1956], possui 4 nveis: Tipo 0: Gramticas sem restrio As gramticas pertencentes a essa classicao so aquelas s quais nenhuma limitao imposta. Tipo 1: Gramticas livres de contexto So gramticas que no levam em considerao o contexto em que esto sendo analisadas, permitindo a representao de linguagens com um certo grau de complexidade. Para a linguagem natural, o maior problema est relacionado s dependncias e concordncias, pois abordagens puramente livres de contexto no so sucientemente poderosas para captar a descrio adequada deste gnero de linguagem. Tipo 2: Gramticas sensveis ao contexto Ao utilizar gramtica sensvel ao contexto, o problema de dependncia resolvido. Porm, seu uso em PLN restrito devido complexidade algortmica envolvida. Alm disso, tais gramticas no tratam de maneira satisfatria algumas restries gramaticais. Tipo 3: Gramticas regulares So gramticas simples e facilmente reconhecidas. Porm, apresentam um poder de expresso limitado. Em Exemplo 1 tem-se exemplo de uma gramtica com duas regras de formao denidas por meio de fatos e regras em lgica de 1a ordem. Exemplo 1 : A menina sorriu. Ela sorriu. frase artigo , nome, verbo. frase pronome, verbo. verbo(sorriu). artigo(a). nome(menina). pronome(ela).

2.3 Analisadores Sintticos

18

2.3.2.1 Formalismo Pode-se denir um formalismo como uma maneira de escrever uma gramtica. Porm, no h como demarcar um formalismo que contemple todas as necessidades da linguagem natural. Os modelos utilizados e propostos seguem em um nvel intermedirio s gramticas de livre contexto e s gramticas sensveis ao contexto. Segundo [Vieira e Lima 2001], dentre os formalismos gramaticais destacam-se as redes de transio, gramticas de constituintes imediatos (phrase structure grammar PSG), gramticas de constituintes imediatos generalizadas (GPSG), gramticas de unicao funcional, PATR-II, e, ainda, HPSG (head-driven phrase strutcture grammar). Dos formalismos gramaticais citados anteriormente, mostrar-se- dois deles. Primeiramente, as PSGs (phrase structure grammar), gramticas livres de contexto que estruturam a sintaxe frasal em funo de seus constituintes. Por exemplo, dene-se uma Frase como sendo composta pelos constituintes Sintagma Nominal e Sintagma Verbal. O formalismo PSG tem poder gerativo e capacidade computacional e utilizado, por exemplo, em algoritmos que reconhecem linguagens de programao. No entanto, no consegue resolver questes de concordncia de gnero, nmero e pessoa, que so de grande importncia em linguagem natural. O problema de concordncia resolvido no formalismo PATR-II, onde possvel fornecer informaes de gnero, nmero e pessoa nas regras gramaticais.

2.3.3 Mtodos de AnliseApresentada as noes de gramtica e os formalismos de representao, a seguir tem-se diferentes mtodos de anlise sinttica, por meio de analisadores top-down, bottom-up, leftcorner e chart parser. A anlise top-down caracteriza-se por construir uma rvore de derivao da raiz para as folhas, ou seja, comeando pelas regras iniciais e descendo para os smbolos da sentena, as palavras. Um analisador top-down utilizado no Exemplo 1, encontraria o conceito frase e, ento, vericaria as regras das quais composto. Uma anlise de regras da esquerda para a direita ir descer pelo ramo mais esquerda da rvore at encontrar um elemento terminal que a satisfaa. O mtodo top-down permite uma redundncia na anlise de dados, ao precisar vericar as regras mais de uma vez. Dependendo da estruturao das regras, pode acontecer uma recurso

2.4 Gramtica Sintagmtica do Portugus

19

em loop mais a esquerda, no sendo possvel terminar a anlise da frase. Um analisador bottom-up faz o contrrio, comea pelas folhas da rvore de derivao, e tenta mont-la combinando as regras. No h problemas com loop para regras recursivas esquerda, porm, no tem como tratar fenmenos lingusticos como constituintes vazios, componentes facultativos na frase, entre outros. O left-corner uma combinao das anlises bottom-up e top-down pois, ao encontrar uma palavra, ele verica que tipo de regra inicia com tal palavra e, ento, faz o restante da anlise de forma top-down partindo desta regra. Assim, no h problemas com loop. O chart parser, tambm chamado de tabular, evita a redundncia de buscas ao guardar as estruturas j analisadas e reutiliz-las, se for preciso. Assim, elimina-se o backtraking e previne a exploso combinatorial de possibilidades que poderia vir a ocorrer durante o processamento. Vericados os assuntos computacionais relacionados estruturao de um programa para processamento de linguagem natural, no caso especco dos analisadores sintticos, tem-se a necessidade de ligao com um domnio. Na anlise sinttica, a gramtica abrange um conjunto de regras que denem as formas permitidas de uma linguagem. A Gramtica Sintagmtica do Portugus explicita as regras de formao de sentenas vlidas da lngua por meio de seus constituintes, os sintagmas.

2.4 Gramtica Sintagmtica do PortugusSegundo [Silva 1993] uma frase a expresso verbal de um pensamento, ou seja, todo enunciado suciente por si mesmo para estabelecer comunicao. A frase consiste, ento, em uma combinao de elementos lingsticos agrupados segundo regras e princpios que a tornam uma sentena vlida da lngua. Orao todo enunciado lingstico que se estrutura ao redor de um verbo. O conceito de frase, por vezes, empregado como sinnimo de orao. Mas a frase no precisa obrigatoriamente ter um verbo. Em Exemplo 2 tem-se casos de oraes e frases. Exemplo 2 : 1. Cuidado! 2. A aula ir comear mais cedo. 3. Viajaremos nas frias de julho.

2.4 Gramtica Sintagmtica do Portugus

20

As regras gramaticais tm como funo especicar e formalizar as relaes existentes entre os elementos que compem as frases. As regras devem ser capazes de descrever a estrutura sinttica da lngua a qual se referem. Os elementos que, quando combinados, formam oraes so chamados de sintagmas.

2.4.1 Os SintagmasO sintagma consiste num conjunto de elementos que constituem uma unidade signicativa dentro da orao e que mantm entre si relaes de dependncia e de ordem, [Silva 1993]. Um sintagma formado por uma ou vrias palavras que, juntas, desempenham uma funo na frase. A natureza do sintagma depende da classe gramatical a qual seu ncleo pertence, existindo assim sintagmas nominais (SN), sintagmas verbais (SV), sintagmas adjetivais (SA) e sintagmas preposicionais (SP). Uma orao deve conter, obrigatoriamente, o SN e o SV, e, de forma facultativa, o SA e o SP. O sintagma nominal apresenta-se oculto em algumas frases, como no Exemplo 2.3, em que o vocbulo Ns no aparece. No Exemplo 3, v-se um frase e sua decomposio em sintagmas. Exemplo 3 : O beb acordou cedinho. Sintagma Nominal O beb Sintagma Verbal acordou cedinho Sintagma Preposicional cedinho 2.4.1.1 Sintagma Nominal O Sintagma Nominal a unidade sinttica-semntica em que o ncleo constitudo por um nome ou pronome. O ncleo pode ser acompanhado pelos elementos caracterizadores denominados determinante e modicador. Um sintagma nominal pode ter funo de sujeito ou objeto na frase, dependendo da sua relao com os outros constituintes. A seguir, tem-se a regra de formao geral de um sintagma nominal, onde os parnteses indicam que o elemento facultativo, no caso o determinante, Det, e o modicador, Mod. SN (Det) + (Mod) + Ncleo + (Mod)

2.4 Gramtica Sintagmtica do Portugus

21

O nome pode ser representado por elementos da classe dos substantivos (sobretudo simples, composto e prprio), e dos pronomes (pessoal). O determinante composto por artigos denidos e indenidos, numeral, pronomes possessivos, indenidos, e pode tambm ser formado de maneira composta. O modicador constitudo de sintagmas adjetivais e preposicionais. O Exemplo 4 exibe frases que destacam os sintagmas nominais, alm de ressaltar sua funo. Exemplo 4 : Duas caixas caram no cho. (sujeito - objeto) Os meus dois cachorros fugiram. (sujeito) Ela chama-se Maria Jos. (sujeito - objeto) Todos choraram. (sujeito) 2.4.1.2 Sintagma Verbal O sintagma verbal constitudo do seu ncleo, o verbo, e de modicadores facultativos SN, SP e/ou SA. O verbo pode ser composto por um ou mais vocbulos. Alguns exemplos de sintagmas verbais com os seus respectivos tipos de verbos so mostrados no Exemplo 5. Exemplo 5 : A menina adormeceu. (adormecer - verbo intransitivo) Alice vendeu a casa. (vender - verbo transitivo direto) Os alunos faltaram aula. (faltar - verbo transitivo indireto) O professor falou de voc ao diretor. (falar - verbo transitivo direto e indireto) 2.4.1.3 Sintagma Adjetival e Preposicional O sintagma adjetival (SA) e o sintagma preposicional (SP) podem ser encontrados como parte de outros sintagmas, exercendo a funo de modicadores destes. O SA tem como ncleo um adjetivo e pode possuir modicadores e intensicadores, conforme exibido no Exemplo 6. Exemplo 6 :

2.4 Gramtica Sintagmtica do Portugus

22

A escola velha. (adjetivo) A escola muito velha. (advrbio + adjetivo) O sintagma preposicional composto por uma preposio e um SN, ou de um advrbio, mostrados no Exemplo 7. Exemplo 7 : A caminhada comea cedinho. (advrbio) A caminhada comea de madrugada. (preposio + SN) Fundamentado nos conhecimentos obtidos no que diz respeito s reas computacionais de Anlise Sinttica em Processamento de Linguagem Natural, e lingsticas de Gramtica da Lngua Portuguesa, possvel construir um sistema capaz de identicar expresses da lngua, no caso especco, de sintagmas nominais em frases.

23

3

SIDSN, um identicador de sintagmas nominais

Este captulo apresenta o SIDSN - Sistema Identicador de Sintagmas Nominais.

3.1 DenioO Sistema Identicador de Sintagmas Nominais - SIDSN - um conjunto de programas que tem por objetivo reconhecer e retornar os sintagmas nominais contidos em frases. Estas, por sua vez, pertencem a textos que esto disponveis em formato digital. Na Figura 1, tem-se um modelo geral da estrutura de implementao do sistema, que foi dividido em dois mdulos: o Pr-processador de Textos e o Identicador de Sintagmas Nominais.

Figura 1: Modelo de implementao do SIDSN O Pr-processador de Textos tem a funo de estruturar em frases um texto digital submetido ao sistema. O programa recebe um arquivo em formato texto (.txt) como entrada, e fornece um arquivo contendo as frases pertencentes a esse texto na sada. As frases esto descritas em forma de lista de palavras. O Identicador de Sintagmas Nominais utiliza como entrada o conjunto de frases segmentadas fornecido pelo Pr-processador de Textos. Cada frase processada e vericada se, de acordo com as regras denidas da lngua portuguesa, uma sentena vlida. Nesse caso, retorna uma lista contendo os sintagmas nominais encontrados com suas respectivas funes de-

3.2 O Pr-processador de Textos

24

sempenhadas dentro da frase. Caso essa frase no obedea s regras gramaticais estabelecidas no identicador, uma mensagem retornada informando que no foi possvel reconhec-la. A Figura 2 mostra um exemplo de entrada e sada de cada etapa do sistema. A mensagem No indica que a frase no foi reconhecida.

Figura 2: Exemplo de entrada e sada dos mdulos do SIDSN A seguir, descreve-se de maneira mais detalhada a implementao dos dois mdulos que compem o SIDSN.

3.2 O Pr-processador de TextosO Pr-processador de Textos o mdulo do SIDSN responsvel pela organizao do texto em frases e pela retirada de smbolos, tais como pontuao e caracteres de delimitao. Os textos submetidos a processamento devem estar em formato texto (.txt), mas, caso estejam em outro formato, pode-se utilizar programas disponveis no sistema operacional Linux, por exemplo, para fazer a transformao. Existem disponveis os comandos de converso pdfto-

3.3 Identicador de Sintagmas Nominais

25

text para formato pdf, html2text para html e wvText para documentos Microsoft Word e BrOfce Writer. Ao utilizar esses programas, smbolos no identicveis pelo pr-processador podem surgir devido a diferenas de codicao dos arquivos. O pr-processador foi implementado usando AWK, uma linguagem de programao script para processamento de dados baseados em texto. Uma linguagem de programao script tem como caracterstica ser formada de um conjunto de componentes j desenvolvidos em outras linguagens, alm de ser interpretada. No caso especco do AWK, possui uma sintaxe parecida com a liguagem C, utiliza vetores indexados por palavras chave e expresses regulares. O Algoritmo 1 descreve os procedimentos do script. Ao encontrar um sinal de pontuao, tal como ponto nal, exclamao, interrogao, reticncias etc, formada uma nova frase. O critrio utilizado para separar uma frase de outra quando estas so compostas por mais de uma orao separadas por vrgula a quantidade de palavras existentes. Algoritmo 1: Script pr-processador de texto Entrada: Arquivo texto1 2 3 4 5 6 7 8 9

Construir Lista com as frases (Lista de palavras); para cada um dos tokens de texto faa Retira smbolos encontrados; Insere token numa Lista de palavras; se smbolo estiver em (! . ? ; : ... ) OR smbolo for (,) e a tamanho da lista for maior que 3 ento Termina Lista de palavras, formando assim uma frase; Insere na Lista de frases; Inicia uma nova Lista de palavras; enquanto no for m da Lista de frases faa Imprime no arquivo cada Lista de palavras; Sada: Arquivo com lista de frases

10 11

3.3 Identicador de Sintagmas NominaisO Identicador de Sintagmas Nominais responsvel pelo reconhecimento dos sintagmas nominais nas frases. Seu diagrama de blocos apresentado na Figura 3. O Identicador de Sintagmas Nominais analisa a estrutura sinttica das frases e retorna seus sintagmas nominais, desconsiderando os demais elementos. A gramtica necessria na anlise

3.3 Identicador de Sintagmas Nominais

26

Figura 3: Descrio do Identicador de Sintagma Nominal sinttica denida pelas Regras Gramaticais e o lxico utilizado pelas regras encontra-se no Dicionrio de Dados. A comunicao entre a gramtica e o lxico dada pela Interface de Comunicao.

3.3.1 Regras GramaticaisAs Regras Gramaticais implementam um subconjunto das regras denidas da lngua portuguesa para determinar sentenas vlidas da linguagem. A explicao de composio das regras ser feita em modo top-down e, em alguns casos, usando rvore de derivao, como observado na Figura 4.

Figura 4: rvore de derivao sinttica de uma frase

3.3 Identicador de Sintagmas Nominais

27

A linguagem de programao utilizada foi o PROLOG que, originalmente projetado para o processamento de linguagem natural, possui algumas caractersticas vantajosas. Dentre elas, um formalismo para representao de gramticas livres de contexto denominado DCG (Denite Clause Grammar), associado a um analisador top-down recursivo, da esquerda para a direita. Para melhor entendimento das regras, apresenta-se o formalismo DCG e, logo aps, como empregado nas regras. 3.3.1.1 DCG - Denite Clause Grammar A DCG, Denite Clause Grammar, um formalismo representativo de gramticas livres de contexto, onde as regras gramaticais podem ser denidas como no Exemplo 8. Exemplo 8 :A menina sorriu. O menino sorriu. frase --> sn, sv. sn --> artigo, subst. sv --> verbo. artigo --> [a]; [o]. subst --> [menina]; [menino]. verbo --> [sorriu].

As regras descritas em DCG so diretamente transformadas em clusulas PROLOG, [SWI-Prolog], como pode ser observado no Exemplo 9. Exemplo 9 : DCG: frase --> sn, sv.

Prolog: frase(R1,R2) :- sn(R1,R2), sv(R1,R2). DCG: Prolog: artigo --> [a]; [o]. artigo(A, B) :( A=[a|B] ; A=[o|B]).

O formalismo DCG possibilita a extenso da gramtica livre de contexto por meio da incluso de argumentos para, por exemplo, tratar concordncia entre os componentes de uma regra

3.3 Identicador de Sintagmas Nominais

28

gramatical. O Exemplo 10 exibe uma regra de formao de um sintagma nominal com a adio de informaes. Dessa forma, o analisador s identica como corretos os sintagmas que concordem em nmero e gnero. Exemplo 10 : sn(Numero,Genero) --> artigo (Numero,Genero), subst(Numero,Genero). artigo(singular,masculino) --> [o]. artigo(singular,feminino) --> [a]. artigo(plural,masculino) --> [os]. artigo(plural,feminino) --> [as]. subst(singular, masculino) --> [menino]. subst(singular, feminino) --> [menina]. subst(plural, masculino) --> [meninos]. subst(plural, feminino) --> [meninas].

As regras utilizadas no mdulo Identicador de Sintagmas Nominais foram implementadas em DCGs e sero mostradas de maneira similar, porm, em um nvel mais alto de abstrao. A composio das frases faz uso das regras contidas nas sees 3.3.1.3, Sintagma Preposicional, 3.3.1.4, Sintagma Verbal, e 3.3.1.5, Sintagma Nominal. O conceito mais alto na hierarquia da anlise sinttica o de FRASE, que denido em quatro regras. Na Regra 1, v-se FRASE denida como uma ORACAO, e em Regra 2. como sendo composta de duas oraes unidas por uma conjuno. O conceito ORACAO no a implementao da denio do portugus para orao. Regra 1 FRASE = ORACAO Ex: A menina chegou em casa feliz. Regra 2 FRASE = ORACAO + conjuno + ORACAO Ex: A casa era grande e o jardim era pequeno. Regra 3 FRASE = pronome interrogativo + ORACAO Ex: Quem voc ?

3.3 Identicador de Sintagmas Nominais

29

Regra 4 FRASE = SP + ORACAO Ex: Certamente ele vir.

A Regra 3 abrange as frases que utilizam os pronomes interrogativos no nico da orao, e na Regra 4, as frases que tm um modicador, advrbio ou locuo adverbial, antes de ORACAO. As regras de formao do termo ORACAO so mostradas na Figura 5, abrangendo os tipos de frase existentes na lngua. Na Figura 5(a) tem-se a formao da maioria das frases, contendo um sintagma nomimal e um verbal. Na Figura 5(b) observa-se um exemplo de frase que no contm o sintagma nominal, as chamadas frases verbais. Nas frases nominais no existe a presena de um verbo, como visto na Figura 5(c).

(a) Orao

(b) Frase Verbal

(c) Frase nominal

Figura 5: Exemplos de frases Os termos, como conjuno, pronome interrogativo, nome presentes nas regras, so classicaes dadas pelo Dicionrio de Dados. Este faz a vericao de qual categoria pertence as palavras analisadas da frase. As palavras que no esto presentes em nenhuma categoria do Dicionrio de Dados so classicadas como sem_categoria. As regras seguintes utilizam NOMECOMPOSTO e VERBOCOMPOSTO para tratar os casos de nomes e verbos formados de maneira composta. 3.3.1.2 Nomes e Verbos Composto Um nome composto um composio de substantivos podendo estar ligados por conectivos, como por exemplo, Secretaria Municipal de Sade, Donald Knuth. Na Regra 5 tem-se a descrio de formao da regra NOMECOMPOSTO, compostos recursivamente por palavras encontradas na categoria nome ou classicadas em sem_categoria.

3.3 Identicador de Sintagmas Nominais

30

Os verbos compostos so denidos na Regra 6, englobando uso de verbos consecutivos como em Vai ser feito o acordo. Regra 5 NOMECOMPOSTO = [nome OU sem_categoria] + NOMECOMPOSTO NOMECOMPOSTO = [] Regra 6 VERBOCOMPOSTO = [verbo OU sem_categoria] + VERBOCOMPOSTO VERBOCOMPOSTO = [] 3.3.1.3 Sintagma Preposicional Os sintagmas preposicionais so tratados em regras explcitas ou como parte de outras regras. A formao prep + SN de um sintagma preposicional est imbutida nas regras de sintagmas nominais. As regras a seguir tm o sintagma preposicional denido como advrbio, Regra 7, e locues adverbiais, Regra 8 e Regra 9. Regra 7 SP = adverbio Ex: Provalvelmente vir amanh. Regra 8 SP = preposicao + adverbio Ex: Executou com rapidez a ao. Regra 9 SP = preposicao + adverbio + adverbio Ex: Executou com muita rapidez a ao. 3.3.1.4 Sintagma Verbal O Sintagma Verbal um dos elementos bsicos de uma orao, sendo composto de um ou mais vocbulos e podendo vir acompanhado de complemento e modicadores. As regras de formao so denidas pelo EXPVERBAL com a presena, de forma facultativa, de sintagmas nominais (SN). A Regra 10 trata o caso dos verbos intransitivos ou impessoais. Os verbos transitivos diretos ou indiretos, ou seja, aqueles que precisam de somente um complemento, objeto direto (no exige preposio) ou indireto (exige preposio), so tratados na Regra 11. E os verbos que so transitivos diretos e indiretos (exigem os dois objetos) so tratados na Regra 12.

3.3 Identicador de Sintagmas Nominais

31

Regra 10 SV = EXPVERBAL Ex: A menina chorona adormeceu. Ex: Ontem, no choveu. Regra 11 SV = EXPVERBAL + SN Ex: Ele mora em Vitria. Ex: O cu azul. Regra 12 SV = EXPVERBAL + SN + SN Ex: Eu falei de voc ao meu pai. Ex: Os alunos desse ano ofereceram um convite de formatura ao coordenador do curso. A regra EXPVERBAL, contida na formao dos sintagmas verbais, constituda de VERBO, Regra 15 e 16, e mostrada a seguir. Os componentes que esto entre parnteses so termos facultativos, e entre aspas duplas, palavras especcas. Regra 13 EXPVERBAL = VERBO Ex: Joo correu muito. Regra 14 EXPVERBAL = (no) + se+ VERBO Ex: Ele no se conteve. Regra 15 VERBO = (SP) + VERBOCOMPOSTO + (SP) Ex: Alice muito falou que se cansou. Ex: Ele ir trabalhar arduamente. Regra 16 : VERBO = (SP) + VERBOCOMPOSTO + conjuncao + VERBOCOMPOSTO + (SP) Ex: As vendas cresceram e caram de forma acentuada naquele ano

3.3 Identicador de Sintagmas Nominais

32

3.3.1.5 Sintagma Nominal O elemento de maior interesse do SIDSN so os sintagmas nominais. A Regra 17 e a Regra 18 tratam o caso de sintagmas compostos por SINTAGMANOMINAL podendo estar precedidos por preposio e unidos por conjuno. Regra 17 SN = (preposicao) + SINTAGMANOMINAL Regra 18 SN = (preposicao) + SINTAGMANOMINAL + conjuncao + SINTAGMANOMINAL A regra EN encontrada nos sintagmas a composio que abrange os nomes compostos, podendo conter adjetivos. Regra 19 EN = (adjetivo) + (sem_categoria) + NOMECOMPOSTO + (adjetivo) As regras a seguir so relativas aos sintagmas nominais, implementadas pela gramtica. Os SNs podem exercer funo de sujeito ou objeto na frase, mas as Regras 30 a 32 s podem ser encontradas com a funo de objeto. Regra 20 SINTAGMANOMINAL = pronome pessoal Ex: Ela est aqui. Vou com vocs. Regra 21 SINTAGMANOMINAL = (artigo) + EN + (SP) Ex: O restaurante provalvelmente est funcionando. O professor encontra-se no departamento de informtica. Regra 22 SINTAGMANOMINAL = (artigo) + pronome possessivo + EN Ex: Meu cachorro fugiu. Regra 23 SINTAGMANOMINAL = (artigo) + mesmo + EN

3.3 Identicador de Sintagmas Nominais

33

Ex: o mesmo carro. Regra 24 SINTAGMANOMINAL = (artigo) + prprio + EN Ex: O prprio lho comprou a casa. Ex: Maria sabia da histria da prpria famlia. Regra 25 SINTAGMANOMINAL = (artigo) + outro + EN O outro caso discutido ser mostrado na prxima reunio. Regra 26 SINTAGMANOMINAL = pronome indenido + EN Ex: Nenhum aluno foi embora. Todos os pases assinaram o acordo. Regra 27 SINTAGMANOMINAL = (qualquer/cada) + (um/uma) Qualquer um pode participar. dever de cada um. Regra 28 SINTAGMANOMINAL = qualquer + (outro/outra) + EN Escolha qualquer outro. Qualquer outro medicamento lhe far mal. Regra 29 SINTAGMANOMINAL = pronome demonstrativo Aquele o advogado da famlia. Regra 30 SINTAGMANOMINAL = pronome obliquo + mesmo Ex: Entregue a mim mesmo. Regra 31 SINTAGMANOMINAL = pronome obliquo + prprio

3.3 Identicador de Sintagmas Nominais

34

O ru condenou a si prprio Regra 32 SINTAGMANOMINAL = pronome obliquo Ex: Entregou a mim. O conjunto das 32 regras descritas compe a gramtica que o SIDSN utilizar para denir sentenas vlidas da lngua portuguesa. Considerando a rvore de derivao formada pelas regras gramaticais, os elementos encontrados nas folhas so as classes das palavras e, em algumas regras especcas, utilizada a prpria palavra. Durante o processo de anlise sinttica preciso vericar se os elementos da frase pertencem a uma categoria de palavras. As informaes das palavras pertencentes lngua e sua classicao esto contidas no Dicionrio de Dados.

3.3.2 Dicionrio de DadosO Dicionrio de Dados a implementao do lxico do analisador sinttico. Contm o conjunto de vocbulos da lngua e as informaes correspondentes a estes. Foi implementado utilizando o banco de dados relacional PostgreSQL, segundo o modelo conceitual visto na Figura 6.

Figura 6: Modelo do Dicionrio de Dados As palavras contidas no dicionrio de dados possuem informaes como nmero, grau, gnero, pessoa, alm da classe gramatical a qual pertence.

3.3 Identicador de Sintagmas Nominais

35

3.3.2.1 Classicao das palavras Os substantivos e verbos so as principais classes gramaticais do portugus, pois formam o ncleo das oraes. Algumas classes servem para exprimir atributos das classes principais, como os artigos, adjetivos, pronomes e advrbios, mas pode ocorrer, no caso dos adjetivos e pronomes, do ncleo do sintagma ser composto por uma dessas classes. As preposies e conjunes tm funo conectiva e so necessrias para estruturar a sintaxe de uma orao. O Dicionrio de Dados dene a seguinte classicao incluindo as respectivas classes de palavras do portugus: Pronome: contm os pronomes pessoais, possessivos, demonstrativos, indenidos, relativos, interrogativos; Determinante: engloba os artigos denidos (o, a, os, as) e os indenidos (um, uma, uns, umas); Adjetivo: todos os adjetivos; Verbo: contm verbos regulares e irregulares, no innitivo e conjugados; Nome: os substantivos masculinos, femininos e de dois gneros; Conjuno: as conjunes denidas por integrante (que, se), causal (pois, porque), concessiva (embora, conquanto), condicional (quando, caso), conformativa (conforme, segundo), comparativa (quanto, como), proporcionais (enquanto, quanto mais), temporal (quando, antes que), nal (para que, a m de) e consecutiva (que tal, que tanto). No caso das locues conjuntivas, a identicao feita por meio das regras gramaticais. Preposio: ante, aps, at, com, contra, de, entre outras. Advrbios: armao (sim, realmente), negao (no, nunca), dvida (talvez, provavelmente), tempo (ontem, atualmente), lugar (aqui, perto), modo (rapidamente, tristemente), intensidade (pouco, bastante). sem_categoria: classicao dada a palavras que no se encontram no dicionrio de dados. Uma palavra classicada como sem_categoria quando no est no dicionrio de dados. As regras permitem essa classe em sua formao como uma alternativa no papel de substantivos, verbos ou adjetivos. A adio de elementos no Dicionrio de Dados priorizou as classes com

3.3 Identicador de Sintagmas Nominais

36

nmero menor de elementos, possibilitando o uso da classicao sem_categoria somente nas classes mais numerosas. Denidas as regras gramaticais e o dicionrio de dados, deve-se criar um meio para a troca de informao entre as partes. A funo de permitir essa comunicao exercida pela Interface de Comunicao.

3.3.3

Interface de Comunicao

A Interface de Comunicao faz a ligao entre a implementao das Regras Gramaticais, em linguagem PROLOG, e o Dicionrio de Dados, em banco de dados PostgreSQL, como mostrado na Figura 7. Foi implementada em linguagem C, utilizando funes denidas pela biblioteca libpq para a comunicao com o banco de dados e a biblioteca SWI-Prolog para ligar-se ao PROLOG.

Figura 7: Estrutura da Interface de Comunicao A libpq uma biblioteca do PostgreSQL que permite, dentre outras funcionalidades, abrir uma conexo com o banco, executar consultas SQLs, vericar status da conexo. Algumas das funes de controle de conexo disponibilizada na biblioteca: PQsetdbLogin: estabelece uma nova conexo com o servidor de banco de dados, passando informaes como host, nome do banco de dados, login e senha.

PGconn *PQsetdbLogin(const char *pghost, const char *pgport, const char *pgoptions, const char *pgtty, const char *dbName,

3.3 Identicador de Sintagmas Nominais

37

const char *login, const char *pwd); PQnish: fecha a conexo com o servidor e libera a memria utilizada para conectar. void PQfinish(PGconn *conn); PQstatus: retorna o valor CONNECTION_OK quando uma conexo bem sucedida com o banco de dados, do contrrio, CONNECTION_BAD. ConnStatusType PQstatus(const PGconn *conn); PQexec: submete um comando ao servidor e aguarda pelo resultado. So processados em uma nica transao, a menos que existam comandos BEGIN e COMMIT explcitos, para dividi-la em vrias transaes. PGresult *PQexec(PGconn *conn, const char *command); PQresultStatus: retorna o status do resultado do comando, dentre eles, PGRES_EMPTY_QUERY, ocorreu um erro fatal. ExecStatusType PQresultStatus(const PGresult *res); PQresStatus: cadeia de caracteres que descreve o cdigo do status do PQresultStatus. char *PQresStatus(ExecStatusType status); PQclear: libera o armazenamento associado a PGresult. void PQclear(PGresult *res); O objetivo da relao C - Prolog ter exibilidade e desempenho. As funes que sero utilizadas pela outra linguagem devem ter o mesmo nmero dos argumentos e ocorrer a converso de tipos C a argumentos de instanciao e unicao Prolog. A comunicao foi realizada do Prolog, chamando funes estrangeiras denidas em C, mas o contrrio tambm possvel utilizando outras funes da biblioteca SWI-Prolog. A seguir algumas funes de retorno, unicao e converso de tipos que foram utilizadas. PL_succeed: sucesso alcanado, denida como return True;

envio de comando vazio, PGRES_COMMAND_OK, trmino bem-sucedido, PGRES_FATAL_ERRO

3.3 Identicador de Sintagmas Nominais

38

foreign_t PL_succeed() PL_fail: Falha e inicia o backtracking do Prolog. foreign_t PL_fail() PL_unify_integer: unica um inteiro no termo Prolog. int PL_unify_integer(term_t ?t, long n) PL_get_wchars: Funco para usar o caracter extendido wchar, que foi utilizado devido o uso de palavras acentuadas. int PL_get_wchars(term_t t, size_t *len, pl_wchar_t **s, unsigned flags) Aps implementado o Sistema Identicador de Sintagmas Nominais, faz-se necessrio executar testes no programa, a m de vericar se este atinge o objetivo pretendido.

39

4

Testes e Avaliao dos Resultados

Este captulo apresenta os testes realizados no SIDSN e a avaliao dos resultados obtidos.

4.1 IntroduoPara a realizao dos testes, utilizou-se um conjunto de textos de diversas fontes, com diferentes caractersticas, obtidos, principalmente, por meio de pesquisas em sites de busca na Internet. Dentre os tipos, pode-se citar, notcias jornalsticas, artigos cientcos, blogs, teses de doutorado e livros literrios. As informaes apresentadas nos resultados se referem s caractersticas dos textos, como quantidade de palavras e frases, e dos testes, como nmero de acertos, erros, valores de mdias e desvio padro. Durante o processo de implementao foram realizados os primeiros testes, quando o identicador no compreendia todas as regras denidas, e, ento, observado o comportamento dos resultados. Posteriormente, com o sistema contendo as regras gramaticais explicitadas no captulo 3, novos testes foram realizados, alm de uma anlise de resultados por agrupamento de instncias semelhantes. Por m, fez-se uma anlise qualitativa nos sintagmas identicados pelo SIDSN, e uma avaliao do dicionrio de dados.

4.2 Testes IniciaisInicialmente deniu-se um conjunto de regras gramaticais que contemplam alguns casos de denies de frase do portugus, como os descritos nas Regras 1 e 3 do Captulo 3. Estas regras e exemplos de casos abrangidos por elas podem ser vistos no Exemplo 11. Os primeiros testes foram executados sobre o Identicador de Sintagmas Nominais implementado com esse conjunto limitado de Regras Gramaticais e um Dicionrio de Dados incompleto.

4.2 Testes Iniciais

40

Exemplo 11 : 1. Frase = Orao Orao = Sintagma Nominal + Sintagma Verbal + Sintagma Nominal O menino alegre chegou da cidade. Papai est triste. 2. Frase = pronome interrogativo + Orao Orao = Sintagma Verbal Quem ganhou ? Por que choveu ? A Tabela 1 mostra, para cada instncia testada, a quantidade de palavras e de frases do texto, o nmero e as percentagens de acertos e erros, as mdias e o Desvio Padro. Considera-se acerto quando o sistema encontra uma regra que se ajustou frase e, ento, retorna os sintagmas nominais contidos nela. A Mdia Geral dada pela razo da quantidade total de acertos dos textos pela a quantidade total de frases e a Mdia Percentual mdia dos percentuais de acerto. Texto Palavras Frases Texto1 102 13 Texto2 143 15 Texto3 176 19 Texto4 240 20 Texto5 465 75 Texto6 496 63 Texto7 825 80 Texto8 1044 149 Texto9 1706 235 Texto10 4862 419 Total de Frases Mdia Mdia % Desvio Padro Acertos 9 4 7 5 40 19 26 77 95 180 Erros 4 11 12 15 35 44 54 72 140 239 %Acertos %Erros 69,23 30,77 26,67 73,33 36,84 63,16 25,00 75,00 53,33 46,67 30,16 69,84 32,50 67,50 51,68 48,32 40,43 59,57 42,96 57,04 1088 42,46 % 40,88 % 41,60 %

Tabela 1: Resultados dos Testes Iniciais Os dez textos submetidos a teste contabilizam um total de 1088 frases, so distintos em nmero de palavras, tipo, fonte, englobando notcias jornalstica, estrias infantis, blogs e artigos cientcos. A Mdia Geral obtida foi de 42,46 % e a Mdia Percentual de 40,88%. O pior resultado de acertos, 25,00%, foi apresentado pelo Texto4, e o melhor, 69,23%, pelo Texto1, obtendo assim um Desvio Padro de 41,60%.

4.2 Testes Iniciais

41

Observa-se uma grande variao entre os resultados obtidos e um baixo valor mdio de acertos. Esse resultado decorre do ambiente de testes compreender um dicionrio de dados e um conjunto de regras gramaticais incompleto. Classes de palavras como Artigos e Preposies, por exemplo, no continham seus elementos no dicionrio de dados, o sistema tambm no compreendia as regras gramaticais, Regra 2, 4 e 5, denidas no Captulo 3. A descrio e os exemplos de frases que seguem essas regras so exibidos em Exemplo 12. Exemplo 12 : 1. Frase = advrbio + Sintagma Nominal + Sintagma Verbal + Sintagma Nominal Indubitavelmente, ele inteligente. 2. Frase = Oracao + conjuno + Oracao Ele feliz e ela vive sozinha. 3. Nome Composto Cincia da Computao Exame Nacional de Desempenho de Estudantes Buscando melhorar os resultados obtidos, estas regras foram incorporadas ao escopo do identicador e novas palavras ao Dicionrio de Dados. Um novo conjunto de testes foi realizado, utilizando as mesmas instncias do teste anterior e os resultados so exibidos na Tabela 2. Houve uma melhora nos resultados, e os novos valores encontrados foram 49,72% e 48,98% para Mdia Geral e Percentual, respectivamente. O Desvio Padro aumentou para 50,05% devido, principalmente, ao Texto3 que, diferente dos demais, diminuiu o nmero de acertos. Nesse caso, a frase foi identicada erroneamente, caracterizando os chamados falsos positivos. O Exemplo 13 mostra tal frase, os sintagmas identicados ao efetuar o primeiro teste e a categoria de cada palavra no dicionrio de dados. Exemplo 13 : >>> medida em que se aproxima o prazo final. Sintagma nomimal, sujeito => [a, medida, em]

4.2 Testes Iniciais

42

Texto Palavras Frases Texto1 102 13 Texto2 143 15 Texto3 176 19 Texto4 240 20 Texto5 465 75 Texto6 496 63 Texto7 825 80 Texto8 1044 149 Texto9 1706 235 Texto10 4862 419 Total de Frases Mdia Mdia % Desvio Padro

Acertos 11 5 6 9 50 28 27 80 103 222

Erros 2 10 13 11 25 35 53 69 132 197

%Acertos %Erros 84,62 15,38 33,33 66,67 31,58 68,42 45,00 55,00 66,67 33,33 44,44 55,56 33,75 66,25 53,69 46,31 43,83 56,17 52,98 47,02 1088 49,72% 48,98% 50,05%

Tabela 2: Resultados de Testes Posteriores artigo a

substantivo - medida no encontrada no banco - em pronome relativo - que => se Sintagma verbal => aproxima verbo - aproxima Sintagma nominal, objeto => [o, prazo, final] artigo - o substantivo - prazo adjetivo - final A palavra em no estava presente no Dicionrio de Dados e foi empregada com o papel de substantivo, formando o sintagma nominal [a, medida, em] de forma errada. Aps as modicaes no Dicionrio de Dados, a palavra em foi incorporada classe das preposies. Ao testar novamente o texto, o programa no mais identicou essa frase, porque a sua regra formao no estava presente em Regras Gramaticais. Percebe-se, ento, que, apesar da diminuio da quantidade de frases identicadas, ocorre uma melhora na qualidade da soluo obtida e torna menor o nmero de falsos positivos. Ao analisar os conjuntos de testes e perceber uma melhora geral nos resultados obtidos advindos das mudanas efetuadas, o desenvolvimento do identicador focou a adio de regras gramaticais e aumento do nmero de elementos do dicionrio de dados.

4.3 Testes por Grupo

43

Aps o processo de implementao das 32 regras denidas no Captulo 3, novos testes foram realizados em um conjunto de 40 textos, diferentes dos utilizados anteriormente e o Resultado Geral pode ser vericado na Tabela 3. Resultado Geral 40 71.362 37.742 57,57% 54,72% 51,74% 38,46% 71,60% Tabela 3: Resultado Geral A Mdia de acertos obtida foi de 57,57% e a Mdia Percentual de 54,72%, valores maiores que os encontrados anteriormente. Porm, o valor de Desvio Padro para o novo conjunto de instncias, 51,74% foi consideravelmente maior que o valor obtido no primeiro grupo, 41,60%. Tal valor contrasta com as melhoras obtidas nas mdias de acertos, indicando a inuncia de um fator, ou presena de uma caracterstica, ainda no identicada. Sugere-se, ento, uma diviso de instncias em grupos semelhantes de textos.

Total de Textos Total de Palavras Total de Frases Mdia Mdia % Desvio Padro Menor %Acerto Maior %Acerto

4.3 Testes por GrupoA separao de textos em grupos deu-se a partir de semelhana de gnero (formais, funcionais, formal-funcional) e tipos textuais (noticirio, cientco, editorial, carta, entrevista etc). Entretanto, no foi realizado agrupamento por assunto dos textos (computao, biologia, arte etc). O primeiro grupo engloba textos que tm como caractersticas em comum a pequena quantidade de frases e linguagem informal, onde podem ocorrer erros lxicos, desrespeito s regras gramaticais, uso de grias e neologismos. Como, por exemplo, encontrados em blogs, emails, wikis. Os resultados para diviso dos Textos Informais so mostrados na Tabela 4. Os valores obtidos de Mdia, 46,17%, e de Mdia Percentual, 44,73%, foram menores que os alcanados em Resultado Geral, mas percebe-se que o Desvio Padro foi muito menor, 8,52%. Algumas frases extradas dos textos utilizados neste grupo podem ser vistas no Exemplo 14. A informalidade dos textos percebida no item 1 do Exemplo 14, onde ocorre uma ono-

4.3 Testes por Grupo

44

Texto Palavras Frases Acertos Informal1 743 78 30 Informal2 521 52 23 Informal3 366 30 14 Informal4 1218 134 60 Informal5 4677 426 188 Informal6 4395 441 221 Total Frases Mdia Mdia % Desvio Padro

Erros 48 29 16 74 238 220

%Acertos 38,46 44,23 46,67 44,78 44,13 50,11 1161 46,17 % 44,73 % 8,52 %

%Erros 61,54 55,77 53,33 55,22 55,87 49,89

Tabela 4: Textos Informais matopia, palavra que imita sons e rudos e que no se encontra na escrita formal. Porm, isso no ocasionou um erro na identicao da frase, porque a palavra foi classicada como sem_categoria e enquadrada em uma regra que permite palavras que no estejam no dicionrio de dados. Em Exemplo 14.3 e 14.4 a existncia de palavras que no esto no dicionrio de dados, fazem, d e pudessem, e de palavras com mais de uma classicao, voto e muito, leva no identicao da frase nas regras estabelecidas. Exemplo 14 : 1. Ela tem seguidores, hahahahaha. (Inform2) Acerto 2. A diviso continental separa a oresta da sua vizinha. (Inform5) Acerto 3. Uma mquina de calcular onde a forma de calcular pudesse ser controlada por cartes. (Inform6) Erro 4. Aqui no Brasil, os polticos fazem coisas muito piores com quem lhes d voto. (Inform1) Erro Relatrios administrativos, editais, normas e dirio ocial so alguns dos textos utilizados no prximo teste. Tm como caractersticas em comum a grande quantidade de palavras no encontradas no dicionrio de dados e de estruturas como enumerao de itens, tabelas etc. Os resultados deste grupo formado pode ser observado na Tabela 5. O desvio padro foi de 10,90% e a mdia de 68,96%, bem maior que a Mdia Geral. Os melhores resultados percentuais de acerto atingidos pertencem a este grupo, devido, principalmente, estrutura dos textos. O Exemplo 15 mostra um trecho retirado do texto Formal5

4.3 Testes por Grupo

45

Texto Palavras Frases Acertos Formal1 27157 4147 2849 Formal2 18456 2595 1858 Formal3 12791 1695 1192 Formal4 629 95 59 Formal5 5041 737 487 Formal6 4502 541 320 Total Frases Mdia Mdia % Desvio Padro

Erros 1298 737 503 36 250 221

%Acertos 68,7 71,6 70,32 62,11 66,08 59,15 9810 68,96% 66,33% 10,90%

%Erros 31,3 28,4 29,68 29,68 37,89 40,85

Tabela 5: Textos Formais que, ao ser submetido ao Pr-processador de Textos, teve como sada a gerao de uma frase para cada item. Todas essas frases, segundo as regras denidas em Regras Gramaticais, esto corretas. Exemplo 15 : a) b) c) d) e) f) g) h) i) j) k) Comprovao dos pr-requisitos/escolaridade; Comprovao dos requisitos enumerados no item 1 do Captulo III; Certido de nascimento ou casamento; Ttulo de eleitor; Certificado de Reservista ou de Dispensa de Incorporao; Cdula de Identidade; CPF; Documento de inscrio no PIS ou PASEP, se houver; Quatro fotos 3x4 recentes; Curriculum Vitae (2 cpias); Comprovante do tipo sangineo e Fator RH; O prximo agrupamento utiliza textos tcnicos como apostilas, captulos de livros, artigos, abrangendo assuntos diversos tais como geograa, qumica, direito, psicologia e matemtica. Os textos presentes nesse grupo tm caracterstica dissertativa e descritiva, so normalmente objetivos e coerentes, tm maior quantidade de frases que os textos do grupo anterior, escrita formal, e palavras especcas da rea a qual se referem. A Tabela 6 mostra um Desvio Padro de 11,45%, Mdia Geral de 51,27% e Percentual de 51,80%. Percebe-se pelas frases do Exemplo 16 que os textos tratam de assuntos diferentes e

4.3 Testes por Grupo

46

Texto Palavras Frases Tecnic1 2474 310 Tecnic2 7854 942 Tecnic3 872 92 Tecnic4 2155 134 Tecnic5 487 51 Tecnic6 1357 161 Tecnic7 3376 372 Tecnic8 564 59 Tecnic9 2832 250 Tecnic10 11712 1141 Tecnic11 648 65 Total frases Mdia Mdia % Desvio Padro

Acertos 172 490 49 63 26 96 195 31 125 556 31

Erros 138 452 43 71 25 65 177 28 125 585 34

%Acertos 55,48 52,2 53,26 47,01 50,98 59,63 52,42 52,54 50 48,73 47,69 3577 51,27% 51,80% 11,45%

%Erros 44,52 47,98 46,74 52,99 49,02 40,37 47,58 47,46 50 51,27 52,31

Tabela 6: Textos Tcnicos que possvel identicar uma frase, como o Exemplo 16.2, mesmo esta possuindo estruturas como uma expresso matemtica. Exemplo 16 : 1. A transformao desta energia se inicia nas plantas verdes atravs da fotossntese. (Tecnic8) Acerto 2. Um aluno pode escrever 7 + 5 = 2 x 6 ou 7 + 5 = 10 + 5 - 3. (Tecnic9) Acerto 3. Esta campanha, entretanto, marcou o incio da derrocada de Napoleo. (Tecnic1) Acerto 4. Entretanto, ngulos ahb de at 30o j foram medidos. (Tecnic4) Erro 5. Por exemplo, a molcula de gua pode formar ligaes do tipo ponte de hidrognio cuja representao : (Tecnic5) Erro Um exemplo de erro decorrido do dicionrio de dados incompleto pde ser observado na frase 16.4, na qual o verbo foram foi classicado como sem_categoria e adequado como correto em parte de uma regra. Mas na anlise total da frase no encontrada regra que a satisfaa. Frases com estrutura como a do Exemplo 16.5 no tm regra denida na gramtica implementada. Os prximos testes foram realizados utilizando textos jornalsticos que caracterizam-se por serem descritivos e informativos, de linguagem objetiva, compreendendo uma quantidade mdia

4.3 Testes por Grupo

47

de frases. Os resultados do grupo Textos Noticirios so exibidos na Tabela 7, onde se pode ver a Mdia de 58,72%, a Mdia Percentual de 57,03%, e Desvio Padro de 12,31%. Os valores obtidos esto acima da Mdia Geral encontrada na anlise dos 40 textos. Texto Palavras Frases Acertos Noticia1 15357 1354 826 Noticia2 590 63 40 Noticia3 2074 209 105 Noticia5 824 110 65 Noticia6 1053 128 66 Noticia7 2252 221 120 Noticia8 2325 267 159 Total Frases Mdia Mdia % Desvio Padro Erros 528 23 104 45 62 101 108 %Acertos %Erros 61 39 63,49 36,51 50,24 49,76 59,09 40,91 51,56 48,44 54,3 45,7 59,55 40,45 2352 58,72% 57,03% 12,31%

Tabela 7: Textos Noticirios A anlise do Exemplo 17.1 mostrou que, mesmo com a ausncia, no dicionrio de dados, do verbo da frase, rene, ela foi identicada corretamente. No item 2 tem-se um exemplo de frase nominal, onde se encontra apenas um sintagma nominal. Durante a anlise da frase, pode ocorrer o exame de verbos que no esto denidos no dicionrio de dados, como substantivos, ocasionando falha na identicao. Tal como pode ser visto no Exemplo 17.4, em que o erro no se deu pela presena do nome prprio Vera Simo, mas pelo verbo garante, que no se encontra no dicionrio. Exemplo 17 : 1. Na ustria encontro anual que rene acionados pelo carro da montadora alem. (Noticia2) Acerto 2. Queda nas taxas de juros e aumento do crdito bancrio. (Noticia1) Acerto 3. O medicamento age sobre o neurotransmissor gaba. (Noticia3) Erro 4. Garante a empresria Vera Simo. (Noticia6) Erro O grupo a seguir composto por textos narrativos, relatam fatos, aes, acontecimentos, incluindo, por exemplo, histrias infantis e obras literrias. Caracterizam-se por ter subjetividade, predominncia de verbos, escrita com certo grau de informalidade. Porm, espera-se que

4.3 Testes por Grupo

48

Texto Palavras Frases Acertos Narrativa1 651 77 39 Narrativa2 465 76 51 Narrativa3 10809 1480 961 Narrativa4 17298 2291 1145 Narrativa5 52088 7146 4197 Narrativa6 11543 1613 934 Total Frases Mdia Mdia % Desvio Padro

Erros 38 25 519 1146 2949 679

%Acertos %Erros 50,65 49,35 67,11 32,89 64,93 35,07 49,98 50,02 58,73 41,27 57,90 42,10 12683 57,77% 58,22% 15,80%

Tabela 8: Textos Narrativos obedeam s regras gramaticais do portugus. O resultado dos testes pode ser vericado na Tabela 8. A quantidade de frases analisadas superior aos grupos analisados anteriormente, pois, dentre os textos utilizados, encontram-se livros da literatura nacional como A viuvinha, de Jos de Alencar, Escrava Isaura, de Bernardo Guimares e Ado e Eva, de Ea de Queirs. A mdia de acertos obtida foi de 57,77% e a mdia percentual, de 58,22%. O desvio padro de 15,80% destaca a diferena entre o resultado do texto Narrativa4 (A viuvinha), 49,98%, e o texto Narrativa2 (Chapeuzinho Vermelho - Estria Infantil), 67,11%. O primeiro texto tem linguagem potica com regras gramaticais antigas, enquanto o segundo composto de linguagem simples e tal diferena pode ser vista nas frases do Exemplo 18. Exemplo 18 : 1. O lobo resolveu dar uma cochilada e comeou a roncar. (Narrativa2) Acerto 2. Por que no vai pela oresta?. (Narrativa2) Acerto 3. Minha prima, antes que as novas ruas que se abriram tivessem dado um ar de cidade s lindas encostas do morro de Santa Teresa, veria de longe sorrir-lhe entre o arvoredo. (Narrativa4) Erro 4. No conheceis esse sublime requinte da alma que sente um alvio em deixar-se vencer pela dor. (Narrativa4) Erro Os textos classicados no grupo Textos Cientcos tm como caracterstica em comum a organizao em partes, como por exemplo, introduo, objetivos, resultados e referncias bibliogrcas. Estes podem incluir termos funcionais para descrever operaes ou processos, alm

4.3 Testes por Grupo

49

de possuir muitas guras e tabelas. Foram utilizadas nos testes teses, dissertaes, monograas que compreendiam diferentes assuntos como educao, engenharia etc. Os resultados esto presentes na Tabela 9. Texto Palavras Frases Acertos Cientif1 25954 2910 1684 Cientif2 31205 3076 1471 Cientif3 41706 4367 2173 Cientif4 47186 5511 3081 Total Frases Mdia Mdia % Desvio Padro Erros 1226 1605 2194 2430 %Acertos 57,87 47,82 49,76 55,91 15864 53,01% 52,81% 8,33% %Erros 42,13 52,18 50,24 44,09

Tabela 9: Textos Cientcos Os resultados mostram Mdia de 53,01%, Mdia Percentual 52,81% e Desvio Padro de 8,33%. Alguns exemplos de frases deste grupo so encontrados no Exemplo 19. Exemplo 19 : 1. Uma estratgia metodolgica que privilegie a relao teoria-prtica. (Cientic2) Acerto 2. Nesta ltima etapa apresentamos o levantamento quantitativo. (Cientic4) Acerto 3. Os autores citam que em 1830 instala-se o primeiro servio de medicina do trabalho. (Cientic4) Erro 4. Em todos os grupos observa-se um aumento signicativo no tempo de uso passando de acessos espordicos a acessos semanais ou dirios. (Cientic2) Acerto A Figura 8 apresenta um grco que confronta os valores obtidos de Mdia Percentual de acerto e Desvio Padro de cada grupo e a Mdia Geral e Desvio Padro do teste realizado com todos os textos. O grupo Formal, que compreendia editais, relatrios e outros arquivos onde existe um grande nmero de estruturas como tabelas, grcos e citaes, teve o melhor resultado em quantidade de acertos. O valor de mdia mais baixo foi encontrado no grupo Informal. Percebe-se a grande diferena entre o Desvio Padro do teste geral e o obtido nos grupos, mostrando que o agrupamento por estrutura, tipo e gnero semelhantes, mesmo tratando de assuntos distintos, vlido, porque obtm-se uma menor variao dos resultados.

4.4 Anlise Qualitativa80 Media % Desvio Padrao 70

50

60

50 Porcentagem

40

30

20

10

0 Total Geral Informal Formal Tecnico Noticia Narrativa Cientifico

Figura 8: Grco de Mdia e Desvio Padro dos Grupo de Testes Para averiguar a autenticidade dos sintagmas nominais identicados pelo SIDSN, faz-se necessria uma anlise qualitativa dos resultados.

4.4 Anlise QualitativaA anlise qualitativa do resultado foi realizada nas frases que o programa reconheceu como acerto, vericando se os sintagmas nominais foram identicados corretamente. um trabalho realizado manualmente, necessitando, por vezes, conhecimentos especcos da lngua portuguesa. Por isso, a quantidade de textos utilizados menor. A Tabela 10 mostra o resultado da anlise feita em alguns dos textos utilizados anteriormente. Texto % Acertos Inform1 38,46 Tecn5 50,98 Formal4 62,11 Noticia5 59,09 Narrativa2 67,11 Acertos 30 26 59 65 51 %SN incorreto 46,65 34,61 0,05 29,23 43,13 SN incorreto 14 9 3 19 22 Motivo1* Motivo2* 10 4 7 2 2 1 17 2 20 2

Tabela 10: Anlise Qualitativa *Motivo1: Palavras no encontradas no Dicionrio de Dados *Motivo2: Palavras com vrias classicaes gramaticais Dois foram os motivos que ocasionaram a identicao dos SN de forma incorreta: palavras

4.5 Anlise do Dicionrio de Dados

51

presentes na frase que no se encontravam no Dicionrio de Dados, e palavras que tinham mais de um registro, ou seja, pertencentes a mais de uma classe gramatical. Percebe-se um grande nmero de frases nas quais o SIDSN identica de forma errada os sintagmas nominais. Em alguns casos, esse valor chegou a 46,65% dos acertos obtidos, sendo a maioria dos erros advinda do dicionrio de dados incompleto. O baixo valor de frases com sintagma identicado erroneamente em Formal4, 0,05%, foi devido grande quantidade de frases nominais encontradas neste texto. Em Exemplo 20, v-se frases que abordam os motivos da falha na identicao dos sintagmas. Exemplo 20 : 1. A menina vai dormir cedo. 2. Casa, mas logo separa. A identicao incorreta no caso mostrado no item 1 ocasionada pelo Motivo1. A palavra vai no est presente no dicionrio de dados, e, durante a anlise da frase pelo Identicador de Sintagmas Nominais, foi classicada e considerada como um substantivo retornando o sintagma nominal com funo de sujeito da frase, [A menina vai]. O segundo caso, item 2, ocorre quando a palavra tem mais de uma classicao gramatical. Nesse exemplo a palavra casa a 3a pessoa do verbo casar, mas o programa identica como substantivo casa. Com intuito de obter uma maior quantidade de frases reconhecidas pelo sistema e que os sintagmas identicados estejam corretos, preciso melhorar o dicionrio de dados. Uma anlise comparativa entre a freqncia de palavras encontradas no dicionrio e a quantidade de acertos pode ajudar neste processo.

4.5 Anlise do Dicionrio de DadosPara obter os bons resultados pretendidos na interpretao de textos, necessrio um dicionrio de dados com grande nmero de elementos que estejam denidos de forma correta. O banco de dados utilizado contm aproximadamente: 716 mil palavras, sendo que 64 mil esto inseridas em mais de uma classe de palavras; 700 palavras bsicas, como pronomes, conjunes, artigos, preposies, advrbios etc;

4.5 Anlise do Dicionrio de Dados

52

144 mil adjetivos; 231 mil substantivos, sendo que 80 mil so primitivos, sem derivao de gnero, grau e/ou nmero. Como a base de dados est incompleta, os substantivos derivados no tm informao sobre grau, somente concernente a gnero e nmero. 18 mil verbos no innitivo, sendo que somente 7,6 mil esto conjugados, referentes s conjugaes bsicas(-AR, -ER, -IR), totalizando 404 mil verbos conjugados;; De todas as palavras contidas nos textos utilizados para teste, vericou-se, na mdia, que 18,94% no estavam presentes no dicionrio de dados. A seguir, tem-se grcos para uma anlise comparativa dos grupo de teste, mostrando a porcentagem de frases de acertadas e de palavras no encontradas, para cada texto.Teste na base de dados 80 70 60 Porcentagem 50 40 30 20 10 0 Inf6 Inf1 Inf2 Inf5 Inf3 Inf4 Porcentagem %Nao encontradas %Acertos 80 70 60 50 40 30 20 10 0 Formal5 Formal1 Formal6 Formal3 Formal4 Formal2 %Nao encontradas %Acertos Teste na base de dados

(a) Informal

(b) Formal

Figura 9: Grcos de anlise do dicionrio de dados: Grupos Informal e Formal

Teste na base de dados 80 70 60 Porcentagem 50 40 30 20 10 0 Notic8 Notic3 Notic5 Notic4 Notic6 Notic7 Notic1 Notic2 Porcentagem %Nao encontradas %Acertos 80 70 60 50 40 30 20 10 0 Cientif1

Teste na base de dados %Nao encontradas %Acertos

Cientif2

Cientif3

Cientif4

(a) Noticiario

(b) Cientco

Figura 10: Grcos de anlise do dicionrio de dados: Grupos Noticirio e Cientco

4.5 Anlise do Dicionrio de Dados

53

Teste na base de dados 80 70 60 Porcentagem 50 40 30 20 10 0 T10 T2 T7 T5 T3 T11 T8 T6 T1 T9 T6 Porcentagem %Nao encontradas %Acertos 80 70 60 50 40 30 20 10 0

Teste na base de dados %Nao encontradas %Acertos

Narrat5 Narrat2 Narrat1 Narrat4 Narrat3 Narrat6

(a) Tcnico

(b) Narrativa

Figura 11: Grcos de anlise do dicionrio de dados: Grupos Tcnico e Narrativa Como o nmero de dados presente em cada caso pequeno, pode-se fazer uma estimativa do comportamento da quantidade de acertos que cada categoria ter em relao qualidade da base de dados utilizada. Na Figura 9(a), v-se que os bons resultados do grupo de teste Informal so obtidos quando os textos contm pequeno nmero de palavras no encontradas no dicionrio. Quando esse valor aumenta, os resultados tendem a ser piores. No grupo de teste Formal, visto pela Figura 9(b), os melhores resultados so obtidos com o aumento do nmero de palavras desconhecidas presentes nos textos. Os grupos de textos Noticirio, Figura 10(a), e Cientco, Figura 10(b), mostram bons resultados obtidos quando os textos tm menores e maiores taxas de palavras desconhecidas do dicionrio. Os grcos das guras 11(a) e 11(b), relativos aos grupos Tcnico e Narrativa, respectivamente, apresentam melhores resultados quando o dicionrio de dados est mais completo. Pode-se perceber, a partir desses resultados, que a quantidade de palavras do texto que encontram-se no banco inuencia na porcentagem de acertos e tambm na veracidade destes, pois palavras no conhecidas podem identicar sintagmas de forma incorreta. Mas no o nico fator determinante. O processamento do texto para transform-lo em frase e as regras gramaticais que o identicador abrange tambm so de grande importncia para obteno de bons resultados.

54

5

Concluses e trabalhos futuros

Este trabalho abordou o problema de interpretar, computacionalmente, informaes fornecidas em linguagem natural. O PLN, Processamento de Linguagem Natural, voltado ao desenvolvimento de programas para este m, exigindo, alm de estudos em computao, conhecimentos especcos em lingstica. Apresentou-se um sistema que realiza a anlise sinttica e a identicao de sintagmas nominais em frases da lngua portuguesa, o SIDSN. Na construo do identicador, foi considerada a Gramtica Sintagmtica do Portugus para a composio de regras gramaticais, e palavras categorizadas segundo classicao morfolgica da lngua portuguesa para compor o dicionrio de dados. Todavia, a implementao do SIDSN se deu com um subconjunto de regras gramaticais e um dicionrio de dados incompleto. Foram realizados testes no sistema, utilizando um conjunto de textos com caractersticas distintas, como a quantidade de palavras, assunto, gnero e fonte. A identicao de todas as frases que foram submetidas anlise congura o quadro ideal. Entretanto, considerando a limitao do sistema referente ao conjunto de regras gramaticais, ao dicionrio de dados e diculdade em resolver determinadas questes sintticas da lngua, os resultados obtidos so considerados satisfatrios. Dentre as maiores diculdades encontradas, durante a implementao do Pr-processador de Textos, destaca-se o tratamento da diferena do uso de vrgulas para a separao de sintagmas e separao de oraes. Alm disso, h problemas para identicar frmulas, uso de cifras e expresses numricas de forma correta dentro da orao. Nas regras gramaticais, a questo dava-se na distino de casos em que uma conjuno liga termos simples dos casos de separao de oraes. Relacionado comunidade cientca e acadmica, h muita pesquisa e trabalhos realizados, principalmente, para o processamento do Ingls. Porm, tem-se carncia de pesquisas, ferramentas e recursos lingsticos para tratar computacionalmente a Lngua Portuguesa. Melhores resultados em relao aos alcanados neste trabalho podem ser obtidos aperfeioando o dicionrio de dados e incorporando novos elementos, principalmente, a forma conjugada

5 Concluses e trabalhos futuros

55

de verbos. Pode-se, tambm, aumentar o conjunto de regras gramaticais implementadas para tratar casos como, por exemplo, locues adjetivas e preposicionais, oraes coordenadas e subordinadas. O processo de implementao do SIDSN seguiu o critrio denido no objetivo: identicar sintagmas nominais em frases. Portanto, no foi prioridade encontrar uma soluo otimizada de tempo do algoritmo. Porm, de qualquer maneira, foram adotadas medidas para diminuir este tempo de execuo. Como exemplo, tem-se, no gerenciamento do banco de dados, a criao de ndices para os campos mais acessados das tabelas e o uso de comandos para recolher e armazenar estatsticas sobre o contedo das tabelas. Assim, posteriormente, o planejador de comandos poder utiliz-las para determinar o plano de execuo de consultas de maneira mais eciente. A tabela Tabela 11 exibe um exemplo de tempos de execuo do algoritmo para algumas das instncias testadas. Texto Frases Inform2 52 Tecnic8 59 Narrat1 77 Tecnic1 310 Inform1 78 Noticia2 63 Cientif1 2910 Narrat4 2291 Formal1 4147 %Acertos Tempo(s) 44,23 12 52,54 13 50,65 28 55,48 32 38,46 48 63,49 166 57,87 222 49,98 501 68,7 682

Tabela 11: Tempos de execuo Os altos valores nos tempos de execuo decorrem do alto grau de complexidade dos algoritmos envolvidos. Segundo [Cole et al. 1997], todos os algoritmos, para gramticas livres de contexto, (CFG), so relativos, de uma maneira ou de outra, aos conhecidos algoritmos de Cock, Kasami e Younger, (CKY) e de Earley. A complexidade desses algoritmos, em um pior caso, O(n3 ) onde n o tamanho da sentena. Existe um fator multiplicativo que depende do tamanho da gramtica e da ordem de O(G2 ), onde G o tamanho da gramtica expresso pela nmero de regras. Como trabalho futuro ao que foi apresentado nesta monograa, pode-se citar o desenvolvimento de um identicador que possibilite a estruturao dinmica das regras gramaticais, e considere a classe gramatical dos elementos anteriores e posteriores ao efetuar classicao de palavras que no estejam presentes no dicionrio de dados.

5 Concluses e trabalhos futuros

56

Pode-se, ainda, trabalhar na busca de solues mais ecientes com relao ao tempo de processamento. Alm de analisar as vantagens de tratamento de acordo com agrupamento de textos, tanto nas regras como no pr-processamento, considerando que o desvio padro dos resultados obtidos foi menor do que o encontrado com os testes sem agrupamento.

57

Referncias[Chomsky 1956]CHOMSKY, N. Three models for the description of language. Information Theory, IEEE Transactions on, v. 2, n. 3, 1956. Disponvel em: . 17 [Cole et al. 1997]COLE, R. A. et al. Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press / Giardini, 1997. Disponvel em: . 55 [Freitas 2005]FREITAS, S. A. A. de. Interpretao automatizada de textos: Processamento de Anforas. Tese (Doutorado) Univerdade Federal do Esprito Santo, 2005. 11, 12 [Jnior 2007]JNIOR, H. S. Recuperao de informaes relevantes em documentos digitais baseada na resoluo de anforas. Dissertao (Mestrado) Universidade Federal do Esprito Santo, 2007. 11 [Kuramoto 1996]KURAMOTO, H. Uma abordagem alternativa para o tratamento e a recuperao de informao textual : os sintagmas nominais. Cincia da Informao (Braslia), 1996. 12 [Kuramoto 2002]KURAMOTO, H. Sintagmas nominais: uma nova proposta para a recuperao de informao. DataGramaZero Revista de Cincia da Informao, v. 3, n. 1, Fevereiro 2002. Disponvel em: . 12 [Louden 2004]LOUDEN, K. C. Compiladores Princpios e Prticas. 1a . ed. [S.l.]: Editora: Thomson Pioneira, 2004. 16 [Miorelli 2001]MIORELLI, S. T. ED-CER: Extrao de Sintagma Nominal em Sentenas em Portugus. Dissertao (Mestrado) Porto Alegre: Faculdade de Informtica da PUC-RS, 2001. 12 [Silva 1993]SILVA, I. G. V. K. Maria Ceclia Prez de Souza e. Lingstica aplicada ao portugus: sintaxe. [S.l.]: Cortez, 1993. 19, 20 [Souza 2005]SOUZA, R. R. Uma proposta de metodologia para escolha automtica de descritores utilizando sintagmas nominais. Tese (Doutorado) Escola de Cincia da Informao Universidade Federal de Minas Gerais, 2005. 12 [SWI-Prolog]SWI-PROLOG. Documentao do interpretador SWI-Prolog. Disponvel em: . 27 [Vieira et al. 2001]VIEIRA, R. et al. Extrao de sintagmas nominais para o processamento de co-referncia. Anais do V Encontro para o Processamento Computacional do Portugus Escrito e Falado PROPOR Atibaia-SP, Novembro 2001. 12

Referncias

58

[Vieira e Lima 2001]VIEIRA, R.; LIMA, V. de. Lingstica computacional: princpios e aplicaes. IX Escola de Informtica da SBC-Sul, 2001. 14, 18 [Wikipdia]WIKIPDIA. Denio Processamento de Linguagem Natural. Disponvel em: . 15 [Xavier 1992]XAVIER, M. H. M. M. e M. F. Dicionrio de termos lingsticos. Lisboa: Edies Cosmos, 1992. Disponvel em: . 15