fundamentos do processamento estatistico da linguagem natural

Download Fundamentos do Processamento Estatistico da Linguagem Natural

Post on 10-Jan-2017

214 views

Category:

Documents

1 download

Embed Size (px)

TRANSCRIPT

  • )$&8/'$'('(,1)2507,&$38&56%UD]LO

    http://www.inf.pucrs.br

    )XQGDPHQWRVGR3URFHVVDPHQWR(VWDWtVWLFRGD/LQJXDJHP1DWXUDO

    Caroline Varaschin Gasperin e Vera Lcia Strube de Lima

    7(&+1,&$/5(32576(5,(6

    Number 021November, 2001

  • Contact:

    caroline@inf.pucrs.br

    http://www.inf.pucrs.br/~caroline

    vera@inf.pucrs.br

    http://www.inf.pucrs.br/~vera

    Caroline Varaschin Gasperin is a graduate student of PPGCC at PUCRS/Brazil. She is amember of the FUNDAES research project since 2000. She develops research innatural language processing, applied to information retrieval. She receives a federalgraduate research grant from CAPES (Brazil) to support her research.

    Vera Lcia Strube de Lima works at PUCRS/Brazil since 1979. She is a titularprofessor and coordinator of the FUNDAES and CONTEXTO research projects(grants from CAPES and CNPq Brazil). She develops research in natural languageprocessing. She got her Ph.D. in 1990 at Universit Joseph Fourier (Grenoble, France).

    Copyright Faculdade de Informtica PUCRSPublished by PPGCC FACIN PUCRSAv. Ipiranga, 668190619-900 Porto Alegre RS Brazil

  • Fundamentos do Processamento Estatstico da Linguagem Natural

    Relatrio Tcnico N 021/2001

    Caroline Varaschin Gasperin Vera Lcia Strube de Lima

    1 Introduo

    A linguagem um dos aspectos fundamentais do comportamento humano, pois permite a interao entre osindivduos e a perpetuao dos conhecimentos. O ser humano compreende e desenvolve de forma naturalsentenas na linguagem que aprendeu desde criana.

    O processamento automtico da linguagem natural (PLN) visa aproximar o computador da realidade do ho-mem, atravs do desenvolvimento de ferramentas que possibilitem uma comunicao mais natural entre ho-mem e mquina, alm de ferramentas para a extrao de informaes de grandes bases textuais, traduoautomtica de textos, etc.

    Nos ltimos anos, com a disponibilizao de grandes bases de textos em formato digital, foram sendo difun-didas tcnicas baseadas em conceitos estatsticos para fazer a anlise destes textos.

    O processamento estatstico da linguagem natural consiste no uso de abordagens quantitativas para o pro-cessamento automtico de textos. Uma coleta de informaes realizada sobre uma grande base de textos,denominada corpus, para o levantamento das probabilidades de ocorrncia de palavras, seqncias de palavras,categorias de palavras, etc.

    Existem diferentes tipos de corpora, que contm diferentes tipos e quantidades de textos. O corpus utilizadodeve ser representativo, contendo o mximo possvel das palavras e estruturas existentes na linguagem. Noentanto, de acordo com a mais conhecida lei de Zipf [MAN99], um problema da linguagem natural a espar-cidade dos dados: h poucas palavras muito comuns, h um nmero mdio de palavras com freqncia mdia,e h muitas palavras com baixa freqncia.

    Com o uso de mtodos estatsticos possvel, conforme [VIL95], fazer a anlise de textos irrestritos, ou seja,textos sem restries em relao ao formato, tamanho, ou estruturas lingsticas presentes.

    A partir de um corpus, pode-se obter informaes sobre as palavras e sobre a estrutura da linguagem. Observando-se a freqncia de co-ocorrncia das palavras, podem ser descobertas as colocaes existentes em um cor-pus, as quais so expresses formadas por palavras que, quando aparecem juntas, tm um significado especial.Observando-se o comportamento dos lexemas1 no corpus, pode-se estimar o comportamento dos lexemas paraa toda a linguagem. Propriedades das palavras possibilitam a aquisio de conhecimento lexical, como restri-es de complementos e classes dos lexemas. Ainda, pode-se estimar o significado de palavras desconhecidascom base em propriedades de palavras conhecidas similares (estabelece-se uma medida de similaridade).

    Em relao estrutura da linguagem, o processamento estatstico tambm possibilita o tratamento da sintaxedas sentenas do corpus. Dentre os principais problemas a serem tratados no PLN est a questo da ambigi-dade, que pode ser sinttica ou semntica. A ambigidade sinttica consiste na existncia de mais de umaestrutura sinttica para uma mesma sentena. Atravs de mtodos estatsticos, o problema da ambigidadepode ser contornado. A ambigidade de ligao, que um tipo de ambigidade sinttica e consiste em deter-minar a que elemento da sentena est ligada uma expresso ambga, pode ser resolvida atravs da aquisiode propriedades lxicas das palavras a partir do corpus utilizado. Outros tipos de ambigidade sinttica podemser resolvidos atravs da marcao de textos utilizando-se modelos estatsticos, como os baseados no modelo

    1Lexema consiste em uma nica entrada no dicionrio, com um nico significado.

    1

  • de Markov. Estes modelos selecionam a melhor seqncia de rtulos para as palavras de uma determinadasentena, assim decidindo a estrutura sinttica mais adequada. A ambigidade sinttica tambm pode ser re-solvida atravs da anlise sinttica da sentena, de acordo com uma gramtica livre de contexto probabilstica- PCFG. As PCFGs possuem probabilidades associadas s suas regras, que servem para fazer um rankingentre as diferentes estruturas sintticas possveis para uma sentena.

    A ambigidade semntica consiste na existncia de mais de um significado para uma mesma palavra. A re-soluo da ambigidade semntica til em sistemas de recuperao de informaes. Esta questo pode sertratada por diferentes mtodos estatsticos: uns supervisonados, que utilizam corpora marcados, outros base-ados em dicionrios ou thesauri, e ainda mtodos no supervisionados, que utilizam corpora no marcados.

    O objetivo do estudo relatado neste trabalho fazer um levantamento dos modelos estatsticos existentes parao tratamento dos diferentes aspectos do PLN, nos diversos nveis do processamento. Com isso, pretende-secompor um documento que sirva como fonte de pesquisa a pessoas interessadas em conhecer a abordagemestatstica do PLN, principalmente porque no foi encontrado material sobre o assunto em portugus.

    A estrutura deste trabalho semelhante estrutura de [MAN99], pois a ordem com que os tpicos foramabordados neste livro foi considerada bastante intuitiva, favorecendo o entendimento e relacionamento dastcnicas apresentadas. No entanto, em cada tpico, so mesclados os dados obtidos nas demais fontes depesquisa para este levantamento.

    O presente trabalho est organizado em 7 sees, sendo a primeira esta introduo.

    Na seo 2 deste trabalho, so introduzidos os principais conceitos sobre a teoria da probabilidade e a teoriada informao, que sero necessrios para o entendimento das sees seguintes.

    A seo 3 trata das caractersticas de um corpus, das condies necessrias a seu processamento, e das questesrelacionadas a sua forma de utilizao.

    A seo 4 explora os modelos estatsticos para obteno de conhecimento a partir das palavras de um texto.Nesta seo, so apresentados mtodos para deteco de colocaes, para inferncia estatstica de proprieda-des da linguagem, para reduo da ambigidade semntica, e para aquisio de dados lxicos.

    Na seo 5, so apresentados os modelos estatsticos para obteno de conhecimentos sintticos sobre a lin-guagem. Aqui, so apresentados a teoria dos modelos de Markov, modelos para marcao de categorias daspalavras, gramticas probabilsticas e questes sobre a anlise sinttica probabilstica.

    Na seo 6, so apresentadas aplicaes prticas do PLN, para as quais tambm existem mtodos estatsticosadequados. So apresentadas s reas de recuperao de informaes, classificao de textos e traduoautomtica.

    Na seo final, so apresentadas as concluses sobre este trabalho.

    2 Fundamentos matemticos

    Este captulo tem o objetivo de apresentar os conceitos bsicos da teoria da probabilidade [MAN99] [MOR95]e da teoria da informao [CHA93] [EPS86] [MAN99]. O material apresentado visa possibilitar um melhorentendimento dos captulos que seguem, cujas sees utilizam os conceitos aqui mostrados.

    2.1 Teoria da probabilidade

    A teoria da probabilidade trata de predizer qual a chance de que algum determinado evento acontea. A noode probabilidade de algum evento formalizada atravs do conceito de experimento - processo pelo qual realizada uma observao.

    Em um experimento assume-se um conjunto de resultados bsicos, chamado de espao amostral, freqente-mente denotado por . Espaos amostrais podem ser discretos, contendo um nmero infinito mas enumervelde resultados bsicos, ou contnuos, contendo um nmero incontvel de resultados bsicos. Um evento umsubconjunto do espao amostral, o resultado de um experimento. O conjunto de todos os eventos possveis de

    2

  • um espao amostral denominado espao de eventos, denotado por F , que corresponde ao conjunto de todosos subconjuntos do espao amostral.

    A probabilidade de um evento pode variar entre 0 e 1, onde 0 indica impossibilidade e 1, certeza. Umafuno/distribuio de probabilidade, notada por P , distribui uma probabilidade acumulada de 1 por todo oespao amostral. Formalmente, uma funo discreta de probabilidade qualquer funo P : F ! [0; 1], talque :

    P () = 1

    Se A1; A2; ::: uma seqncia de eventos mutuamente exclusivos pertencentes a F , ento

    P (

    1[j=1

    Aj) =

    1Xj=1

    P (Aj)

    Chama-se P (A) a probabilidade do evento A. Estes axiomas querem dizer que se determinados eventos noocorrem simultaneamente, a probabilidade de todos ocorrerem corresponde a soma das probabilidades de cadaum ocorrer.

    2.1.1 Probabilidade condicional e independncia

    Probabilidades condicionais medem a probabilidade de eventos dado algum conhecimento.

    Probabilidade a priori de um evento representa sua probabilidade antes de considerar o conhecimento adicio-nal, e probabilidade a posteriori de um evento a probabilidade que resulta do uso de conhecimento adicional.

    A probabilidade condicional de um evento A, sabendo-se que ocorreu