análise automática de coerência textual em resumos ... ?· foram identificados 18 pares de...

Download Análise Automática de Coerência Textual em Resumos ... ?· Foram identificados 18 pares de sentenças…

Post on 01-Dec-2018

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Anlise Automtica de Coerncia Textual em Resumos

    Cientficos: Avaliando Quebras de Linearidade

    Leandro Lago da Silva1, Valria Delisandra Feltrim1

    1Departamento de Informtica Universidade Estadual de Maring (UEM)

    CEP 87020-900 Maring PR Brazil

    leandro@datacampo.com.br, vfeltrim@din.uem.br

    Abstract. This paper presents an extension of the coherence analysis module

    that is part of the writing tool called SciPo, allowing it to automate the

    analysis of the coherence dimension called Linearity Break. The proposed

    implementation is based on a combination of the entity grid model and

    information from the rhetorical structure of scientific abstracts, allowing it to

    generate messages that indicate possible linearity breaks in specific regions of

    the abstract. Experiments have shown that the combination of the entity grid

    model and information from the rhetorical structure is feasible and can be

    used as part of SciPo.

    Resumo. Este artigo apresenta uma extenso do mdulo de anlise de

    coerncia que parte da ferramenta SciPo, visando anlise automtica da

    dimenso chamada Quebra de Linearidade. A implementao proposta

    baseada na combinao do modelo grade de entidades com informaes

    provenientes da estrutura retrica do resumo, permitindo que o mdulo gere

    mensagens que indiquem possveis quebras de linearidade em regies

    especficas do resumo. Experimentos mostraram que a combinao do modelo

    grade de entidades com a estrutura retrica vivel e pode vir a ser utilizada

    como parte da ferramenta SciPo.

    1. Introduo

    A ferramenta SciPo [Feltrim et al. 2006] foi desenvolvida para auxiliar escritores

    iniciantes na escrita cientfica, em especial na escrita de resumos e introdues na rea

    da Cincia da Computao. A ferramenta voltada para a lngua portuguesa e possui

    um mdulo de anlise de coerncia (MAC), que detecta potenciais problemas de

    coerncia textual em resumos.

    O MAC baseado na classificao de componentes retricos e em Anlise de

    Semntica Latente (LSA) [Landauer et al. 1998]. Atualmente, trs tipos de

    relacionamentos semnticos, chamados de dimenses, so examinados pelo MAC

    [Souza and Feltrim 2013]. Uma quarta dimenso, chamada Quebra de Linearidade, foi

    proposta para o MAC, mas no chegou a ser automatizada. Essa dimenso busca

    identificar problemas de coerncia locais que se caracterizam pela dificuldade em se

    estabelecer uma ligao clara da sentena atual com as sentenas adjacentes. Segundo

    os autores, os resultados obtidos com LSA para essa dimenso foram insatisfatrios,

    Proceedings of Symposium in Information and Human Language Technology. Natal, RN,Brazil, November 47, 2015. c2015 Sociedade Brasileira de Computacao.

    45

  • sugerindo o uso de outros modelos de coerncia, como a de grade de entidades proposta

    por [Barzilay and Lapata, 2008].

    Visando a automatizao da dimenso Quebra de Linearidade, este trabalho

    prope utilizar informaes provenientes da estrutura retrica em conjunto com a grade

    de entidades para gerar mensagens que indiquem possveis problemas de coerncia local

    em regies especficas do resumo, indicando, por exemplo, que uma possvel quebra de

    linearidade foi detectada em certo componente retrico. Os resultados experimentais

    mostram que a proposta vivel de ser includa do MAC da ferramenta SciPo.

    A Seo 2 apresenta a proposta. A Seo 3 apresenta a metodologia e os

    resultados das avaliaes so mostrados nas sees 4 e 5. Por fim, a Seo 6 traz as

    concluses do trabalho.

    2. Anlise Automtica de Quebra de Linearidade

    Vrios trabalhos tm usado a grade de entidades para automatizar em algum nvel a

    anlise de coerncia [Barzilay and Lapata 2008; Burstein et al. 2010; Elsner and

    Charniak 2011; Castro Jorge et al. 2014; Dias et al. 2014; Freitas and Feltrim 2014].

    Uma caracterstica comum a esses trabalhos a anlise do texto completo, o que til

    em vrios contextos de aplicao.

    Freitas e Feltrim (2014) mostraram que o uso da grade de entidades possibilita a

    identificao de resumos com quebras de linearidade, no entanto, a anlise do texto

    como um todo no permite a identificar a localizao das quebras. Informar que o texto

    possui quebras de linearidade sem dar indicar a regio em que as quebras ocorrem de

    pouca utilidade para uma ferramenta de auxlio escrita como o SciPo. Assim, preciso

    que as sugestes geradas pela ferramenta sejam mais especficas, informando, ainda que

    de forma aproximada, em qual trecho do texto a quebra foi detectada.

    A soluo proposta foi usar a grade de entidades na anlise de trechos menores

    constitudos por um ou mais componentes retricos. Essa anlise por trechos permite a

    gerao de mensagens que indiquem quebras de linearidade em um componente ou

    grupo de componentes retricos especficos, permitindo a gerao de mensagens mais

    especficas por parte da ferramenta.

    A partir da identificao dos componentes retricos, feita por meio de um

    classificador retrico, a anlise da dimenso Quebra de Linearidade pode ser iniciada.

    Em uma primeira etapa da anlise, grades de entidades individuais so construdas para

    todos os componentes retricos compostos de pelo menos duas sentenas. A partir de

    cada grade extrado um vetor de caractersticas que ento testado por um

    classificador que atribui uma de duas categorias possveis: Com Quebra ou Sem

    Quebra. Sempre que um trecho classificado como Com Quebra, uma sugesto

    gerada ao usurio indicando que aquele componente retrico especfico possui uma

    possvel quebra de linearidade. O usurio, por sua vez, pode acatar a sugesto, retornar

    ao texto para modific-lo e reenvi-lo para uma nova anlise, ou pode ignorar a

    sugesto dada, o que faz com que o processo de anlise prossiga.

    Em uma segunda etapa, novas grades de entidades so construdas para todos os

    pares de componentes adjacentes. O processo de classificao se repete como na

    primeira etapa e caso a anlise continue, uma nova etapa iniciada. A cada nova etapa,

    grupos maiores de componentes retricos, gerados por meio da adio de um

    Analise Automatica de Coerencia Textual em Resumos Cientficos: Avaliando Quebras deLinearidade

    46

  • componente adjacente, so usados para gerar as grades de entidades e realizar a

    classificao. A anlise continua enquanto no forem detectadas quebras de linearidade

    e termina quando houver um nico grupo de componentes retricos que corresponde ao

    resumo completo.

    3. Metodologia

    Para a identificao dos componentes retricos foi utilizado o classificador AZPort

    [Feltrim et al. 2006], que classifica cada sentena de um resumo em uma de seis

    categorias retricas: Contexto, Lacuna, Propsito, Metodologia, Resultado e Concluso.

    Para a construo das grades de entidades foi utilizado o sistema de Freitas

    (2013), que implementa o modelo de grade de entidades conforme proposto por

    Barzilay e Lapata (2008) para o portugus. Dois tipos de conhecimento lingustico

    foram considerados na construo das grades: (i) a funo sinttica das entidades (se

    sujeito (S), objeto (O), nenhum dos anteriores (X) ou ausente na sentena (-)) e (ii) a

    salincia, definida com base nas frequncias das entidades observadas no discurso.

    Entidades que ocorrem pelo menos duas vezes no texto foram consideradas salientes.

    A partir da grade de entidades foram extradas as probabilidades de todas as

    possveis transies de tamanho dois. Uma transio uma sequncia {S; O; X; -}n que

    representa as ocorrncias da entidade em n sentenas adjacentes. As transies podem

    ser obtidas como sequncias contnuas de cada coluna com certa probabilidade de

    ocorrncia na grade. Dessa maneira, cada texto representado por um conjunto fixo de

    transies e suas probabilidades, usando a notao padro de vetor de caractersticas.

    Considerando a presena (+) ou a ausncia (-) das informaes sintticas e de salincia,

    quatro configuraes diferentes do modelo foram obtidas por meio das combinaes de

    funo sinttica (+/-) e salincia (+/-).

    Foram criados dois classificadores para a dimenso Quebra de Linearidade: um

    para classificar componentes retricos isolados e o outro para classificar resumos

    completos. Os classificadores foram induzidos com o algoritmo J48 disponvel no

    ambiente Weka [Witten and Frank 2005] e os resultados foram obtidos por meio de

    validao cruzada estratificada com 10 parties. O treinamento e teste dos

    classificadores foram feitos com o CorpusTCC [Souza and Feltrim 2013], um corpus

    composto por 408 resumos extrados de monografias de concluso de curso de

    graduao em Computao.

    O classificador de componentes foi treinado com pares de componentes retricos

    extrados a partir dos resumos. Ao todo foram utilizados 1.160 pares de compostos por

    no mnimo trs sentenas, sendo 580 pares originais e 580 pares gerados pela inverso

    das sentenas na fronteira dos componentes. O classificador de resumos completos foi

    treinado com 816 resumos, sendo 408 resumos originais e 408 resumos gerados pela

    inverso da ordem das sentenas. Em ambos os casos (pares e resumos), as verses

    geradas artificialmente foram consideradas Com Quebra enquanto os textos originais

    foram considerados Sem Quebra. A opo pela gerao de verses artificiais para o

    treinamento dos classificadores se deu devido ao pequeno nmero de resumos originais

    anotados como tendo quebra de linearidade, o que