técnicas de processamento de linguagem natural aplicadas ao processo de mineração de textos uma...

Upload: ronnie

Post on 10-Oct-2015

107 views

Category:

Documents


3 download

DESCRIPTION

A mineração de textos é uma atividade que surgiu com o propósito de descobrir conhecimento em dados não estruturados (textuais). Este processo utiliza além de algoritmos próprios, técnicas já conhecidas e consolidadas, dentre elas o processamento de linguagem natural (PLN), que tem incrementado os resultados obtidos. Este estudo tem como objetivo identificar e avaliar as técnicas de PLN disponíveis para realizar mineração em bases de dados textuais, utilizando o método de pesquisa conhecido como mapeamento sistemático, cujo propósito é identificar, avaliar e interpretar todos os trabalhos disponíveis e relevantes sobre uma determinada questão de pesquisa. Assim, foram identificados 24 estudos com 12 técnicas de PLN aplicadas para resolver questões de extração, representação, busca e classificação de textos, as quais foram discutidas a utilização, vantagens e desvantagens associadas.

TRANSCRIPT

  • UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO

    UNIDADE ACADMICA DE SERRA TALHADA

    BACHARELADO EM SISTEMAS DE INFORMAO

    RONNIE EDSON DE SOUZA SANTOS

    Tcnicas de Processamento de Linguagem

    Natural Aplicadas ao Processo de Minerao

    de Textos: uma Reviso Sistemtica

    Serra Talhada,

    2012

  • Ronnie Edson de Souza Santos

    Tcnicas de Processamento de Linguagem

    Natural Aplicadas ao Processo de Minerao

    de Textos: uma Reviso Sistemtica

    Projeto de Concluso de Curso apresentada ao Curso

    de Bacharelado em Sistemas de Informao da

    Unidade Acadmica de Serra Talhada da

    Universidade Federal Rural de Pernambuco como

    requisito parcial obteno do grau de Bacharel.

    Orientador: Prof. MSc Ellen Polliana Ramos Souza

    Coorientador: Prof. MSc Jorge S. Correia Neto

    Serra Talhada

    2012

  • Ficha catalogrfica

    S237t Santos, Ronnie Edson de Sousa Tcnicas de processamento de linguagem natural aplicadas ao processo de minerao de textos: uma reviso sistemtica / Ronnie Edson de Sousa Santos. 2012.

    55 f.: il. Orientadora: Ellen Polliana Ramos de Souza. Monografia (Bacharelado em Sistemas de Informao) Universidade Federal Rural de Pernambuco. Unidade Acadmica de Serra Talhada, Serra Talhada, 2012. Inclui Referncias e apndice.

    1. Textos- Minerao. 2. Linguagem natural processamento. 3. Textos - reviso sistemtica. I. Sousa, Ellen Polliana Ramos de. II. Ttulo

    CDD 004

  • UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO

    UNIDADE ACADMICA DE SERRA TALHADA

    BACHARELADO EM SISTEMAS DE INFORMAO

    RONNIE EDSON DE SOUZA SANTOS

    Tcnicas de Processamento de Linguagem Natural Aplicadas ao Processo de

    Minerao de Textos: uma Reviso Sistemtica

    Trabalho de Concluso de Curso julgado adequado para obteno do ttulo de Bacharel em

    Sistemas de Informao, defendida e aprovada por unanimidade em 06/11/2012 pela banca

    examinadora.

    Banca Examinadora:

  • DEDICATRIA

    Dedico este trabalho aos meus pais

    que me deram toda a base necessria para

    que eu me tornasse o homem que sou e que

    hoje acompanham e iluminam meus passos

    de algum lugar em outro plano.

  • AGRADECIMENTOS

    Agradeo primeiramente ao Deus criador de todas as coisas e ao nosso senhor Jesus

    Cristo pela interveno nos momentos mais difceis da minha vida e pela inspirao para a

    concluso das tarefas e projetos.

    Agradeo aos meus irmos Robson e Kcia e ao meu av Eloi, fonte da minha fora,

    perseverana e da minha esperana, por acreditarem em mim em todos os momentos da minha

    graduao e por me darem coragem para lutar pela vitria. Tambm aos meus familiares, que

    mesmo distantes sempre acreditaram no meu sucesso, em especial a tia Franscisca e me

    Elisa.

    Agradeo ao meu melhor amigo Vanut, principal parceiro nesta jornada na

    graduao e presente em todos os trabalhos, seminrios e artigos desenvolvidos ao longo

    destes 5 anos. Tambm a sua famlia na qual eu fui acolhido como filho por tia Diva, tio Neno

    e como irmo por Vanessa.

    Agradeo a minha orientadora Prof Ellen Souza pelo acompanhmento, pelo apoio e

    principalmente pela pacincia nos momentos mais difceis da construo deste trabalho.

    Tambm ao meu co-orientador Prof Jorge Correia pela ateno e o apoio dispensado no

    somente a este trabalho, mas a tantos outros desenvolvidos ao longo de toda a graduao.

    Agradeo aos amigos sobreviventes da turma 2008.1, Andresa e Clbia

    (intergrantes do Quarteto), alm de Mouglas e Thuran, os quais dividiram comigo todos

    momentos bons e ruins em pelo menos todas as disciplinas obrigatrias do curso.

    Agradeo tambm a cada professor que esteve a frente de alguma das 42 disciplinas

    as quais eu cursei na graduao e tambm aos demais professores que trabalham para o

    crescimento do curso de Sistemas de Informao e da UAST.

    E finalmente agradeo a Celina, Gabriela, Ivo, Keyla, Hemerson, Janaina, Aline e

    Graziella que se preocuparam e acompanharam o andamento deste. E tambm aos amigos que

    estiveram prximos durante a concluso desta ltima etapa da graduao e torceram para que

    este trabalho fosse bem sucedido: Manu, Camila, Cleyton, Alex, Jadson, Allan e a todos os

    outros presentes tambm nos momentos necessrios para relaxar das ideias.

  • O esprito sem limites o maior tesouro do

    homem.

    (J.K. Rowling)

  • RESUMO

    Introduo: A minerao de textos a atividade que surgiu com o propsito de descobrir

    conhecimento em dados no estruturados (textuais) que so o tipo mais recorrente de dado no

    meio digital, desde a popularizao da web. Este processo utiliza alm de algoritmos prprios,

    tcnicas j conhecidas e consolidadas, dentre elas o Processamento de Linguagem Natural

    (PLN) tem incrementado os resultados obtidos e justificado o esforo computacional

    necessrio. Objetivo: Este estudo tem como objetivo identificar e avaliar as tcnicas e/ou

    algoritmos de PLN disponveis para realizar minerao em bases de dados textuais com o

    intuito realizar diversas discusses sobre as tcnicas e/ou algoritmos aplicados nos ltimos

    anos atravs das experincias relevantes neste contexto. Alm disso, os resultados desta

    pesquisa podero ser aplicados diretamente em uma rede social especfica de carter

    colaborativo, desenvolvida atravs de uma parceria entre a UFRPE e a AACD. Mtodo: Foi

    utilizada a tcnica de pesquisa conhecida como Reviso Sistemtica, cujo propsito

    identificar, avaliar e interpretar todos os trabalhos disponveis e relevantes sobre uma

    determinada questo de pesquisa, executando um processo de reviso rigoroso, confivel e

    passvel de auditagem, podendo inclusive ser replicado. A reviso sistemtica foi conduzida

    em trs etapas: planejamento que incluiu o marco de avaliao do planejamento, execuo

    que tambm possuiu uma avaliao e apresentao dos resultados. Resultado: Foram

    encontrados 74 trabalhos em duas grandes bases de produes cientficas dos quais 24

    trabalhos foram includos na pesquisa aps passarem pelos critrios de incluso e excluso

    definidos pela reviso e a sua anlise forneceu evidncias com as quais pde-se elaborar uma

    lista com 11 tcnicas usados em PLN e aplicadas na minerao de textos e responder as

    questes definidas sobre vantagens e problemas na aplicao de cada uma, experincias no

    contexto das redes sociais e recorrncia das tcnicas. Concluses: Dentre todas as tcnicas, a

    ontologia se mostrou a mais eficiente, primeiramente por ter sido aplicada em diversos

    contextos e segundo pelas suas caractersticas, sendo capaz de armazenar textos de modo no

    ambguo em formato padronizado e de realizar a indexao semntica e a recuperao da

    informao.

    Palavras-chave: Minerao de textos, Processamento de linguagem natural, reviso

    sistemtica.

  • ABSTRACT

    Introduction: Text mining is an activity that raised aiming to discover knowledge in

    not-structured data (textual) the most recurrent type of data in digital plan, since the

    popularization of web. This process uses itself algorithms as well as known and

    consolidated techniques, among which can be highlighted Natural Language Processing

    (NLP) which has incremented obtained results and has justified the necessary

    computational effort. Objective: This study aims to identify and evaluate the techniques

    and/or NLP algorithms available to perform data mining in textual databases in order to

    perform discussion about techniques and algorithms that have been applied in last years

    in this context. Method: It was used the Systematic review technique, which proposes to

    identify, evaluate and interpret all available and relevant works about some research

    question, performing a rigorous review process, trustable and allowing to auditing, and

    may even be replicated. A Systematic Review was conducted in three steps: planning

    which include planning evaluation, execution which also include execution evaluation

    and presentation of results. Result: It was found 74 works in two large bases of scientific

    productions in which, 24 works were included in the research after being filtered by the

    inclusion and exclusion criteria defined by the systematic review. The analysis of these

    studies provided evidences with which it was possible to elaborate a list with 11 NLP

    techniques applied in text mining, and to each of these techniques it were answered

    questions about advantages and problems in application, experiences in social network

    context and the use of these techniques in last decade. Conclusion: Among all

    techniques, the ontology was presented as the most efficient, first for have been applied

    in several contexts throughout a decade and se cond for its features, being capable to

    store text in a non-ambiguous way in a standardized format and perform semantic

    indexing and information retrieval.

    Keywords: Text Data Mining, Natural Language Processing, Systematic review

  • LISTA DE ILUSTRAES

    Figura 1 Etapas do processamento de linguagem natural 19

    Figura 2 Processo de Reviso Sistemtica 21

    Figura 3 Quantidade total de trabalhos retornados pela string de busca nas bases 29

    Figura 4 Quantidade de estudos selecionados pelos critrios de incluso e excluso 29

    Figura 5 Quantidade de estudos selecionados estudo empregado 29

    Figura 6 Quantidade de estudos selecionados pelos critrios de incluso e excluso 30

    Figura 7 Distribuio dos estudos por pas 31

  • LISTA DE TABELAS

    Tabela 1 Tcnicas identificadas pela reviso sistemtica 34

    Tabela 2 Vantagens e limitaes das tcnicas identificadas 41

    Tabela 3 Distribuio de tcnicas por ano 42

    Tabela 4 Construo da string de busca da reviso sistemtica 53

  • 11

    SUMRIO

    1 INTRODUO 13

    1.1 Motivao/ Justificativa 13

    1.2 Objetivos 15

    1.2.1 Objetivo Geral 15

    1.2.2 Objetivos Especficos 15

    2 REFERENCIAL CONCEITUAL 16

    2.1 Minerao de Textos 16

    2.2 Processamento de Linguagem Natural 17

    2.3 Reviso Sistemtica 20

    2.4 Rede Social GenNet 22

    2.5 Sntese do captulo 24

    3 PROCEDIMENTOS METODOLGICOS 25

    3.1 Execuo da Reviso Sistemtica 25

    3.2 Sntese do captulo 27

    4 TCNICAS DE PROCESSAMENTO DE LINGUAGEM NATURAL APLICADAS

    AO PROCESSO DE MINERAO DE TEXTOS 28

    4.1 Foco das Pesquisas Primrias 31

    4.1.1 Extrao de conhecimento em textos 31

    4.1.2 Representao do contedo de documentos 32

    4.1.3 Classificao de textos 32

    4.1.4 Busca de informaes em textos 33

    4.2 Respostas para as questes da reviso sistemtica 34

    4.2.1 Quais so as tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN

    esto sendo aplicadas na minerao de textos? 34

    4.2.2 De que formas so aplicadas? 35

    4.2.3 Quais so as vantagens e as limitaes observadas pelas pesquisas primrias? 40

    4.2.4 Qual a tcnica mais recorrente? 42

    4.2.5 Existe alguma experincia do uso de PLN aplicado minerao de textos

    postados em redes sociais virtuais? 43

    4.3 Sntese do captulo 44

  • 12

    5 CONCLUSO 46

    5.1 Consideraes finais 46

    5.2 Contribuies deste trabalho 47

    5.3 Proposta para trabalhos futuros 48

    REFERNCIAS 49

    APNDICE A PROTOCOLO DE REVISO SISTEMTICA 51

    APNDICE B LISTA DE ESTUDOS PRIMRIOS USADOS NA REVISO

    SISTEMTICA 54

  • 13

    1 Introduo

    Este captulo apresentado o contedo introdutrio deste trabalho. A seo 1.1

    trata brevemente dos tpicos referentes motivao e justificativa para

    realizao deste projeto e na seo 1.2, o objetivo geral e os objetivos especficos

    da pesquisa so elucidados.

    1.1 Motivao/ Justificativa

    A sobrecarga de informao um fenmeno contemporneo descrito e observado a

    partir do crescimento exponencial na disposio de informaes, registrada principalmente

    aps a popularizao e a expanso da Internet (OLIVEIRA et al., 2011; SILVA, 2003). Neste

    contexto, a maior parte dos dados disponveis est armazenada em documentos na forma de

    textos escritos em linguagem natural. Como o paradigma de programao tradicional possui

    uma srie de dificuldades para captar as relaes difusas e muitas vezes ambguas em

    documentos de texto (MACHADO et al., 2010), novas formas de automao e extrao de

    conhecimento desse emaranhado textual so, cada vez mais, objeto de estudo da Computao.

    Com a finalidade de resolver problemas de descoberta de conhecimento em bases de

    texto, surge a minerao de textos, oferecendo um conjunto de mtodos que permite a

    navegao, organizao e descoberta inteligente de informao em bases de dados textuais.

    Segundo Passos e Aranha (2006), a minerao de textos um campo multidisciplinar que

    inclui subsdios da Informtica, Estatstica, Lingustica e da Cincia Cognitiva capazes de

    lidar com um grande nmero de palavras e estruturas em linguagem natural.

    Para o processamento de informaes pelos algoritmos computacionais, a forma

    textual no a mais adequada, uma vez que no estruturada e no explicita a semntica

    contida nos textos. Neste sentido, os sistemas de minerao de textos no podem

    simplesmente submeter um conjunto de textos desestruturados para os algoritmos de

    descoberta de conhecimento (ARANHA, 2007; GOMES, 2008). Para tal, tcnicas de

    Processamento de Linguagem Natural (PLN) so empregadas com o intuito de preparar os

    dados textuais, nos quais se busca algum tipo de conhecimento. Assim, o principal objetivo do

    PLN prover um nvel mais alto de compreenso da linguagem natural atravs do uso de

  • 14

    recursos computacionais, com o emprego de tcnicas para o rpido processamento de texto

    (MACHADO et al., 2010). Ainda com relao minerao de textos, o emprego de tcnicas e

    algoritmos de PLN est associado atividade conhecida como pr-processamento, executada

    logo aps a coleta dos dados (SOARES, 2008).

    Atualmente, existem diferentes abordagens e tcnicas para o uso do PLN,

    dependendo do que se deseja buscar, do contexto de trabalho e da qualidade do resultado a ser

    produzido. A literatura apresenta experincias do uso de PLN para resolver questes como

    extrao de informao, recuperao de informao, traduo automtica, gerao automtica

    de texto, gerao de linguagem natural, interpretao de linguagem natural, simplificao de

    texto, correo ortogrfica e reconhecimento de discussos, dentre outras (SCHNEIDER,

    2001).

    Segundo Aranha (2007), considerando em particular o processo de descoberta de

    conhecimento, as prticas de PLN so meios agregadores de valores semnticos ao texto,

    capazes de gerar diversos benefcios na busca por padres especficos. Assim, este estudo tem

    como objetivo identificar e avaliar as tcnicas e/ou algoritmos de PLN disponveis para

    realizar minerao em bases de dados textuais com o intuito de discutir sobre as abordagens

    aplicadas nos ltimos anos, a forma de utilizao e o contexto em que foi aplicado, as

    experincias relevantes neste contexto, bem como vantagens e desvantagens das tcnicas de

    PLN aplicadas minerao de textos. Pretende-se ainda, identificar experincias na rea de

    minerao de textos compartilhados em redes sociais virtuais, visto que estes ambientes

    possuem atualmente um alto nvel de circulao de informao, principalmente na forma de

    texto. Alm disso, os resultados desta pesquisa podero ser aplicados diretamente em uma

    rede social especfica de carter colaborativo, a rede GenNet que foi desenvolvida atravs de

    uma parceria entre a UFRPE e a AACD.

    Para resolver tal problema, foi utilizada a tcnica de pesquisa conhecida como

    Reviso Sistemtica, cujo propsito identificar, avaliar e interpretar trabalhos disponveis e

    relevantes sobre uma determinada questo de pesquisa, executando um processo de reviso

    rigoroso, confivel e passvel de auditagem, podendo inclusive ser replicado (MAFRA, 2006).

    A reviso sistemtica desenvolve uma anlise crtica sobre os estudos coletados no processo

    de identificao de trabalhos relacionados com a questo central a ser respondida. Assim, o

    resultado da reviso possibilitar tambm a identificao de novos aspectos sobre o tema e

    novas linhas de estudo.

  • 15

    1.2 Objetivos

    A seguir apresentado o objetivo geral deste projeto e como o mesmo ser

    implementado em termos de seus objetivos especficos.

    1.2.1 Objetivo Geral

    Este trabalho est pautado no desenvolvimento de uma reviso sistemtica com o

    objetivo de identificar, analisar e interpretar dados que relatem o uso das tcnicas de PLN em

    diversos contextos, considerando as pesquisas que buscaram explorar o uso de tcnicas de

    Processamento de Linguagem Natural aplicadas minerao de textos.

    1.2.2 Objetivos Especficos

    Como objetivos especficos do trabalho foram determinados:

    1. Realizar o levantamento da produo cientfica sobre aplicao de PLN em

    minerao de texto;

    2. Montar uma lista de evidncias encontradas nas experincias publicadas sobre

    PLN e minerao de textos;

    4. Discutir as abordagens existentes para o uso de PNL na minerao de textos

    em diversos contextos;

    5. Analisar as vantagens e desvantagens do uso das tcnicas de PNL aplicadas nos

    ltimos anos;

    6. Identificar experincias de aplicaes de PLN e minerao de textos em redes

    sociais virtuais.

  • 16

    2 Referencial Conceitual

    Neste captulo apresentada uma breve explanao sobre os contedos que so

    abordados pelo trabalho. A seo 2.1 apresenta os conceitos e definies sobre o

    processo de minerao de textos. Na seo 2.2 apresentada a tcnica de

    processamento de linguagem natural, comumente utilizada no contexto da

    minerao de textos. A seo 2.3 trata da abordagem metodolgica denominada

    Reviso Sistemtica, que ser aplicada por este estudo para que os objetivos

    sejam atingidos. Por fim, a seo 2.4 apresenta um resumo geral de todo o

    referencial conceitual da pesquisa.

    2.1 Minerao de Textos

    O avano das tecnologias para aquisio e armazenamento de dados tem permitido

    que o volume de informao gerado em formato digital aumente de forma signicativa.

    Estimativas indicam que, no perodo de 2003 a 2010, a quantidade de informao no universo

    digital ultrapassou cinco hexabytes e cerca de 80% desses dados esto em de texto

    (REZENDE et al., 2011).

    Nesse contexto, a minerao de textos uma importante abordagem aplicada na

    transformao desses itens textuais em conhecimento til. Oliveira (2011) ressalta que essa

    transformao baseada na investigao de padres, tendncias e regularidades de textos e

    documentos em uma linguagem compreensvel, tendo como produto final a extrao de

    informaes relevantes. Assim, a minerao de textos busca extrair informao de maneira

    inteligente e confivel a partir de grandes volumes de dados textuais.

    Minerar dados do tipo texto um mtodo interdisciplinar que envolve as reas de

    recuperao de informao, aprendizagem de mquina, estatstica, lingustica computacional e

    minerao de dados. Cada uma dessas reas, ou a interseco das mesmas, usada para

    transformar o texto em um formato que a mquina consiga process-lo e entend-lo

    (MACHADO et al., 2010). A principal diferena entre o processo de minerao de dados

    tradicional e a minerao de textos que, enquanto a abordagem convencional trabalha

  • 17

    exclusivamente com dados estruturados, a minerao de textos lida com dados em linguagem

    natural e que, portanto, possui pouca ou nenhuma estrutura (REZENDE et al., 2011;

    SOARES, 2008).

    Segundo Passos e Aranha (2006), a minerao de textos utiliza alm de algoritmos

    prprios, tcnicas j conhecidas e consolidadas como:

    a) Indexao: serve para realizar a busca rpida de documentos atravs de palavras-

    chave. Fornece uma estrutura de dados de armazenamento inteligente que proporciona

    aumento significativo de desempenho;

    b) Processamento de Linguagem Natural: utiliza conhecimentos da rea de lingustica

    para aproveitar ao mximo o contedo do texto, extraindo entidades e relacionamentos,

    detectando sinnimos, corrigindo palavras e ainda desambiguizando-as;

    c) Minerao de Dados: as tcnicas inteligentes de minerao de dados so muito teis

    para identificar os conhecimentos relevantes em banco de dados organizados e pr-

    processados. As tcnicas mais utilizadas so classificao e clusterizao, dentre outras.

    Embora existam abordagens do processo de minerao de textos que no fazem uso

    de PLN, a sua utilizao tem incrementado os resultados obtidos, justificando o esforo

    computacional adicional, como afirma Aranha (2007).

    2.2 Processamento de Linguagem Natural

    O Processamento de Linguagem Natural surgiu devido necessidade de

    compreenso automtica e comunicao em geral do ser humano com o computador. Trata-se

    de um mecanismo criado no somente para extrair as informaes de textos, mas tambm para

    facilitar a entrada de dados nos sistemas e a estruturao desses dados (BULEGON, 2010).

    Segundo Aranha (2007), o PLN o campo da Cincia da Computao e da Lingustica que

    abrange um conjunto de mtodos formais para analisar textos e gerar frases em um idioma

    humano atravs do uso de programas computacionais.

    Bulegon (2010) ressalta tambm a diviso do Processamento de Linguagem Natural

    em quatro etapas: anlise morfolgica, anlise sinttica, anlise semntica e anlise

    pragmtica, que so realizadas nesta mesma ordem.

  • 18

    A anlise morfolgica responsvel por definir artigos, substantivos, verbos e

    adjetivos, armazenando-os em um tipo de dicionrio. Depois de construdo o dicionrio, a

    anlise sinttica faz uso dele procurando mostrar relacionamento entre as palavras e, num

    segundo momento, verifica sujeito, predicado, complementos nominais e verbais, adjuntos e

    apostos. Na anlise semntica, ocorre o encontro de termos ambguos, de sufixos e afixos, ou

    seja, questes de significado associados aos morfemas componentes de uma palavra, o sentido

    real da frase ou palavra. Para a juno e visualizao de todas as etapas, a anlise pragmtica

    faz a conexo de todo o mecanismo e mostra visualmente o resultado. Para este caso, existem

    algoritmos que disponibilizam o texto em forma de rvore apresentando todos os passos

    seguidos at a concluso do processamento.

    A figura 1 mostra uma expresso do ponto de vista de cada etapa do processamento

    de linguagem natural. Atravs desde esquema pode-se perceber que na etapa da anlise

    morfolgica, cada termo da sentena foi analisado individualmente e sua funo gramatical na

    orao foi reconhecida (representada por cores individualmente). Por exemplo: O (artigo),

    Senhor (substantivo), Esperou (verbo).

    No prximo passo, a anlise sinttica verifica o relacionamento entre as palavras

    indicando, por exemplo, que artigo est se referindo a cada substantivo e tambm elementos

    como o sujeito (O senhor) e o predicado da frase (esperou a esposa voltar do banco sentando

    no banco). Este relacionamento apresentado por cores nos mesmos tons.

    A anlise semntica destaca radicais (esper, volt, sent) das palavras e realiza

    desambiguaes como no caso do termo banco. Por fim, a anlise pragmtica realiza o

    processamento da expresso como um todo, podendo identificar, por exemplo, oraes de

    sentido irnico.

  • 19

    Figura 1 Etapas do processamento de linguagem natural.

    Fonte: Elaborada pelo autor (2012).

    As abordagens atuais da PLN se dividem basicamente em quatro categorias

    principais: simblica, estatstica, de conexo e hbrida (CERQUEIRA, 2010). A abordagem

    simblica est ligada aos fenmenos e paradigmas da lingustica e representa, atravs de

    algoritmos, as regras conhecidas na linguagem. Os mtodos estatsticos utilizam clculos

    matemticos para gerar modelos e regras a partir de exemplos de textos e sentenas. O

    procedimento de conexo tambm desenvolve modelos generalistas, porm este utiliza os

    mtodos estatsticos para complementar os mtodos de representao de conhecimento. Por

    fim, a abordagem hbrida mescla mtodos vindos de abordagens diferentes para suprir as

    necessidades do sistema ou mesmo reforar seus pontos fracos.

    Dependendo do tipo de sistema e da abordagem de PLN utilizada, existem diversas

    tcnicas e algoritmos que podem ser empregados: aprendizado por regras, programao lgica

    indutiva, rvores, algortimo de classificao nave bayes, ontologias e modelos de Markov,

    dentre outros (LADEIRA, 2010).

  • 20

    2.3 Reviso Sistemtica

    O termo Reviso Sistemtica refere-se a uma metodologia de pesquisa que visa obter

    e avaliar um conjunto de evidncias pertencentes a um contexto especfico (BIOLCHINI et

    al., 2005). Diferentemente do mtodo comum de reviso da literatura, a reviso sistemtica

    possui, como o nome sugere, um conjunto de passos formais e mtodos sistemticos

    executados sobre um tpico em particular com a inteno de induzir a identificao, seleo e

    produo de evidncias, considerando os conhecimentos e as iniciativas existentes no campo

    de interesse (MIAN et al., 2005).

    Revises sistemticas so geralmente utilizadas em reas com grande incidncia de

    estudos empricos, como o caso da medicina e da psicologia. Na engenharia de software,

    Kitchenham et al. (2004) adaptaram o mtodo de revises sistemticas utilizado na medicina

    e nas cincias sociais, produzindo um material de referncia que tem sido utilizado para guiar

    a construo de revises em diversos tpicos da engenharia de software (CAVALCANTI;

    SILVA, 2011).

    Dessa forma, a reviso sistemtica considerada um estudo secundrio, pois se

    baseia nos mtodos e resultados de outros estudos, chamados de estudos primrios, como o

    caso dos surveys, estudos de caso e experimentos. O desenvolvimento de uma abordagem

    sistemtica e no de uma simples reviso da literatura possibilita ao pesquisador identificar,

    avaliar e interpretar pesquisas disponveis e relevantes sobre uma determinada questo, um

    tpico ou um fenmeno de interesse (MAFRA; TRAVASSOS, 2006).

    Para executar o desenvolvimento de uma reviso sistemtica consistente utiliza-se

    obrigatoriamente um protocolo de busca de pesquisas, atravs do qual a mesma reviso pode

    ser executada por outros pesquisadores interessados. Os esforos na aplicao do mtodo

    atravs do protocolo de busca devem prover a identificao de relatos de pesquisas que

    apoiam ou no a questo ou tpico de interesse. Neste sentido, nenhum trabalho identificado

    poder ser descartado da anlise executada atravs da reviso sistemtica, cujo resultado ser

    a gerao de evidncias em determinado contexto (BIOLCHINI et al., 2005).

    Alm de todos estes aspectos, a reviso sistemtica no consiste em um simples

    rearranjo de dados e informaes publicadas anteriormente em estudos primrios. A reviso

    sistemtica tambm um tipo de abordagem metodolgica com a finalidade de integrar

    resultados experimentais e a sua aplicao poder enfatizar a descoberta de problemas gerais e

  • 21

    incentivar o diagnstico e a anlise de inconsistncias encontradas ao comparar estudos

    individuais (MAFRA; TRAVASSOS, 2006).

    Segundo Biochini et al. (2005), o processo de reviso sistemtica pode ser dividido

    operacionalmente em trs fases, como apresentado na Figura 2.

    Figura 2 - Processo de Reviso Sistemtica.

    Fonte: Biochini et al. (2005).

    O Planejamento: o primeiro estgio do processo e est relacionado com a

    formulao do problema, os objetivos e a questo que iro guiar o trabalho do pesquisador e a

    definio sobre quais artigos so relevantes ou no para a pesquisa. O protocolo de

    planejamento da reviso sistemtica, elaborado neste momento, contm as definies da

    execuo da reviso. O marco desta etapa a aprovao do protocolo. Neste estgio podem

    surgir problemas que invalidem o protocolo de planejamento se, por exemplo, grande parte

    dos artigos retornados pela busca for de natureza diferente da requerida pelo protocolo;

    Caso o protocolo de planejamento da reviso sistemtica seja aprovado, na etapa de

    Excecuo ocorre a avaliao dos trabalhos retornados pela busca nos repositrios, utilizando

    por base a questo principal a ser respondida. Tambm so definidas quais evidncias

    encontradas nos estudos primrios devem ser consideradas e quais podem ser descartadas.

    Nesta etapa tambm existe um marco de avaliao da excecuo que est relacionado com a

    anlise e interpretao das evidncias coletadas. A questo central da pesquisa utilizada para

    definir que procedimentos o pesquisador deve seguir para que possa realizar inferncias sobre

    os dados obtidos.

    Por fim, a Anlise dos Resultados a fase final do processo e refere-se s concluses

    da reviso sistemtica. Baseado na questo central do estudo definem-se quais das

    informaes obtidas sero includas e apresentadas e quais no sero. Um rigoroso processo

  • 22

    para separar o que e o que no importante aplicado, pois a omisso de informaes pode

    invalidar as concluses, caso o estudo no possa ser reproduzido por outros pesquisadores.

    Biochini et al. (2005) tambm definem que a atividade de empacotamento de dados e

    informaes deve ser executada durante todo o processo, para possibilitar a replicao da

    reviso sistemtica. Por fim, ainda importante ressaltar que mesmo parecendo sequencial, o

    processo de reviso sistemtica acontece de forma iterativa.

    2.4 Rede Social GenNet

    Na sociedade atual existe uma crescente necessidade de realizao de tarefas e de

    resoluo de problemas de forma colaborativa, estejam os atores no mesmo local e ao mesmo

    tempo ou no (BRITO; PEREIRA, 2004). As ferramentas de trabalho colaborativo criam

    ambientes virtuais que permitem que atividades habitualmente executadas em conjunto, por

    duas ou mais pessoas, possam continuar a serem realizadas, mesmo que os indivduos estejam

    fisicamente distantes (TEIXEIRA FILHO, 2002).

    Este tipo de configurao em rede peculiar ao ser humano. Ele se agrupa com seus

    semelhantes e vai estabelecendo relaes de interesses que se desenvolvem e se modificam

    conforme sua trajetria, entre as quais, relaes de trabalho. Essas redes sociais constituem

    uma das estratgias subjacentes utilizadas pela sociedade para compartilhar informaes e

    experincias, mediante as relaes entre os atores que as integram (TOMAL; ALCAR; DI

    CHIARA, 2005).

    Os sites de redes sociais so servios web que permitem que os indivduos i)

    construam um perfil pblico ou semi-pblico; ii) articulem uma lista de amigos com os quais

    eles compartilham uma conexo; iii) que possam navegar pelas listas de seus amigos

    buscando novos possveis amigos para sua prpria rede (BOYD; ELLISON, 2007); iv) que

    troquem mensagens; v) compartilhem contedos e; vi) agreguem contedos de sites parceiros

    (STROUD, 2007 apud CORREIA NETO, 2011)

    A rede social GenNet est diretamente relacionada com o desenvolvimento de

    processos e tecnologias, contextualizados em ambientes colaborativos, voltados para a

    promoo de aes de incluso social de indivduos portadores de doenas genticas com

    deficincia fsica. O conjunto de funcionalidades da rede resultado da anlise de quatro

  • 23

    grandes redes sociais, selecionadas a partir do grau de popularidade na web e tambm da

    natureza dos seus servios, alm de dados obtidos atravs de entrevistas com os principais

    perfis de usurios almejados pela rede: mdicos, associaes e famlias de pacientes

    (SANTOS; CORREIA NETO; VILAR, 2011).

    Atravs da interao com as funcionalidades apresentadas acima, o usurio do

    GenNet ter acesso a:

    Seo aberta ao pblico geral (enciclopdia virtual) com informaes diversas;

    Tpicos de orientao sobre aes, auxlios e atividades;

    Ferramentas de capacitao (ainda no disponveis na verso atual);

    Perfil social do usurio na rede, no qual o usurio indica o seu tipo representao: se

    mdico, associao ou outros tipos usurio (pacientes, familiares, advogados,

    assistentes sociais);

    Envio e recebimento de mensagens de outros participantes;

    Permisso para adicionar pessoas que tenham interesse em estabelecer relaes e

    tambm criar grupos de usurios para o compartilhamento de materiais;

    Participao de fruns de discusso para troca de informao com outros usurios;

    Espao para publicao de ideias e experincias na forma de dirio virtual (blog) que

    poder ser acompanhado pelos demais usurios da rede;

    Ferramentas para que os grupos de usurios possam formar estruturas em

    comunidades para interao;

    Mtodos com os quais os usurios possam encontrar participantes com interesses

    comuns ao ingressar na rede.

    Alm disso, o material compartilhado no GenNet, como postagens no dirio e os

    comentrios das discusses, poder ser avaliado pelos prprios usurios da rede e ter seu

    contedo indicado para outros perfis de interesse. Por isso, as prximas verses da rede social

    devero ser apoiadas por tcnicas computacionais inteligentes, como algoritmos de

    recomendao e tcnicas de minerao de texto e busca por contedo para melhorar a

    colaborao e as aes com os usurios.

  • 24

    2.5 Sntese do captulo

    O avano das tecnologias para aquisio e armazenamento de dados tem permitido

    que o volume de informao gerado em formato digital aumente de forma signicativa. Nesse

    contexto, a minerao de textos uma importante abordagem aplicada na transformao

    desses itens textuais em conhecimento til. A minerao de textos utiliza alm de algoritmos

    prprios, tcnicas j conhecidas e consolidadas como: Indexao, Processamento de

    Linguagem Natural e Minerao de Dados. Embora existam abordagens do processo de

    minerao de textos que no fazem uso de PLN, a sua utilizao tem incrementado os

    resultados obtidos e justificado o esforo computacional adicional.

    O Processamento de Linguagem Natural surgiu devido necessidade de

    compreenso automtica e comunicao em geral do ser humano com o computador. Trata-se

    de um mecanismo criado no somente para extrair as informaes de textos, mas tambm para

    facilitar a entrada de dados nos sistemas e a estruturao desses dados. Dependendo do tipo de

    sistema e da abordagem de PLN aplicada, existem diversas tcnicas e algoritmos que podem

    ser empregados. Uma maneira de descobrir qual destas tcnicas a mais indicada para um

    determinado contexto, atravs da realizao de reviso sistemtica.

    Diferentemente do mtodo comum de reviso da literatura, a Reviso Sistemtica

    possui, como o nome sugere, um conjunto de passos formais e mtodos sistemticos

    executados sobre um tpico em particular com a inteno de induzir a identificao, seleo e

    produo de evidncias atravs de uma metodologia de pesquisa rigorosa, confivel, imparcial

    e passvel de auditagem. Tem tambm a finalidade de integrar resultados experimentais e a

    sua aplicao poder enfatizar a resoluo de questes como, por exemplo, qual das tcnicas

    de PLN a mais indicada para minerar texto de postagens em redes sociais.

    Os sites de redes sociais so servios web que permitem que os indivduos construam

    um perfil pblico ou semi-pblico, articulem uma lista de amigos, troquem mensagens,

    compartilhem e agregem contedos. A rede social GenNet, por exemplo, est diretamente

    relacionada com o desenvolvimento de processos e tecnologias, contextualizados em

    ambientes colaborativos, voltados para a promoo de aes de incluso social de indivduos

    portadores de doenas genticas com deficincia fsica. Buscando melhorar a colaborao e as

    aes com os usurios, esta rede em particular precisa utilizar, por exemplo, tcnicas de

    minerao de texto atravs do processamento de linguagem, pois a maior parte das

    informaes trocadas na rede est na forma de texto.

  • 25

    3 Procedimentos Metodolgicos

    Este captulo apresenta a estratgia de ao utilizada por esta pesquisa. A

    primeira seo trata da metodologia de reviso sistemtica escolhida para ser

    executada visando o alcance dos objetivos definidos. A seo seguinte apresenta

    o Protocolo de Reviso Sistemtica.

    3.1 Execuo da Reviso Sistemtica

    Para o desenvolvimento deste trabalho, optou-se pela implementao de uma reviso

    sistemtica como mtodo de pesquisa, visto a sua eficincia em vrios campos da engenharia

    de software (MAFRA; TRAVASSOS, 2006). Assim, a reviso sistemtica, conforme

    apresentado na seo 2.3, ser desenvolvida tomando por base os trabalhos disponveis em

    grandes repositrios internacionais de pesquisas em Cincia da Computao. O guia de

    referncia metodolgica de Biochini et al. (2005) foi utilizado para a conduo deste estudo e

    sua escolha deve-se ao fato dele ser baseado na proposta inicial de Kitchenham et al. (2004),

    pioneira na aplicao de revises sistemticas na engenharia de software, e segue o esquema

    apresentado no captulo anterior.

    A partir das definies do guia de desenvolvimento de reviso sistemtica

    desenvolvido por Biochini et al. (2005), o mtodo utilizado para a execuo deste trabalho

    consistiu em trs etapas.

    3.1.1. Planejamento

    Foram definidos claramente objetivos, questo central e foco da reviso sistemtica,

    bem como as especificaes do problema e os termos de busca e fontes atravs dos quais os

    estudos primrios foram selecionados para esta pesquisa. Para tal, o protocolo de reviso

    sistemtica (apresentado no apndice A) foi criado contendo informaes do tipo critrios de

    incluso e excluso de estudos primrios, idioma dos trabalhos (ingls), mtodo de busca

    (automtico), tipos de trabalho e definio do procedimento de seleo de trabalhos a fim de

    responder as seguintes perguntas:

  • 26

    1. Quais tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto

    sendo aplicadas na minerao de textos?

    2. De que forma eles so aplicados?

    3. Quais so as vantagens e as limitaes observadas nas tcnicas?

    4. Qual a tcnica mais recorrente?

    5. Existe alguma experincia do uso de PLN aplicado minerao de textos

    postados em redes sociais virtuais?

    Aps definio do protocolo, este foi avaliado pelos orientadores para que a string de

    busca fosse validada e as questes de pesquisa fossem elaboradas de forma consistente. Nesta

    etapa, a string de busca foi retestada nas bases, para garantir a consistncia dos dados

    retornados e consequentemente da reviso sistemtica.

    3.1.2. Execuo

    Todos os trabalhos primrios obtidos atravs da string de busca (Apndice A tabela

    4) foram avaliados tomando por base os critrios de incluso e excluso definidos no

    protocolo de reviso. Neste processo, verificou-se o contedo dos estudos primrios

    considerando a seguinte ordem: ttulo, resumo, concluses e texto completo.

    Esta etapa permitiu que fossem selecionados apenas os estudos primrios relevantes

    para o contexto desta pesquisa. Foi construda uma lista de estudos, os quais forneceram as

    informaes e experincias que foram extradas para que o protocolo de reviso sistemtica

    fosse respondido. Neste momento, todos os trabalhos includos nesta lista tiveram o seu

    contedo completo analisado, para que nenhuma evidncia ou informao importante fosse

    desconsiderada.

    Neste ponto, foi necessrio verificar a consistncia da etapa de busca e seleo dos

    estudos primrios. Para tanto, os orientadores da pesquisa executaram a string de busca

    novamente nos repositrios de estudos primrios, selecionaram uma amostra dos trabalhos

    retornados com o intuito de confirmar os resultados obtidos pelo autor.

  • 27

    3.1.3. Resultado das Anlises

    Aps avaliao da execuo, os resultados foram sumarizados. Para tanto, um

    protocolo de apresentao de resultados foi criado, com a inteno de apresentar as

    informaes atravs de estruturas na forma de tabelas e grficos para facilitar a compreenso

    das concluses.

    Alm disso, foram apresentados os comentrios finais da reviso sistemtica,

    contendo a quantidade de trabalhos obtidos pela busca nos repositrios e a quantidade

    selecionada para a reviso, registro de qualquer tipo de tendncia de invalidao de busca,

    seleo e extrao que puderam influenciar os resultados da reviso sistemtica e o contexto

    em que o resultado da reviso sistemtica poder ser aplicado.

    3.2 Sntese do captulo

    A reviso sistemtica foi conduzida em trs etapas: planejamento que teve como

    marco a avaliao do planejamento, execuo que incluiu tambm uma avaliao da execuo

    e apresentao dos resultados. Sendo as etapas de avaliao realizadas em conjunto com os

    orientadores.

    As definies de como foi implementada a reviso sistemtica est no protocolo de

    reviso, o qual contm, com as perguntas a serem respondidas por este trabalho, os termos da

    string de busca e as fontes (IEEE e Capes) utilizadas para a identificao de estudos primrios

    e os critrios de incluso de artigos e a forma de apresentao dos resultados (grficos, tabelas

    e tpicos textuais).

  • 28

    4 Tcnicas de Processamento de Linguagem

    Natural Aplicadas ao Processo de Minerao

    de Textos

    Neste captulo so apresentados os resultados desta pesquisa, as tcnicas de PLN

    identificadas nas evidncias publicadas nos estudos primrios, bem como as

    vantagens e limitaes das tcnicas. Os grficos e tabelas apresentam a

    sumarizao das informaes sobre PLN e minerao de textos.

    A execuo da string de busca nas fontes selecionadas para o desenvolvimento desta

    pesquisa em 4 de abril de 2012 retornou um total de 74 trabalhos distribudos entre os anos de

    2002 e 2011, conforme apresentado na figura 3. O filtro aplicado atravs dos critrios de

    incluso e excluso dos estudos primrios ocorreu na seguinte sequencia de leitura:

    primeiramente utilizando o ttulo dos trabalhos, em seguinda o abstract, as concluses e por

    fim o texto completo, reduzindo o corpus inicial da pesquisa para 24 estudos como poder ser

    observado na figura 4.

    Atravs dos critrios de incluso e excluso foram retirados trabalhos que tratavam

    de resultados referentes a apenas um dos temas deste estudo, somente PLN ou somente

    minerao de textos. Tambm foram excludos estudos primrios que faziam somente

    referncia e citaes aos temas, que no tratavam de uma tcnica especfica ou cuja aplicao

    se dava em um idioma de estrutura diferente do ingls, como o chins e o grego. O ingls foi

    o idioma escolhido como critrio de escolha dos estudos primrios, pois os peridicos e

    eventos mais relevantes da rea publicam pesquisas principalmente neste idioma.

    Uma informao importante a ser considerada que quatro trabalhos potencialmente

    relevantes para a pesquisa no estavam acessveis nas bases e por isso no participaram da

    etapa de incluso e excluso de estudos da reviso sistemtica. Nestes trabalhos s estavam

    disponveis os resumos do texto, ou um esboo de apresentao do contedo.

  • 29

    Figura 3 Quantidade total de trabalhos retornados pela string de busca nas bases IEEE e Capes

    Fonte: Elaborada pelo autor (2012).

    Figura 4 Quantidade de estudos selecionados pelos critrios de incluso e excluso

    Fonte: Elaborada pelo autor (2012).

    Dentre os trabalhos selecionados, 42% (10/24) dos estudos eram de carcter terico

    ou conceitual e revises da literatura, 50% (12/24) apresentavam estudos de caso e 8% (2/24)

    dos trabalhos descreviam experimentos formais do uso de Processamento de Linguagem

    Natural em Minerao de Textos, conforme mostrado na figura 5.

    Figura 5 Quantidade de estudos selecionados estudo empregado.

    Fonte: Elaborada pelo autor (2012).

  • 30

    Quanto rea de aplicao dos estudos selecionados, 54% (13/24) dos trabalhos so

    da rea da Computao enquanto 46% (11/24) dos estudos primrios foram desenvolvidos na

    rea mdica (figura 6).

    Como evidncias na rea da medicina, podem-se citar os trabalhos relacionados com

    a minerao de abstracts de trabalhos publicados em um repositrio de artigos mdicos,

    identificao e classificao de termos mdicos, minerao da descrio de protenas, dentre

    outras aplicaes.

    No caso especfico de aplicao na rea da computao, foram identificados estudos

    que exploraram as tcnicas de processamento de linguagem natural associadas minerao de

    textos para realizar desambiguao de elementos em textos, anlise semntica, consulta a

    banco de dados estruturados atravs de querys em linguagem natural, representao de

    imagens atravs de textos extrados de legendas e sumarizao de documentos para

    construo semi-automtica de apresentaes.

    Figura 6 Quantidade de estudos por rea de aplicao.

    Fonte: Elaborada pelo autor (2012).

    De acordo com a base na qual os trabalhos foram encontrados, os anais de

    conferncias forneceram 54% (13/24) e os peridicos 46% (11/24) dos estudos primrios

    selecionados pelo critrio de incluso e excluso da reviso sistemtica.

    Foram identificadas pesquisas sobre o tema em 11 pases, sendo 42% (10/24) dos

    trabalhos de autoria dos Estados Unidos, 17% (4/24) da Inglaterra, 8% (2/24) da India e 29%

    (7/24) dos trabalhos somados por Frana, Brasil, Japo, China, Alemanha, Equador e Irlanda

    (um trabalho para cada pas, ou seja, 4%). Por fim, em 4% (1/24) dos trabalhos no foi

    identificada a localizao geogrfica dos pesquisadores. Esta informao foi derivada atravs

  • 31

    da consulta da instituio a qual os autores do estudo estavam filiados. A Figura 6 apresenta a

    distribuio dos estudos primrios por pas de origem.

    Figura 6 Distribuio dos estudos por pas.

    Fonte: Elaborada pelo autor (2012).

    4.1 Foco das Pesquisas Primrias

    Os trabalhos selecionados para a reviso sistemtica fazem uso de Processamento de

    Linguagem Natural para minerar textos com a inteno de prover o desenvolvimento de

    diversas atividades. Dentre estas atividades, esto a extrao de conhecimento em dados do

    tipo textual, representao do contedo de documentos, classificao de textos, busca em

    textos e outros processos semnticos. Deve-se ressaltar que estes processos no

    necessariamente ocorrem de forma isolada, tendo sido encontradas evidncias de experincias

    que combinam estas atividades, dependendo do resultado desejado.

    4.1.1 Extrao de conhecimento em textos

    A extrao de conhecimento em textos uma evidncia que pode ser descrita como a

    atividade na qual os pesquisadores procuram retirar informaes de um documento para

    aplicao em um dado contexto e a identificao de padres em documentos, por exemplo,

    que termo est geralmente associado a determinado tema, ou contedo.

    Neste processo deve-se considerar a importncia do PLN para a desambiguao de

    termos, a combinao de sinnimos e a importncia de palavras que descrevem o mesmo

    sentido. Extrair conhecimento em textos requer elementos tericos da rea da Lingustica, no

  • 32

    sentido de que palavras pertencentes a uma sentena devem ser capturadas sem perder a sua

    representatividade lxica, sinttica e semntica no contexto.

    Dentre as experincias de extrao de conhecimento, foram encontradas aplicaes

    de processamento de textos para minerar abstracts de trabalhos cientficos a fim de descobrir

    a relevncia de determinada pesquisa, alm de evidncias de utilizao de PLN para

    reconhecimento, interpretao e processamento de opinies e sentimentos escritos em

    linguagem natural.

    4.1.2 Representao do contedo de documentos

    Considerando que a maior parte dos documentos disponvel na web processvel,

    mas no entendveis por mquinas, os estudos primrios apontam que a atividade de

    representao da informao relevante em textos, continua sendo uma tarefa complicada. Um

    problema comum deste tpico a representao de um documento extenso atravs de apenas

    uma frase, ou um conjunto de termos que determinem o contedo do texto.

    Neste contexto, utiliza-se geralmente uma abordagem na qual palavras-chave

    frequentemente encontradas no texto pode representar o contedo de um documento por

    completo. No entanto, essa tcnica conhecida como keywording pode apresentar problemas,

    principalmente se for considerado o relacionamento direto entre a incidncia de uma palavra

    no contexto e a sua importncia, alm do efeito produzido pela ambiguidade dos termos do

    documento.

    Ao se aplicar tcnicas de Processamento de Linguagem Natural para minerar textos a

    fim de representar o contedo presente em documentos, pode-se realizar indexao dos

    termos de forma mais significativa, reduzindo consideravelmente o grau de ambiguidade entre

    as palavras encontradas e aumentando a eficcia da recuperao da informao necessria na

    representao dos documentos.

    4.1.3 Classificao de textos

    Pode-se definir a atividade de classificao de textos, como a distribuio de um

    conjunto de documentos em categorias distintas, dependendo da informao contida no texto.

    Esta evidncia envolve as pesquisas da rea mdica que na ltima dcada apresentou um

  • 33

    considervel crescimento de novos termos (palavras), criados para a definio de conceitos

    recm-identificados ou variaes de termos j existentes na literatura. Nesta realidade, a

    terminologia um elemento essencial, pois atravs dela pode-se desenvolver o estudo dos

    termos e as suas aplicaes em contextos especficos.

    Este tipo de estudo permite que palavras possam ser reconhecidas, conectadas e

    organizadas em categorias de termos formando classes de palavras e estruturas do tipo rede de

    termos, em sistemas de armazenamento de produes bibliogrficas, por exemplo. No

    entanto, para que novos termos descobertos sejam adicionados a uma estrutura j existente, a

    classificao baseada no significado o primeiro passo para a construo de estruturas

    semnticas que possuam associaes entre as palavras atravs de links para identificao de

    termos correlacionados e generalizao de sinnimos na mesma classe.

    Assim, tcnicas automticas de reconhecimento e classificao de termos podem

    auxiliar o processo de criao e manuteno de sistemas de armazenamento de documentos

    atravs da especificao da terminologia dos termos, sobretudo na rea mdica, na qual

    tcnicas manuais no conseguem lidar com a classificao do nmero crescente de termos e

    da estrutura complexa de terminologias biomdicas.

    4.1.4 Busca de informaes em textos

    Na busca de conceitos e informaes em textos, as abordagens para a captura da

    informao semntica ainda envolvem intermedirios humanos, exigindo tarefas como a

    etiquetagem de termos. Entretanto, a utilizao de tcnicas de PLN e minerao de textos

    pode melhorar o processamento de investigao de informaes em dados textuais.

    A evidncia encontrada neste contexto pela reviso sistemtica trata de um sistema

    de perguntas e respostas que se utiliza da minerao e do PLN para buscar em um documento

    de texto a resposta mais coerente, dada uma determinada pergunta. A busca ocorre dentro do

    texto e identifica que pargrafo pode ser utilizado como resposta da questo.

    Desta forma, ao invs de buscas feitas por palavras-chave, podem ser buscados

    termos relacionados com os de uma consulta realizada, considerando a semntica e tambm

    questes de ambiguidade de palavras e sinnimos, dentre outras caractersticas que possam

    deixar a busca mais parecida com a linguagem natural.

  • 34

    4.2 Respostas para as questes da reviso sistemtica

    Nesta seo so apresentadas as respostas para as perguntas definidas no protocolo

    de reviso sistemtica, que foram definidas atravs das evidncias observadas nas

    experincias publicadas nos estudos primrios selecionados para a reviso.

    4.2.1 Quais so as tcnicas, algoritmos ou estruturao de dados

    utilizados pelo PLN esto sendo aplicadas na minerao de

    textos?

    Por meio da anlise das evidncias encontradas na metodologia, nos resultados e nas

    concluses dos estudos primrios, pde-se elaborar uma lista (Tabela 1) de tcnicas,

    algoritmos e estruturao de dados usados em PLN e aplicados na minerao de textos para

    resolver questes de extrao, representao, busca e classificao dos estudos primrios.

    No entanto, deve-se salientar que nem todos os trabalhos primrios mostram de

    forma detalhada o uso da tcnica, muitas vezes ocultando informaes como a forma com a

    qual os dados textuais so estruturados ou como a tcnica foi avaliada e escolhida para o

    estudo.

    A sigla PLNMT utilizada neste estudo para indicar a ordem a qual o artigo foi

    includo atravs dos critrios da reviso sistemtica.

    Tabela 1 Tcnicas identificadas pela reviso sistemtica.

    Tipo Nome Trabalho primrio

    Tcnica Stemming [PLNMT 8]

    Vetores [PLNMT 1] [PLNMT 4]

    [PLNMT 12]

    Raciocnio Baseado em Casos [PLNMT 7]

    Term Connection [PLNMT 6]

    Teoria da Possibilidade [PLNMT 13]

    Latent Semantic Indexing [PLNMT 14]

    Algoritmo Agrupamento de Markov [PLNMT 12]

  • 35

    Naive Bayes [PLNMT 7] [PLNMT 10]

    Estruturao Gramtica Livre de Contexto [PLNMT 5]

    rvore [PLNMT 3]

    Ontologia [PLNMT 1] [PLNMT 2] [PLNMT 3]

    [PLNMT 7] [PLNMT 9]

    [PLNMT 11] [PLNMT 14] [PLNMT 15]

    [PLNMT 16] [PLNMT 17]

    [PLNMT 18] [PLNMT 19] [PLNMT 20]

    [PLNMT 21] [PLNMT 22]

    [PLNMT 23] [PLNMT 24]

    Fonte: Elaborada pelo autor (2012).

    4.2.2 De que formas so aplicadas?

    Stemming

    Stemming uma tcnica a aplicada s listas de palavras-chave para remover termos

    no descritivos e concentrar palavras relacionadas em um determinado contexto. Assim, o

    texto pr-processado para a remoo de capitalizao, pontuao e strings que contm

    caracteres especiais. Permite inferir diferentes formas para uma mesma palavra mapeada e

    com isso possvel encontrar mais informaes sobre um mesmo tpico sem a necessidade do

    uso de variaes lingusticas (plural, flexo de gnero e nmero, entre outros).

    Presente em somente um estudo, do total de pesquisas analisadas pela reviso

    sistemtica, pode-se observar a utilizao desta tcnica em experincias que visam extrair

    informaes e padres em textos atravs do mapeamento e anlise da frequncia com que

    termos so encontrados em documento.

    Um exemplo simples da aplicao da tcnica a reduo dos termos "fishing",

    "fished", "fish", "fisher" para o radical comum "fish".

  • 36

    Vetores

    Seja C um conjunto finito de conceitos, ento um vetor conceitual V a combinao

    linear desses elementos. Por exemplo, os diferentes significados do elemento porta no vetor V

    podem ser projetados pelos seguintes conceitos (CONCEITO [intensidade da ocorrncia]):

    V(porta) = (ABERTURA [0,3], BARREIRA [0,31], PORTO [0,33], EXTERIOR [0,35],

    INTERIOR [0,37]). Na prtica, o maior conceito o que tem maior significado para o

    contexto e podem ser utilizadas as operaes comuns entre vetores.

    Esta tcnica eficiente em atividades de classificao temtica de termos, podendo

    ser aplicada na substituio de palavras e na aproximao semntica, pois possui resultados

    bastante satisfatrios com sinnimos e antnimos de palavras. Alm disto, a aplicao dos

    vetores pode acontecer de forma isolada e tambm apoiado a outras tcnicas como o

    algoritmo de naive bayes e a aplicao de regras.

    Raciocnio Baseado em Casos

    Por ser baseada na lembrana de experincias especficas que possam ser teis para

    que o problema (caso) a ser resolvido, nesta tcnica aplica-se a hiptese de que problemas

    similares tendem a ter solues semelhantes. Portanto, a avaliao dessa similaridade a

    chave desta tcnica. A avaliao depende do domnio do problema e da representao, aonde

    cada caso corresponde a uma resposta e necessrio aproximar matematicamente as solues.

    Raciocnio baseado em casos particularmente eficiente para resoluo de

    problemas de classificao de termos, sobretudo quando o contexto rene elementos da

    linguagem natural. Pode ser usado como um mecanismo inteligente para processamento de

    texto, minerao e recuperao da informao.

    Esta tcnica esteve associada ao uso de ontologias e do algoritmo naive bayes e foi

    observada em apenas uma pesquisa primria que tratou da classificao de documentos de

    uma base mdica.

    Term Connection

    Atravs desta tcnica o processamento ocorre primeiramente com o reconhecimento

    da estrutura do texto, depois com a execuo da desambiguao das palavras e, por fim, com

    o significado semntico dos termos. A Term Connection fundamentada no princpio de que

  • 37

    se deve averiguar significados semnticos inerentes dos termos ao fazer anlise do contexto

    semntico de acordo com a ordem da associao das palavras.

    A tcnica denotada por P = {ta, R, tb}, sendo ta e tb a representao dos termos da

    sentena e ta a palavra que aparece antes de tb. Neste esquema, R o relacionamento entre

    estes dois termos e representa o significado da relao dos termos num contexto especfico.

    Assim possvel determinar quais so os termos principais e quais so os termos

    subordinados em uma sentena qualquer.

    A Term Connection foi uma tcnica observada em apenas um estudo primrio, dentre

    o total coletado pela reviso sistemtica, e foi associada a estruturas como rvores, grafos e

    mquinas de estado, aplicada no contexto da representao da informao contida em

    documentos.

    Teoria da Possibilidade

    Esta tcnica foi utilizada em apenas um estudo primrio, no processo de extrao do

    significado e das informaes contidas em documentos em linguagem natural que pertencem

    a um conjunto de domnios especficos. Os textos em linguagem natural so divididos em trs

    unidades (sujeito - verbo objeto) que so representadas na forma de palavras-chave e

    posteriormente agrupadas como eventos.

    A tcnica analisa, por exemplo, dadas duas sentenas O ser humano um primata

    e Ns podemos ser felizes, a ocorrncia do termo ser nos dois eventos e a probabilidade

    do termo fazer parte do conjunto de sujeitos ou de predicados das sentenas encontradas no

    texto.

    Latent Semantic Indexing

    A tcnica encontrada em apenas um estudo primrio usada para lidar com

    imperfeies deixadas pelas ontologias no processo de extrao de conhecimento. O texto

    estruturado de modo a eliminar todos os tipos de pontuao, formando assim um documento

    somente com termos ou palavras-chave. Estas palavras so utilizadas para formar uma matriz

    de termos e a cada termo atribudo um peso para mostrar a importncia desse elemento.

  • 38

    Algoritmo de Agrupamento de Markov

    As evidncias consideram este algoritmo muito rpido e escalvel, sendo aplicado

    como forma de evitar o uso direto de PLN. O algoritmo foi aplicado para representar o

    relacionamento entre os termos atravs do agrupamento de grafos formados por termos

    provenientes de vetores e, desta forma, extrair informaes de documentos e criar uma lista

    indexada com dados de cada texto processado. Este algoritmo complementado por outras

    tcnicas de PLN, como o raciocnio baseado em casos e o algoritmo de classificao nayve

    bayes, e foi observado em apenas dois estudos primrios.

    Algoritmo Naive Bayes

    O algoritmo de classificao Naive Bayes aplicado para maximizar a probabilidade

    de um determinado termo poder ser associado a uma classe especfica baseada nas suas

    caractersticas e na caracterstica da classe. A aplicao do algoritmo foi observada em dois

    estudos primrios, e em ambos foi utilizado como uma abordagem complementar de outras

    tcnicas, como apoio da tcnica de raciocnio baseado em casos ou como fator de otimizao

    dos resultados obtidos por ontologias.

    Ontologias

    No processamento de linguagem natural atravs de ontologias, as palavras so

    agrupadas e classificadas segundo uma ontologia de domnio (domain-specific ontology), de

    forma que as sequncias que tiverem o mesmo significado apresentem a mesma

    representao. As tarefas que envolvem o uso de ontologias em processamento de textos so:

    Extrao do domnio relevante da terminologia e sinnimos;

    Descoberta de conceitos que podem ser considerados como abstraes do pensamento

    humano e derivar uma hierarquia de conceitos para organiza-los;

    Extenso da hierarquia de um conceito existente adicionando novos conceitos;

    Aprendizagem no-taxonmica de relacionamentos;

    Extrao do domnio relevante da terminologia e sinnimos;

    Extrao de instncias de relaes e conceitos;

  • 39

    Descoberta de outras relaes axiomticas ou regras que envolvem conceitos e

    relaes.

    Foi observado que outras tcnicas so utilizadas em conjunto com as ontologias,

    como aconteceu com as tcnicas de raciocnio baseado em casos e a tcnica latent semantic

    indexing. A ontologia pode utilizar tambm abordagens complementares ao seu escopo, como

    o algoritmo de classificao naive bayes e as rvores semnticas e outras tcnicas ou

    envolvimento humano para estruturao de dados.

    rvores

    A rvore aplicada para representar relacionamentos lgicos entre as palavras em

    uma sentena. Atravs dos estudos primrios pde-se perceber que este tipo de estrutura

    associado a ontologias de domnio pode ser utilizado para extrair informaes de um

    determinado contexto.

    Gramtica Livre de Contexto

    As regras da Gramtica Livre de Contexto so usadas como analisador para detectar

    frases e termos-chave que possam representar um documento de texto, dado que a maioria das

    estruturas do texto de linguagem natural pode ser eficazmente descrita usando gramtica livre

    do contexto.

    Como as palavras podem ter mltiplos sentidos (como substantivo, verbo, adjetivo),

    o analisador deve consultar todas as combinaes possveis de sentidos dos termos, antes de

    realizar anlises em nvel de sentena. Neste esquema, os espaos em branco podem ser

    usados como delimitadores.

    Um exemplo simples de uma regra que pode ser criada para representar uma

    sentena atravs da gramtica livre de contexto S-> Art Subst V Adj. Ou seja, qualquer

    frase formada por um artigo, seguido de um substantivo e posteriormente de um verbo e um

    adjetivo, pode ser representada por esta regra. No entanto, seria necessria a criao de vrias

    outras regras que processassem as diversas formas em que as sentenas poderiam aparecer no

    documento.

  • 40

    4.2.3 Quais so as vantagens e as limitaes observadas pelas

    pesquisas primrias?

    Embora alguns autores no apresentem explicitamente as vantagens e limitaes do

    uso das tcnicas quando aplicadas para resolver questes de processamento de textos, foi

    possvel analisar os resultados e as concluses dos estudos primrios e extrair algumas

    informaes relevantes neste contexto.

    A Tabela 2 abaixo mostra resumidamente as vantagens e limitaes das tcnicas

    usadas nos trabalhos analisados. Apesar de apresentar vantagens relevantes, algumas das

    tcnicas identificadas s foram aplicadas em um nico estudo primrio, ou seja, existem

    poucas evidncias que comprovem realmente o efeito da tcnica no contexto do

    processamento de linguagem natural, diferentemente no caso de ontologias (tcnica recorrente

    em muitos estudos).

    Pode-se, no entanto, apresentar uma lista mais detalhada de vantagens e

    desvantagens de algumas tcnicas, segundo os relatos nos estudos primrios:

    Apesar de oferecer uma grande reduo do conjunto de dados textuais a serem

    processados, stemming uma tcnica que necessita de maior investigao, pois ao

    final do seu processamento muitos radicais idnticos podero ser produzidos,

    principalmente quando verbos so processados. Alm disso, outro problema que pode

    surgir a formao de radicais que no representem o conjunto total de palavras

    derivadas do termo;

    A tcnica que utiliza vetores funciona muito bem para vetores que foram calculados a

    partir de definies hipernicas. Mas para termos muito gerais a eficincia do vetor

    reduzida;

    Mesmo exigindo muitos recursos e esforos, a tcnica de raciocnio baseado em casos

    tem uma grande vantagem que a capacidade de aprender atravs do armazenamento

    de problemas de classificao recentemente resolvidos;

    A tcnica baseada em term connection coloca nfase na anlise semntica, comeando

    com a anlise de sentena e, posteriormente, do discurso, sendo capaz de processar

    aparies irregulares da linguagem em textos reais como da poesia;

  • 41

    A aplicao da teoria da possibilidade apresentou bons resultados no estudo primrio,

    porm o problema dos dados esparsos foi observado. Este problema comum em

    tcnicas estatsticas usadas em PLN, pois mesmo grandes colees de texto podem no

    gerar estimativas confiveis da probabilidade de eventos;

    O algoritmo de agrupamento de Markov tem como vantagens o fato de ser no-

    supervisionado, rpido e escalvel. No entanto, o algoritmo ao ser aplicado adequado

    a um contexto especfico de dados, podendo se tornar ineficiente em outro;

    No caso das ontologias, pode-se inferir que atravs delas a informao necessria e

    adquirida atravs de textos em linguagem natural pode ser armazenada de modo no

    ambguo em formato padronizado, o que descreve o conhecimento em um modelo

    formal. Alm disso, ontologias permitem a indexao semntica e a recuperao da

    informao, fornecendo meios de fuso de dados por sinnimos ou conceitos definidos

    usando vrias descries. A tcnica pode apresentar, no entanto, necessidade de

    melhoria contnua no sentido de aprimorar o modelo em aspectos de escopo,

    relacionamentos ou granularidade.

    Tabela 2 Vantagens e limitaes das tcnicas identificadas.

    Nome Vantagem Limitao

    Stemming Reduo do tamanho de

    dados textuais

    Pouca clareza e necessidade

    de maior investigao

    Vetores Bons resultados para termos

    hipernimos

    Pouco eficiente para

    contextos genricos

    Raciocnio Baseado

    em Casos

    Aprendizagem incremental

    Muitos recursos requeridos

    Term Connection nfase na semntica No identificado

    Teoria da

    Possibilidade

    Boa performance

    Dados esparsos

    Latent Semantic

    Indexing

    Lida com imperfeies da

    ontologia

    No identificado

    Agrupamento de

    Markov

    Mtodo no-supervisionado

    Dependente de contexto

    Naive Bayes Potencializa o poder de

    outras tcnicas

    No identificado

    Gramtica Livre de

    Contexto

    Mais eficiente que mtodos

    estatsticos

    No aplica semntica aos

    dados

    rvore

    No identificado Relevante quantidade de

    erros identificados

    Ontologia

    Flexibilidade de aplicao

    em diversos contextos:

    extrao, classificao,

    Pode requerer melhoria

    contnua

  • 42

    busca, dentre outros. Fonte: (Elaborada pelo autor, 2012)

    Alm das evidncias apresentadas acima, pode-se concluir que outra grande

    vantagem do uso de ontologias est no fato da tcnica possuir vrias experincias publicadas

    em diversos aspectos da minerao de textos em linguagem natural ao longo da ltima

    dcada. Enquanto isso, outras tcnicas no foram muito exploradas no mesmo perodo, apesar

    de apresentarem relevantes vantagens.

    4.2.4 Qual a tcnica mais recorrente?

    Pode-se perceber que a ontologia a tcnica de PLN mais utilizada para minerao

    de texto na ltima dcada (tabela 3), sendo aplicada em quase todos os anos durante o perodo

    composto entre 2001 e 2011. Neste intervalo, a tcnica foi aplicada tanto como nica

    abordagem, quanto foi complementada com outras tcnicas identificadas.

    Outras abordagens identificadas nos estudos primrios, apesar de oferecerem grandes

    vantagens e resultados satisfatrios, no possuem tanta incidncia de utilizao quantos as

    ontologias. Alm disso, em alguns casos como das tcnicas de stemming, rvores e a

    gramtica livre de contexto, a aplicao ocorreu apenas uma vez e no incio do perodo

    compreendido pelo estudo.

    Tabela 3 Distribuio das tcnicas por ano.

    Tcnica 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011

    Stemming

    Vetores

    RBC

    Term Connection

    T. Possibilidade

    LSI

    Markov

    Naive Bayes

    GLC

    rvore

  • 43

    Ontologia

    Fonte: Elaborada pelo autor (2012).

    Assim, as evidncias mostram que as ontologias tm sido frequentemente utilizadas

    ao longo dos 10 anos compreendidos pela reviso sistemtica, sendo que, nos ltimos 3 anos,

    as pesquisas identificas envolveram somente a aplicao desta tcnica. As ontologias foram

    aplicadas em mais da metade dos trabalhos analisados para a extrao de informao de dados

    no-estruturados, para representao do contedo de textos, para realizar buscas em

    documentos e tambm no processo de classificao de textos.

    A razo para a popularidade da aplicao tcnica para minerar textos em linguagem

    natural o fato das ontologias proverem um vocabulrio para representao do conhecimento

    e um conjunto de conceitos que o sustenta, impedindo desta maneira que interpretaes

    ambguas ocorram.

    Alm disso, a ontologia permite que uma definio exata da informao seja

    estabelecida, possibilitando assim sua escrita em linguagem formal, evitando que espaos

    semnticos existentes na linguagem natural sejam processados de modo equivocado. Ou seja,

    uma determinada palavra mapeada em uma ontologia de domnio especfico no ter outro

    significado.

    4.2.5 Existe alguma experincia do uso de PLN aplicado minerao

    de textos postados em redes sociais virtuais?

    Ao longo da ltima dcada no foram encontradas pesquisas que abordassem o uso

    de tcnicas de processamento de linguagem natural para minerar textos postados em redes

    sociais virtuais. No entanto, mesmo no tendo sido evidenciada diretamente a aplicao das

    tcnicas de PLN especificamente em redes sociais, existe uma evidncia que apresenta

    informaes de relativamente importncia neste contexto.

    O trabalho [PLNMT 21] trata de um paradigma conhecido como Sentic Computing,

    um novo paradigma de minerao e anlise de opinio e sentimento que explora tcnicas da

    Inteligncia Artificial e da Web Semntica para melhor reconhecer, interpretar e processar as

    opinies e sentimentos em um texto de linguagem natural. Baseado em ontologias, o

    processamento textual interpreta os mais comuns indicadores de valncia afetiva contidos em

  • 44

    linguagem natural, como por exemplo, pontuao especial, palavras de exclamao, advrbios

    de grau e emoticons. A tcnica foi utilizada em uma experincia para extrair informao

    estruturada diretamente a partir de opinies de pacientes de um site.

    Atravs da anlise deste estudo conclui-se que este mtodo baseado em ontologias

    poderia ser utilizado para minerar postagens em redes sociais virtuais, uma vez que a forma

    de interao dos usurios em redes sociais virtuais acontece de forma natural, aonde

    predominam opinies e sentimentos nos textos postados em fruns de discusso, comunidades

    ou mensagens trocadas diretamente com outro usurio.

    Para tal, pode-se utilizar a estrutura de modo a construir conceitos e fornecer, para

    cada um deles, a freqncia relativa e a ocorrncia do conceito no texto, sua conotao

    (positiva ou negativa), e o grau de intensidade com que o conceito expresso.

    4.3 Sntese do captulo

    A execuo da string de busca nas fontes selecionadas para o desenvolvimento desta

    pesquisa em 4 de abril de 2012 retornou um total de 74 trabalhos distribudos entre os anos de

    2002 e 2011. O filtro realizado atravs dos critrios de incluso e excluso dos estudos

    primrios reduziu o corpus inicial da pesquisa com 24 estudos.

    Os trabalhos selecionados para a reviso sistemtica fazem uso de Processamento de

    Linguagem Natural para minerar textos com a inteno de prover o desenvolvimento de

    diversas atividades como a extrao de conhecimento em dados do tipo textual, representao

    do contedo de documentos, classificao de textos, busca em textos e outros processos

    semnticos.

    Por meio da anlise das evidncias encontradas na metodologia, nos resultados e nas

    concluses dos estudos primrios pde-se elaborar uma lista de tcnicas, algoritmos e

    estruturao de dados usados em PLN e aplicadas na minerao de textos: stemming, vetores,

    raciocnio baseado em casos, term connection, teoria da possibilidade, latent semantic

    indexing, agrupamento de Markov, naive bayes, gramtica livre de contexto, rvores e

    ontologias.

    Destas tcnicas, a ontologia se mostrou a mais eficiente, primeiramente por ter sido

    aplicada em diversos contextos ao longo de uma dcada e segundo pelas suas caractersticas,

  • 45

    sendo capaz de armazenar textos de modo no ambguo em formato padronizado e de realizar

    a indexao semntica e a recuperao da informao, fornecendo meios de fuso de dados

    por sinnimos ou conceitos definidos. No entanto, a tcnica pode apresentar a necessidade de

    melhoria contnua no sentido de aprimorar o modelo em aspectos de escopo, relacionamentos

    ou granularidade.

    No foi identificada nenhuma experincia de aplicao de PLN e minerao de

    textos para redes sociais virtuais, porm uma importante evidncia foi observada com o uso

    de ontologias aplicadas no contexto de Sentic Computing para minerao de opinies e

    sentimentos de usurios em um site, informaes relevantes ao se considerar a minerao de

    publicaes em redes sociais virtuais as quais ocorrem de modo semelhante.

    Assim, pde-se perceber que a ontologia a tcnica de PLN mais utilizada para

    minerao de texto na ltima dcada, sendo aplicada em quase todos os anos durante o

    perodo composto entre 2001 e 2011.

  • 46

    5 CONCLUSO

    Neste captulo apresentam-se as consideraes finais sobre o trabalho

    desenvolvido nesta monografia. Na seo 5.1 so apresentas as consideraes

    finais sobre o trabalho. Na seo 5.2 so descritas as contribuies desta

    monografia e na seo 5.3 algumas propostas para trabalhos futuros.

    5.1 Consideraes finais

    Esta reviso sistemtica foi realizada tendo com base os 24 estudos primrios

    selecionados atravs de critrios de incluso e excluso dentre 74 trabalhos que foram

    retornados pela string de busca. As perguntas de pesquisa da reviso sistemtica

    definidas no protocolo foram todas respondidas, exceto no caso do uso de tcnicas de

    processamento de linguagem natural na minerao de redes sociais virtuais. Neste caso

    particular, no foi identificado nenhum estudo que tratasse exclusivamente deste tema,

    porm um dos trabalhos fazia grande referncia a um contexto similar ao das redes

    sociais virtuais, a minerao de opinio e sentimentos.

    Foram identificadas um total de 11 tcnicas utilizadas para extrao de padres

    e conhecimentos em textos, bem como para a representao de contedo, busca e

    classificao de termos. Dentre estas tcnicas, a que apresentou maiores vantagens foi a

    ontologia, aplicada para processar textos em linguagem natural durante toda a dcada

    compreendida por este estudo. A tcnica pode, inclusive, ser aplicada para minerao de

    textos de redes socias, um contexto em que predominam postagens com opinies e

    expresses de sentimento.

    Para tal, deve-se considerar a importncia do planejamento do domnio da

    ontologia, de modo a evitar a presena de palavras ambiguas. A melhor forma de desviar

    os problemas com ambiguidade de termos no processamento de linguagem natural

    criando um domnio consistente, no qual os conceitos existentes e as suas relaes

    possam representar cada termo de forma nica, evitando os casos com lacunas existentes

    na natureza da semntica das palavras.

  • 47

    Pode-se considerar ainda o uso de tcnicas complementares que possam ampliar

    a capacidade do processamento de textos com ontologias. O uso do algoritmo de

    classificao nayve bayes poder aumentar a probabilidade de um determinado termo

    pertencer a um domnio. A tcnica latent semantic indexing capaz de lidar com

    algumas das imperfeies geradas pela definio do domnio da ontologia. E finalmente,

    a tcnica term conection que pode lidar com irregularidades nos textos. Neste ltimo

    caso a associao com as ontologias poderia produzir melhores resultados no

    processamento de textos de redes sociais, no entanto faz-se necessaria a elaborao de

    um estudo para investigar essa combinao de tcnicas.

    Ainda deve-se destacar a grande incidncia de pesquisas em minerao de

    textos e processamento de linguagem natural na rea mdica, cujo principal interesse est

    voltado para a extrao automtica de conhecimento em estudos empricos da rea e a

    classificao e organizao das bases textuais que guardam os trabalhos e experimentos

    publicados.

    Uma limitao recorrente nesta pesquisa foi contedo disponibilizado pelos

    autores nos textos dos estudos primrios, nos quais muitas vezes as informaes sobre as

    tcnicas foram ocultadas ou transmitidas de forma incompleta. Isto resultou em poucos

    dados para elaborar uma discusso mais aprofundada em alguns casos particulares, como

    na aplicao de rvores e do algoritmo de Markov para processar linguagem natural.

    5.2 Contribuies deste trabalho

    Este trabalho apresentou como principal contribuio uma viso geral da

    aplicao de tcnicas diversas para o processamento de linguagem natural e minerao

    de textos. Neste sentido, apresentada uma lista com todas as tcnicas identificadas, o

    contexto, a forma de aplicao e estruturao de dados e suas tendncias, alm de

    vantagens e limitaes do uso de cada tcnica.

    Os resultados da pesquisa oferecem ainda contribuio para as reas de PLN,

    minerao de textos e tambm para o universo das redes sociais virtuais, no que se refere

    a extrao de postagens feitas por usurios, identificao de padres de relacionamento

    ou recomendao de contedo. Alm disso, os achados deste estudo podem se utilizados

  • 48

    como guia na seleo e aplicao de tcnicas de PLN para minerao de textos em

    diversas situaes.

    5.3 Proposta para trabalhos futuros

    A continuidade deste estudo prev ainda a execuo da mesma string de busca

    em outras bases conceitudas para identificao de mais trabalhos e posteriormente de

    mais evidncias que complementem os resultados obtidos at o momento. Alm disso,

    essa atividade prev a busca manual em conferncias especficas da rea de PLN e

    minerao de textos e a incluso das pesquisas realizadas em 2012, e tambm de estudos

    publicados em portugus.

    Em longo prazo pretende-se intensificar as pesquisas na rea criando estratgias

    prticas e especficas de aplicao dos resultados desta reviso sistemtica. Para tal,

    sero realizados estudos para criao e aplicao de ontologias de domnio para

    minerao de textos em uma rede social especfica e tambm em documentos de

    requisitos de software. Alm disso, sero definidos estudos que possam produzir

    resultados sobre o uso combinado de ontologias com outras tcnicas complementares

    como nayve bayes, latent semantic indexing e term conection.

    Por fim, outras discusses devero ser criadas para ampliar o entendimento do

    uso das outras tcnicas apresentadas neste trabalho, sobretudos aquelas que apresentaram

    bons resultados nas evidncias dos estudos primrios e que, no entanto, no foram

    exploradas com tanta intensidade na ltima dcada. Neste contexto pode-se destacar a

    tcnica stemming e a gramtica livre de contexto.

  • 49

    REFERNCIAS

    ARANHA, C. N. Uma Abordagem de Pr-Processamento Automtico para Minerao

    de Textos em Portugus: Sob o Enfoque da Inteligncia Computacional. Tese (Doutorado

    em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio de Janeiro, 2007.

    BIOLCHINI, J.; MIAN, P. G.; NATALI, A. C. C.; TRAVASSOS, G. H. Systematic Review

    in Software Engineering. . Relatrio Tcnico (Programa de Engenharia de Sistemas e

    Computao) Universidade Federal do Rio de Janeiro UFRJ Rio de Janeiro, 2005.

    BOYD, Danah M.; ELLISON, Nicole B. Social Network Sites: Definition, History, and

    Scholarship. Journal of Computer-Mediated Communication. V. 13, n. 1, article 11, 2007.

    BRITO, R. F.; PEREIRA, A. T. C. Um Estudo para Ambientes Colaborativos e suas

    Ferramentas. Anais do Congresso Nacional de Ambientes Hipermdia para Aprendizagem.

    Anais... Santa Catarina, 2004.

    BULEGON, H.; MORO, C. M. C. Minerao de texto e o processamento de linguagem

    natural em sumrios de alta hospitalar. Journal of Health Informatics, 2010.

    CAVALCANTI, T. R; SILVA, F. Q. B. Historical, Conceptual, and Methodological Aspects

    of the Publications of the Brazilian Symposium on Software Engineering: A Systematic

    Mapping Study. Anais do 25th Brazilian Symposium on Software Engineering (SBES).

    Anais... So Paulo, 2011.

    CERQUEIRA, A. D. O.; DINIZ, A. M.; DORTA, C.; KUNIYOSHI, P. S. Implementao de

    Buscas Utilizando Linguagem Natural Atravs de Algoritmos Adaptativos. Trabalho de

    Concluso de Curso - Escola Politcnica da Universidade de So Paulo, 2010.

    CORREIA NETO, J.S.; SILVA, A.A.B.; FONSECA, D. Sites de Redes Sociais Corporativas:

    entre o pessoal e o profissional. In: EnADI, 3., 2011, Porto Alegre-RS. Anais. Porto Alegre-

    RS, III EnADI, 2011.

    GOMES, R. M. Minerao de Textos na Desambiguao de Sentido de Palavras Dirigida

    por Tcnicas de Agrupamento sob o Enfoque da Minerao de Textos. Dissertao

    (Mestrado em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio de Janeiro, 2009.

    KITCHENHAM, B.; DYB, T.; JRGENSEN, M. Evidence-based Software Engineering.

    26th International Conference on Software Engineering, (ICSE 04), Proceedings. IEEE, Washington DC, USA, pp 273 281, 2004.

    LADEIRA, A. P. Processamento de Linguagem Natural: Caracterizao da Produo

    Cientfica dos Pesquisadores Brasileiros. Tese (Doutorado em Cincia da Informao)

    Universidade Federal de Minas Gerais, Belo Horizonte, 2010.

    MACHADO, A. P.; FERREIRA, R.; BITTENCOURT, I. I.; ELIAS; E.; BRITO, P.; COSTA,

    E. Minerao de Texto em Redes sociais virtuais Aplicada Educao a Distncia. Revista

    Digital da CVA - Ricesu, ISSN 1519-8529, v. 6, n. 23, Julho de 2010.

  • 50

    MAFRA, S. N.; TRAVASSOS, G. H. Estudos Primrios e Secundrios Apoiando a Busca

    por Evidncia em Engenharia de Software. Relatrio Tcnico (Programa de Engenharia de

    Sistemas e Computao) Universidade Federal do Rio de Janeiro UFRJ Rio de Janeiro, 2006.

    MIAN, P.; CONTE, T.; NATALI, A.; BIOLCHINI, J.; MENDES, E.; TRAVASSOS, G. H.

    Lessons Learned On Applying Systematic Reviews To Software Engineering. 3rd

    International Workshop Guidelines For Empirical Work In the Workshop Series On Empirical Software Engineering (Wsese). Proceedings, 2005.

    OLIVEIRA, A. S.; MOTTA, R. A. S. M.; CUNHA, G.; SANTOS, R. M.; GOLDSCHMIDT,

    R. R. Minerao de textos: uma experincia usando TMSK e RIKTEXT. RevISTa Publicao tcnico-cientfica do Instituto Superior de Tecnologia em Cincias da Computao

    do Rio de Janeiro, 2011.

    PASSOS, E.; ARANHA, C. A Tecnologia de Minerao de Textos. RESI - Revista

    Eletrnica de Sistemas de Informao, n. 2, 2006.

    REZENDE, S. O.; MARCACINI, R. M.; MOURA, M. F. O uso da Minerao de Textos para

    Extrao e Organizao No Supervisionada de Conhecimento. Revista de Sistemas de

    Informao da FSMA n. 7 (2011) pp. 7-21.

    SANTOS, R. E. S.; CORREIA NETO, J. S.; VILAR, G. Relatrio (Projeto de Extenso)

    Departamento de Informtica da Universidade Federal Rural de Pernambuco DEINFO - UFRPE- Recife, 2011.

    SCHNEIDER, M. O. Processamento de Linguagem Natural (PLN). Relatrio (Curso de

    Mestrado em Sistemas de Computao) Pontifcia Universidade Catlica de Campinas - PUC-

    Campinas, So Paulo, 2001.

    SILVA, T. M. S.. Extrao de Informao para Busca Semntica na Web Baseada em

    Ontologias. Dissertao (Mestrado em Engenharia Eltrica) Universidade Federal de Santa

    Catarina UFSC, Florianopolis 2003.

    SOARES, F. A. Minerao de Textos na Coleta Inteligente de Dados na Web. Dissertao

    (Mestrado em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio de Janeiro, 2008.

    TEIXEIRA FILHO, J. Comunidades Virtuais. Rio de Janeiro, SENAC, 2002.

    TOMAL, M. I.; ALCAR, A. R.; DI CHIARA, I. G. Das redes sociais inovao. Revista

    Cincia da Informao, Braslia, v. 34, n. 2, p. 93-104, maio/ago 2005. Acesso em: 02 mar.

    2012. Disponvel em: http://www.scielo.br/pdf/ci/v34n2/28559.pdf

  • 51

    APNDICE A Protocolo de Reviso Sistemtica

    Formulao da Pergunta

    Visando identificar, analisar e interpretar evidncias do uso de tcnicas de

    processamento de linguagem natural aplicadas minerao de textos nos estudos primrios na

    ltima dcada, o protocolo de reviso sistemtica foi elaborado visando responder as

    seguintes perguntas:

    1. Quais tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto

    sendo aplicadas na minerao de textos?

    2. De que forma eles so aplicados?

    3. Quais so as vantagens e as limitaes observadas nas tcnicas?

    4. Qual a tcnica mais recorrente?

    5. Existe alguma experincia do uso de PLN aplicado minerao de textos

    postados em redes so